Парногрупповой метод кластеризации в животноводстве
Применение кластерного анализа значительно расширяет возможности построения селекционных индексов на научной основе и создает объективные предпосылки повышения эффективности селекционной работы.
Кластерный анализ позволяет сгруппировать исходные признаки в достаточно однородные совокупности (кластеры), внутри которых корреляция выше, чем между ними. Такие кластеры рассматриваются как независимые, что допускает их последующий раздельный анализ. Таким образом, достигается расчленение исследуемого фенотипа на отдельные подсистемы без искажения их сущности. Теперь, если в каждой подсистеме выделить один определяющий признак, тесно коррелирующий с остальными признаками кластера, то совокупность таких признаков можно с достаточной достоверностью принять в качестве исходных признаков для построения селекционного индекса. Следовательно, кластеризацию можно рассматривать как первый этап на пути построения индексной оценки задачи с высокой размерностью.
Поскольку цель кластерного анализа - выделение групп, сформированных по уровням тесноты связи, то исходным объектом анализа служит полная корреляционная матрица парных коэффициентов корреляции. Для обработки этой матрицы удобно использовать парногрупповой метод (метод средних групп) кластеризации. Суть его состоит в том, что на каждом шаге кластеризации выявляется пара признаков (или ранее сформированных кластеров) с максимальным коэффициентом корреляции (rmax), и эта пара объектов для дальнейшего рассмотрения замещается эквивалентной совокупностью (кластером) по принципу усреднения. При этом коэффициент корреляции образованного кластера со всеми оставшимися исходными признаками или ранее сформированными кластерами вычисляются как полусуммы соответствующих коэффициентов корреляции двух выявленных объектов. Таким образом, размерность задачи уменьшается на единицу. Ясно, что в результате такой процедуры на каждом последующем шаге значение rmax уменьшается и на последнем шаге все признаки оказываются объектами одного кластера с самым низким уровнем тесноты связи. Он и характеризует общий фон корреляции всех признаков, описывающих исследуемый фенотип.





