МЕТОДЫ ИССЛЕДОВАНИЯМетоды многомерного статистического анализа

МЕТОДЫ КЛАССИФИКАЦИИ

Найдено 1 определение:

МЕТОДЫ КЛАССИФИКАЦИИ

совокупность методов статистич. многомерного анализа. В зависимости от того, в какой области научн. знаний М.к. возникли и получили свое развитие, они наз. методами многомерной классификации, таксономии, кластерного анализа, группировки, автоматич. классификации. М.к. позволяют осуществить разбиение изучаемой совокупности объектов на отдельные группы, называемые классами, таксонами, кластерами. Разбиение производится так, что объекты, отнесенные к одному классу, считаются "похожими", близкими, однотипными, а к разным - "непохожими", далекими, разнотипными. В общем случае искомые классы определяются выполнением на них нек-рых эмпирич. закономерностей. Эти закономерности могут состоять в том, что классы определяются, напр., вполне определенными сочетаниями значений признаков; нек-рыми связями регрессионного характера между признаками; удовлетворением разбиения заданному критерию оптимальности и т. д. Объекты, подлежащие классификации, описываются совокупностью исходных признаков, на основе к-рых формируются классификационные (исходные для алгоритма) признаки. Последние могут не совпадать с исходными как по составу, так и по содержанию, т. к. могут быть получены из исходных посредством преобразования с целью взвешивания признаков, нормирования их значений, выбора среди них информационных и т. д. Эмпирич. закономерность может быть описана с помощью как классификационных, так и исходных признаков. М.к., как и др. методы, нельзя рассматривать в отрыве от тех задач, для решения к-рых они используются. М.к. применяются, как правило, в качестве инструмента анализа типологического (см.) соц. явлений с целью либо построения типологии объектов, либо проверки гипотезы существования предполагаемой типологии. В таких случаях возникновение и развитие этих методов обусловлено необходимостью достижения адекватности М.к. целям типологич. анализа. Первые алгоритмы М.к. возникли из геометрич. представления исходных (для алгоритма. данных: объекты - точки многомерного пространства классификационных признаков. "Похожесть" объектов - близость их расположения в этом пространстве; класс - сгущение объектов (близость - по значениям классификационных признаков) определенной конфигурации. М.к., основанные на геометрич. представлениях позволяют находить классы определенной конфигурации (оболочка сгущения точек). Дальнейшее развитие М.к. обусловлено необходимостью формализации различн. постановок задач построения типологии объектов адекватно их содержательным посылкам. Многообразие постановок задач порождает многообразие в формализации эмпирич. закономерностей (выполняемых на классах) и тем самым - существование различн. процедур классификации. Чтобы применить М.к., осуществить процедуру классификации, требуется задать критерий "похожести" объектов и алгоритм классификации. Искомые закономерности реализуются при задании как критерия "похожести", так и алгритма классификации. Критерий "похожести" в целом ряде методов (в т. ч. и основанных на геометрич. представлениях) задается в явном виде как мера близости (см.) между двумя объектами. В приведенных примерах в качестве меры близости использовалось евклидово расстояние. В социология. исследованиях используемые меры часто носят эвристич. характер. Важно уметь варьировать мерами близости, но не в любом алгоритме можно задавать требуемую меру. В нек-рых М.к. определенного вида мера близости уже заложена в самом алгоритме. Многие классификационные признаки носят номинальный характер. Как правило, в этом случае вся совокупность классфикационных признаков рассматривается на альтернативном уровне, исследователи пользуется соответствующими мерами. Критерий "похожести" может быть задан и исходя из того, что исследователя интересует не близость объектов по значениям классификационных признаков, а имеющая место нек-рая др. закономерность, напр. определенная связь между признаками в виде одинаковости регрессионной зависимости между всеми признаками сразу и целевым признаком (из числа неклассификационных). Алгоритм классификации - процедура, посредством к-рой на основе представлений о "похожести" объектов осуществляется разбиение объектов на классы, т. е. группы, на к-рых выполняется искомая закономерность (частично формализованная уже введением критерия "похожести объектов"). Практически любой алгоритм реализуется при определенных ограничениях, задаваемых в виде параметров М.к. Такими параметрами являются число классов, порог различимости объектов и классов и т. д. Каждый алгоритм классификации обладает рядом свойств. Наиболее важными для исследователя являются свойства, связанные с устойчивостью рез-тов классификации. Знание этих свойств облегчает выбор алгоритма и позволяет четче определить границы интерпретируемости рез-тов его применения. Таковыми свойствами являются следующие признаки. 1. Устойчивость алгоритма относительно переупорядочения объектов. Реализация М.к. предполагает нек-рую упорядоченность объектов с т. зр. порядка поступления на "вход" алгоритма (какой-то объект называется первым, какой-то - вторым и т. д.). В рез-те получаются классы, соответствующие этой упорядоченности. Меняя порядок и применяя алгоритм еще раз, получаем новый рез-т, к-рый может не совпадать с предыдущим. В случае совпадения считается, что алгоритм обладает свойством допустимости относительно переупорядоченности объектов. 2. Устойчивость алгоритма относительно дублирования классов означает, что если объекты нек-рого класса добавить (продублировать) к исходной совокупности объектов и повторить процедуру классификации, границы классов не изменятся. 3. Устойчивость относительно удаления классов. Это означает, что если объекты одного класса удалить из исходной совокупности и повторить классификацию, то границы классов не изменятся. 4. Устойчивость относительно дублирования объектов. Это свойство аналогично второму, с той лишь разницей, что вместо класса рассматривается объект. К числу важных относится и свойство, связанное с тем, что не всякая мера близости (задаваемая в явном виде) может быть использована в любом алгоритме. Это относится к тем алгоритмам, в к-рых, напр., несмотря на явную форму задания меры близости, сам алгоритм может быть реализован только при понимании близости как расстояния. Совокупность М.к. можно сгруппировать по различн. основаниям. Так, в зависимости от объема классифицируемой совокупности и от априорной информации о числе классов принято выделять три типа М.к.: иерархические, параллельные, последовательные. Это деление носит несколько условный характер. Суть иерархии, методов состоит в построении совокупности разбиений, каждое из к-рых получается из предыдущего посредством либо объединения двух и более классов (т. наз. агломеративные алгоритмы), либо разбиения классов (т. наз. дивизимные алгоритмы). В первом случае в качестве начального разбиения служит совокупность N одноэле-ментарных классов (N - число объектов), во втором - начальному разбиению подлежит один класс, состоящий из N элементов. Иерархич. методы (к ним относятся т. наз. методы ближайшего соседа, минимального внутриклассового разброса и т. д.) используются в основном для случая, когда число классов неизвестно и его определение не входит в условие классификационной задачи. Такого рода методы не рекомендуется применять для большого объема данных в силу специфики реализации этих алгоритмов. Параллельные и последовательные М.к. носят итерационный характер. Если первые из них используют параллельно (отсюда и название) все объекты исходной совокупности, то последние - только часть. Последовательные процедуры используются для анализа большого объема информации. В параллельных и последовательных процедурах число классов либо задано, либо подлежит определению. В этих процедурах реализуются различные принципы. Образование классов происходит, напр., по принципу определения мест (в пространстве признаков) наибольшей сгущенности (плотности, концентрации) точек; по принципу оптимизации т. наз. функционала качества разбиения и т. д. Введение функционала качества разбиения связано с возможностью получения разбиения, "лучшего" по нескольким параметрам. Напр., при заданном числе классов можно потребовать, чтобы объекты одного класса были более близки между собой, чем объекты разных классов. Разумеется, одновременно достичь этого невозможно. Поэтому вводится функционал качества разбиения как нек-рая функция, связывающая интересующие параметры, и отыскивается разбиение, на к-ром он принимает максимальное значение. Такого рода функционалов может быть много. Выбор одного из них обусловлен его адекватностью содержательным посылкам решаемой с помощью М.к. задачи. Напр., в качестве такого рода функционала служит сумма (по всем классам) внутригрупповых дисперсий классификационных признаков. Содержательной посылкой здесь является стремление к однородности объектов внутри класса с т. зр. "похожести" их по значениям классификационных признаков. М.к. различаются в зависимости от того, статистический или детерминистский подходы лежат в их основе (см. Анализ данных). Примерами первого являются т. наз. методы разделения смесей, модального анализа и т. д. Большинство М.к. относятся ко второму подходу. Среди них можно выделить две группы методов, ориентированные на следующие важные для социолога ситуации в характере исходных признаков: 1) признаки имеют различн. уровень измерения; 2) признаки играют в процессе классификации различн. роль: одни носят характер признаков-причин (X), другие - признаков-следствий (Y). В первом случае социологи либо переходят к дихотомич. признакам и пользуются методами, предназначенными для признаков количественного характера, либо применяют специальные методы, основанные на поиске классов, на к-рых искомые закономерности носят вид логич. функции. В качестве М.к. могут рассматриваться многие математич. методы: методы факторного анализа, если в роли признаков рассматриваются объекты; методы качественного регрессионного анализа, к-рые по своей сути являются М.к.; методы шкалирования многомерного и т. д. М.к. применяются для сжатия информации и для реализации методов типология, анализа соц. явлений. В первом случае, как правило, требуется разбиение на сравнительно небольшее число однородных групп и не стоит задача определения естественного расслоения исходных объектов, как во втором случае. Роль М.к. в типологии, анализе сводится к формализации этапа разбиения объектов на однородные группы. Как правило, в рамках одного-единственного метода невозможна такая формализация, адекватная содержательным посылкам решаемых задач. Рекомендуется последовательно-параллельное применение совокупности различн. методов. Такого рода стратегии комплексного использования методов основаны на выявлении различи. тенденций в структуре исходных данных. Примером такой стратегии является комплексное использование М.к. для проверки различ. гипотез о структуре расположения объектов в пространстве классификационных признаков (речь идет о М.к., основанных на геометрич. представлениях). В рамках этой стратегии первоначально проверяется гипотеза т. наз. компактности, соответственно для этих целей рекомендуются алгоритмы, позволяющие получить компактные классы. Тем самым определяется наличи сгущений точек посредством многократного повторения процедуры классификации при различн. значениях параметров алгоритма. Компактные классы могут иметь различ. конфигурацию. Напр., в двумерном пространстве они могут быть в виде кругов. Далее переходят к проверке гипотезы "связанности", чтобы убедиться в наличии (отсуствии) связи между отдельными компактными классами. При наличии такой связи наблюдается "цепочный эффект", и объекты одного класса могут оказаться более далекими (в смысле меры близости), чем объекты разных классов. Конфигурация классов в двумерном пространстве может иметь вид овала (метод "ближайшего соседа"), вид "облаков" (метод регрессионного характера). Проверка следующей гипотезы обусловлена тем, что в реальных задачах исходные данные плохо структурированы, т е сгущения, если они и имеются, сопровождаются "шумами". В таких ситуациях процедура классификации не дает "хорошие" (в смысле компактности и связанности) классы, резко отделенные друг от друга в признаковом пространстве. Тогда проверяется гипотеза о существовании областей с высокой концентрацией точек. В качестве М.к. для этих целей могут служить методы модального анализа, где класс - одномодальная совокупность точек, имеющая высокую концентрацию к центру. Центр является "модой", напр., это объект, вокруг к-рого находится самое большое количество точек. Проверка всех перечисленных гипотез дает представление о структуре взаимного расположения точек. При интерпретации рез-тов применения М.к. важным является выбор способов описания полученных классов. В качестве таковых могут рассматриваться, напр., распределения как классификационных, так и исходных признаков, а также показатели этих распределений. Основная цель интерпретации, как правило, - переход от формальной классификации к содержательной типологии. См. также: Группировка, Метод типологизации лингвистический, Анализ типологический.

Лит.: Зайгоруйко Н.Г., Заславская Т.И. Методы Распознавания образов в социальных исследованиях//Социология и математика. Новосибирск, 1970; Айвазян С.А., Бежаева З.И., Староверов О.В. Классификация многомерных наблюдений. М., 1977; Дюран Б., Оделл П. Кластерный анализ. М., 1977; Типология потребления. М., 1978; Саморегуляция и прогнозирование социального поведения личности. Л., 1979; Статистические методы анализа информации в социологических исследованиях. М., 1979; Социально-демографическое развитие села (региональный анализ) М., 1980; Классификация и кластер. М., 1980; Типология и классификация в социологических исследованиях. М., 1982; Рабочая книга социолога. М., 1983. Г.Г. Татарова.

Оцените определение:
↑ Отличное определение
Неполное определение ↓

Источник: Российская социологическая энциклопедия

Найдено схем по теме МЕТОДЫ КЛАССИФИКАЦИИ — 0

Найдено научныех статей по теме МЕТОДЫ КЛАССИФИКАЦИИ — 0

Найдено книг по теме МЕТОДЫ КЛАССИФИКАЦИИ — 0

Найдено презентаций по теме МЕТОДЫ КЛАССИФИКАЦИИ — 0

Найдено рефератов по теме МЕТОДЫ КЛАССИФИКАЦИИ — 0