АНАЛИЗ ДИСПЕРСИОННЫЙ
Источник: Большой словарь по социологии, проект www.rusword.com.ua
Источник: Социологический словарь проекта Socium
Источник: Большой толковый социологический словарь
Первоначально А.Д. был разработан для обработки данных, полученных в ходе специально поставленных экспериментов , и считался единственным методом, корректно исследующим причинные связи. Однако в последние годы, вследствие общей либерализации взглядов на природу статистического анализа, он применяется также к данным, собранным в результате выборочных обследований, если численность выделяемых групп не слишком велика.
В основе метода лежит сравнение средних значений зависимой переменной для групп, образованных комбинациями факторов (сами значения факторов не рассматриваются). Это обстоятельство позволяет некоторым авторам рассматривать А.Д. как обобщение t-критерия Стьюдента, предназначенного для сравнения средних значений переменной в двух группах.
В А.Д. все различия в значениях зависимой переменной (y) объясняются двумя причинами: ее "собственной" или "естественной" изменчивостью, а также изменчивостью, вызванной влиянием независимых переменных, которые в данном случае называются факторами ( Дисперсия объясненная). Соответственно сумма квадратов зависимой переменной SSобщая = (yij - y)2, где j - номер группы, к которой принадлежит объект с номером i, может быть разложена на две составляющие, одна из которых отражает собственную изменчивость y, а вторая - изменчивость, вызванную влиянием факторов:
SSобщая = SSвнутригрупповая + SSмежгрупповая .
Модель однофакторного А.Д. предполагает, что среднее значение зависимой переменной y в группе с номером j (yj) зависит, во-первых, от среднего значения y по всей совокупности и, во-вторых, от эффекта j-го значения фактора xj, который обозначается альфаj : yj = y + альфаj. Если фактор x не влияет на зависимую переменную y, то все альфаj = 0 и, следовательно, все yj = y, т.е. не отличаются друг от друга. Проверка гипотезы о влиянии фактора на зависимую переменную сводится к проверке нулевой гипотезы о том, что все альфаj равны нулю (H0 : альфаj = 0 для всех значений j), означающей также, что все групповые средние равны друг другу, против альтернативной гипотезы, состоящей в том, что хотя бы для некоторых значений фактора xj эффекты альфаj отличны от нуля (H1 : альфаj не равно 0 хотя бы для некоторых j). Принятие нулевой гипотезы означает признание независимости переменной y от фактора x; ее отклонение (и, соответственно, принятие альтернативной гипотезы) может служить подтверждением исследуемой причинной зависимости.
Результаты однофакторного А.Д. представляются в виде стандартной таблицы, известной как таблица А.Д. ( Таблицу 1 Приложения.)
Если H0 верна, то F-отношение имеет распределение Фишера с dfмгр = k - 1 и dfвнгр = n - k степенями свободы . Нулевая гипотеза должна быть отклонена, если вычисленное значение F превысит критическое значение F1-альфа, где альфа - заданный уровень значимости .
Многофакторный А.Д. концептуально не отличается от однофакторного. В двух- и многофакторных моделях проверяется ряд гипотез о влиянии на зависимую переменную каждого отдельно взятого фактора, а также их всевозможных сочетаний, что математически выражается в гипотезах о равенстве нулю прямых эффектов факторов и эффектов их взаимодействия. Для проверки таких гипотез межгрупповая сумма квадратов (SSмежгрупповая), представляющая вариацию зависимой переменной под общим влиянием всех факторов, делится на более мелкие составляющие, каждая из которых представляет прямой эффект одного из факторов или один из эффектов взаимодействия.
А.Д. не позволяет судить о том, как именно влияют факторы на значение зависимой переменной, т.е. в каких конкретно группах средние достоверно различаются. Для проверки конкретных гипотез о характере таких различий используются метод парных сравнений и методы множественных сравнений .
О.В. Терещенко
Источник: Социология: энциклопедия
Таблица 1.
А
В 1 2 3
1 {Y11} {Y12} {Y13}
2 {Y21} {Y22} {Y23}
Значения табл. 1, отвечающие градации i фактора А и градации j фактора В, представляют собой совокупность значений Y – {уij}, называемую (ij)-й ячейкой. Так, в (1,1)-ячейке представлена совокупность {Yn} значений удовлетворенности трудом мужчин со средним образованием, а в (2, 3)-ячейке – совокупность {Y23} значений удовлетворенности трудом женщин с высшим образованием. Градации факторов наз. уровнями факторов. Наиболее благоприятные условия для применения А.д. в предположении независимости факторов: данные, представленные в отдельной ячейке, подчинены нормальному закону распределения (см. Распределение вероятностей), число наблюдений в ячейках одинаково, дисперсия признака Y в ячейках одинакова. Общая вариация (SS) признака Y, отвечающего табл. 1, может быть разложена на компоненты, каждая из к-рых обусловлена вполне определенным источником дисперсии (вариации) lower case «Sigma»2. Число источников зависит от числа изучаемых факторов. Для одного фактора A SS = SSA+ SSOC (1), для двух факторов А и В SS= = SSA+ SSB + SSAB + SSOC (2), а для трех факторов А, В, С SS = SS + SSB + SSC + SSAB + SSAC + SSBC + SSABC +SSOC (3). В каждое разложение (1)–(3) входят три группы компонент. Компоненты первой группы – SSA, SSB, SSC (с одним индексом) – обусловлены т.н. главными эффектами факторов. В нашем примере SSA – компонента вариации удовлетворенности трудом, обусловленная возрастом и только им. Ее можно получить усреднением значений удовлетворенности по полу и внутри ячеек, т. е. рассмотреть всего три значения средней удовлетворенности: для респондентов со средним образованием, со средним специальным и с высшим. По этим значениям легко вычисляется SSA, на основе к-рой получается оценка дисперсии признака Y при действии только фактора образования без принятия во внимание остальных источников дисперсии. По существу, речь идет о "чистом" влиянии фактора образования. Компоненты второй группы – SSABC – обусловлены т.н. взаимодействиями факторов. SSAB – компонента вариации удовлетворенности трудом, обусловленная одновременным действием на такую удовлетворенность и возраста, и пола респондента. Ее можно получить усреднением данных внутри ячеек, т. е. на основе шести (по числу ячеек) значений удовлетворенности. Третья группа компонент вариации Y, состоящая из SSOC, представляет собой т.н. остаточную вариацию. Ее источником служат все неучтенные факторы, влияние к-рых обнаруживается при анализе изменчивости признака Y внутри ячеек. Естественно предположить, что эти факторы одинаково действуют на изменчивость в каждой ячейке (отсюда и возникает требование равенства дисперсий и нормальности распределения в ячейках, о к-рых говорилось выше). Процедура А.д. начинается с вычисления перечисленных выше компонент. На основе этих компонент рассчитываются различ. оценки дисперсии. Число таких оценок равно числу источников дисперсии. Эти оценки называют средними квадратами. Вычисляются они делением значения соответствующей компоненты SS на отвечающее ей число степеней свободы. В табл. 2 приведено число степеней свободы для случая двухфакторного разложения, когда число уровней фактора А равно r, а фактора В – с и число наблюдений в ячейках одинаково и равно n.
Таблица 2.
Компонента SSA SSB SSAB SSOC SS
Число степеней свободы r-1 с-1 (r-l)(c-l) rc(n-l) N-1
В нашей задаче r = 3, с = 2. Суждение о значимости влияния того или иного источника дисперсии выносится после сравнения оценки дисперсии, отвечающей этому источнику, с оценкой, вычисленной на основе SS. Подобное сравнение осуществляется посредством критерия Фишера (F-критерий). Для этого вычисляется значение отношения двух оценок. Напр., при сравнении оценок SSA/(r–1) и SSoc/[rc(n–l)] (для выявления "чистого" влияния фактора А на изменчивость признака Y) вычисляется величина FA=SSArc(n-l)/[SSoc(r–1)]. Полученная величина сравнивается с табличным значением F , к-рое определяется однозначно при заданных степенях свободы и для заданного уровня значимости (cм. Проверка статистических гипотез). Если окажется, что FA> FT, то влияние фактора А статистически значимо. Предположим, что в нашей задаче SSA= 3,5; SSOC= 7,0; n=6. Тогда гипотеза о значимости влияния образования подтверждается, т.к. FA = 7,5, т. е. больше, чем FT= 4,17, при уровне значимости α=0,05 и степенях свободы ν1=3–1=2; ν2=rc(n–l)=30(α,ν1,ν2) – традиционные обозначения упомянутых величин в таблицах F-кри-терия). Проверка этой гипотезы есть не что иное, как проверка гипотезы о равенстве средних значений удовлетворенности на различных уровнях фактора образования. Если средние удовлетворенности для респондентов со средним, средним специальным и высшим образованием не равны между собой (в статистич. смысле различие значимо), то влияние образования на удовлетворенность трудом значимо. В А.д. "влияние" понимается именно в этом смысле. Рассмотренная процедура А.д. возможна (т. е. SS разложима) лишь в предположении некрой модели изучаемого явления, описываемого посредством Y, А, В, .... А.д., по существу, представляет собой совокупность методов, каждый из к-рых предполагает определенную модель обусловленности значения Y тем, какие значения принимают рассматриваемые факторы А, В,..., и возможностями получения наблюдений при различ. сочетании уровней факторов (та или иная модель подобного рода предполагается при использовании любого математич. метода). Мы рассмотрим лишь наиболее простую из них, в предположении к-рой и стало возможным разложение типа (1), (2) или (3). Для случая двух факторов она имеет вид Yijk=μ+αi+βi+γij.+lijk где {lijk} независимы и распределены нормально с параметрами (0,lower case «Sigma»2), т. е. со средним значением 0 и дисперсией lower case «Sigma»2 (cм. Распределение вероятностей); .
Для нашей задачи это означает, что оценка удовлетворенности трудом k-го респондента (Yijk с i-м уровнем образования, j-то пола представляет собой сумму нескольких величин (т. е. имеем дело с математич. моделью линейной), где μ – средняя "генеральная" удовлетворенность, статистич. оценкой (см. Оценивание статистич.) этой величины служит среднее значение признака Y по всем наблюдениям, представленным в табл. 1, т. е. средняя удовлетворенность всех респондентов, αi – главный эффект i-го уровня фактора А. Его оценкой является превышение среднего значения удовлетворенности респондентов с i-м образованием над средней удовлетворенностью всех респондентов; аналогично определяется βi как главный эффект j-ro уровня фактора В; γij – взаимодействие i-го уровня фактора А с j-м уровнем фактора В. Принятый в литературе термин "взаимодействие факторов" означает совместное воздействие рассматриваемых факторов на Y. Так, в приведенном примере может оказаться, что ни одна градация пола и ни одна градация образования не определяют к.-л. специфич. уровня удовлетворенности трудом (мужчины и женщины удовлетворены примерно одинаково, то же справедливо для разных уровней образования). Однако какое-то сочетание (из шести градаций этих факторов) может быть связанным с каким-то выделяющимся значением удовлетворенности (напр., может оказаться, что женщины со средним образованием намного более удовлетворены трудом, чем все остальные рассматриваемые группы (ячейки) респондентов). Именно тогда и говорят о взаимодействии факторов (в нашем примере взаимодействуют пол и образование). Понятие "взаимодействие" можно трактовать и несколько по-иному (см. Анализ регрессионный). Поясним, как рассчитывается оценка γij. Оценка γ12 – взаимодействие среднего образования с женщинами.– вычисляется как разность двух величин. Первая – превышение средней удовлетворенности женщин со средним образованием над средней удовлетворенностью всех респондентов со средним образованием (т. е. оценка главного эффекта второго уровня фактора "пол", вычисленная относительно первого уровня фактора "образование"), а вторая – превышение средней удовлетворенности трудом всех женщин над средней удовлетворенностью всех респондентов (т. е. оценка главного эффекта второго уровня фактора "пол"). Lijk – ошибка наблюдения. Эта величина оценивается путем вычисления меры изменчивости удовлетворенности трудом у респондентов, имеющих одни и те же пол и образование. Последнее равенство в описании модели вытекает из определения αi и βi. Смысл сравнения FA с FT (о чем шла речь выше) на языке модели А.д. – проверка гипотезы, что все αi=0. Если гипотеза о значимости влияния образования на удовлетворенность трудом принимается (т. е. не все αi =0), то можно проверить, напр., гипотезу об одинаковости влияния среднего и высшего образования на оценку удовлетворенности трудом. Выявляется, какие же из αi не равны нулю. Для проверки таких гипотез служат методы множественного сравнения: метод Тьюки (Т-метод) и метод Шеффе (S-метод). Естественно, что при решении конкретных задач условия применимости А.д. не всегда выполняются. А.д. можно применять и при их нарушении, но при этом: 1) нарушение нормальности распределения в ячейках возможно при больших значениях числа степеней свободы; 2) нарушение равенства дисперсий в ячейках возможно, если число наблюдений в ячейках равное; 3) нарушение независимости наблюдений в ячейках недопустимо. Лит.: Шеффе Г. Дисперсионный анализ. М., 1962; Гласе Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М., 1976: Статистические методы анализа информации в социологических исследованиях. М., 1979. Г.Г. Татарова
Источник: Российская социологическая энциклопедия