АНАЛИЗ ДИСПЕРСИОННЫЙ

Найдено 5 определений
Показать: [все] [проще] [сложнее]

Автор: [российский] Время: [современное]

АНАЛИЗ ДИСПЕРСИОННЫЙ
англ. analysis, dispersion; нем. Dispersionanalyse. Предложенный Р. Фишером метод выявления систематических различий между результатами непосредственных измерений, выполненных при тех или иных меняющихся условиях.

Источник: Большой словарь по социологии, проект www.rusword.com.ua

Дисперсионный анализ
метод статистического анализа, позволяющий определить достоверность гипотезы о различиях в средних значениях на основании сравнения дисперсий распределений. Этот метод имеет смысл только лишь для интервальных переменных с наложенными дополнительными ограничениями.

Источник: Социологический словарь проекта Socium

ДИСПЕРСИОННЫЙ АНАЛИЗ (АНОВА)
analysis of variance) (Статистика) — процедура, используемая для проверки того, действительно ли можно обнаружить различия между целями нескольких групп, вероятно, в тех слоях населения, из которых выбраны эти группы. Например, три группы людей с разным уровнем образования, для которых ставится цель возможности повышения уровня зарплаты. Анова обеспечивает проверку статистически значимых разли чий в целях посредством деления всего многообразия наблюдени на два типа. Один — "внутригрупповое" разнообразие — есть разница внутри каждой группы выборки, а другой — "межгрупповое" разнообразие — разнообразие между групповыми целями. Если последнее во многом сравнимо с первым, то, скорее всего, цели слоев населения не равны. В основе применения дисперсионного анализа лежат следующие предположения: (а) каждая группа должна быть случайной выборкой из обычного населения (см. Нормальное распределение), (б) разброс групп в населении одинаков. Однако методика удобна и может использоваться, даже если не обеспечены нормальность и предполагаемый равный разброс. Условие о проведении случайной выборки при этом, тем не менее, необходимо. См. также Проверка значимости.

Источник: Большой толковый социологический словарь

АНАЛИЗ ДИСПЕРСИОННЫЙ (ANOVA)
статистический метод, предназначенный для исследования причинной связи между переменной зависимой и одной или несколькими независимыми переменными (факторами). По числу независимых переменных, различают однофакторный А.Д., двухфакторный А.Д. и т.д. (не путать с Анализом факторным!) Зависимая переменная может быть только количественной, в то время как независимые переменные могут быть представлены номинальными, порядковыми или количественными шкалами (последние должны быть дискретными или сгруппироваными в интервалы).
Первоначально А.Д. был разработан для обработки данных, полученных в ходе специально поставленных экспериментов , и считался единственным методом, корректно исследующим причинные связи. Однако в последние годы, вследствие общей либерализации взглядов на природу статистического анализа, он применяется также к данным, собранным в результате выборочных обследований, если численность выделяемых групп не слишком велика.
В основе метода лежит сравнение средних значений зависимой переменной для групп, образованных комбинациями факторов (сами значения факторов не рассматриваются). Это обстоятельство позволяет некоторым авторам рассматривать А.Д. как обобщение t-критерия Стьюдента, предназначенного для сравнения средних значений переменной в двух группах.
В А.Д. все различия в значениях зависимой переменной (y) объясняются двумя причинами: ее "собственной" или "естественной" изменчивостью, а также изменчивостью, вызванной влиянием независимых переменных, которые в данном случае называются факторами ( Дисперсия объясненная). Соответственно сумма квадратов зависимой переменной SSобщая = (yij - y)2, где j - номер группы, к которой принадлежит объект с номером i, может быть разложена на две составляющие, одна из которых отражает собственную изменчивость y, а вторая - изменчивость, вызванную влиянием факторов:
SSобщая = SSвнутригрупповая + SSмежгрупповая .
Модель однофакторного А.Д. предполагает, что среднее значение зависимой переменной y в группе с номером j (yj) зависит, во-первых, от среднего значения y по всей совокупности и, во-вторых, от эффекта j-го значения фактора xj, который обозначается альфаj : yj = y + альфаj. Если фактор x не влияет на зависимую переменную y, то все альфаj = 0 и, следовательно, все yj = y, т.е. не отличаются друг от друга. Проверка гипотезы о влиянии фактора на зависимую переменную сводится к проверке нулевой гипотезы о том, что все альфаj равны нулю (H0 : альфаj = 0 для всех значений j), означающей также, что все групповые средние равны друг другу, против альтернативной гипотезы, состоящей в том, что хотя бы для некоторых значений фактора xj эффекты альфаj отличны от нуля (H1 : альфаj не равно 0 хотя бы для некоторых j). Принятие нулевой гипотезы означает признание независимости переменной y от фактора x; ее отклонение (и, соответственно, принятие альтернативной гипотезы) может служить подтверждением исследуемой причинной зависимости.
Результаты однофакторного А.Д. представляются в виде стандартной таблицы, известной как таблица А.Д. ( Таблицу 1 Приложения.)
Если H0 верна, то F-отношение имеет распределение Фишера с dfмгр = k - 1 и dfвнгр = n - k степенями свободы . Нулевая гипотеза должна быть отклонена, если вычисленное значение F превысит критическое значение F1-альфа, где альфа - заданный уровень значимости .
Многофакторный А.Д. концептуально не отличается от однофакторного. В двух- и многофакторных моделях проверяется ряд гипотез о влиянии на зависимую переменную каждого отдельно взятого фактора, а также их всевозможных сочетаний, что математически выражается в гипотезах о равенстве нулю прямых эффектов факторов и эффектов их взаимодействия. Для проверки таких гипотез межгрупповая сумма квадратов (SSмежгрупповая), представляющая вариацию зависимой переменной под общим влиянием всех факторов, делится на более мелкие составляющие, каждая из которых представляет прямой эффект одного из факторов или один из эффектов взаимодействия.
А.Д. не позволяет судить о том, как именно влияют факторы на значение зависимой переменной, т.е. в каких конкретно группах средние достоверно различаются. Для проверки конкретных гипотез о характере таких различий используются метод парных сравнений и методы множественных сравнений .
О.В. Терещенко

Источник: Социология: энциклопедия

АНАЛИЗ ДИСПЕРСИОННЫЙ
метод статистики математической (см.), предназна­ченной для выявления влияния отдельных не­зависимых друг от друга признаков, традицион­но называемых факторами (А, В, С, ...), на нек-рый наблюдаемый признак (Y). Концепция А.д. предложена Р. Фишером в 1920 г. и состоит в выделении и сравнении между собой различн. компонент дисперсии признака Y (отсюда и на­звание метода). Эти компоненты выделяются посредством разложения вариации (SS) призна­ка Y на составные части. Сравнение компонент позволяет делать вывод о значимости или не­значимости влияния отдельного фактора на из­менчивость признака Y. Величина SS =, где N – число наблюдений (т. е. число объек­тов), – среднее значение (см. Величины сред­ние) признака Y, уi. – i-е значение признака Y (т. е. значение для i-го объекта), наз. вариацией при­знака Y. Она представляет собой числитель фор­мулы для вычисления дисперсии признака (см. Меры рассеяния). А.д., возникший как метод планирования эксперимента (Р. Фишер предло­жил А.д. для обработки рез-тов опытов по выяв­лению условий, при к-рых испытываемый сорт сельскохозяйственной культуры дает максималь­ный урожай), используется как метод анализа данных (см.) для выявления систематич. разли­чий между рез-тами непосредственных измере­ний, выполненных при тех или иных меняющихся условиях (что особенно важно для социологии). Для применения А.д. требуется определенная структура представления исходных данных. Рас­смотрим это на примере выявления влияния об­разования (фактор А) и пола (фактор В) на удовлетворенность трудом (признак Y) в предполо­жении, что образование как признак (фактор) имеет три градации (1 – среднее, 2 – среднее специальное, 3 – высшее), пол – две градации 1 – мужской, 2 – женский), а признак Y – некий индекс удовлетворенности трудом, носящий количественный характер (см. Признак). Тогда для применения А.д. значения признака Y должны быть представлены в виде:

Таблица 1.

А

В 1 2 3

1 {Y11} {Y12} {Y13}

2 {Y21} {Y22} {Y23}

Значения табл. 1, отвечающие градации i фактора А и градации j фактора В, представля­ют собой совокупность значений Y – {уij}, назы­ваемую (ij)-й ячейкой. Так, в (1,1)-ячейке пред­ставлена совокупность {Yn} значений удовлетво­ренности трудом мужчин со средним образова­нием, а в (2, 3)-ячейке – совокупность {Y23} зна­чений удовлетворенности трудом женщин с выс­шим образованием. Градации факторов наз. уров­нями факторов. Наиболее благоприятные усло­вия для применения А.д. в предположении неза­висимости факторов: данные, представленные в отдельной ячейке, подчинены нормальному за­кону распределения (см. Распределение вероят­ностей), число наблюдений в ячейках одинако­во, дисперсия признака Y в ячейках одинакова. Общая вариация (SS) признака Y, отвечаю­щего табл. 1, может быть разложена на компо­ненты, каждая из к-рых обусловлена вполне определенным источником дисперсии (вариации) lower case «Sigma»2. Число источников зависит от числа изучае­мых факторов. Для одного фактора A SS = SSA+ SSOC (1), для двух факторов А и В SS= = SSA+ SSB + SSAB + SSOC (2), а для трех факторов А, В, С SS = SS + SSB + SSC + SSAB + SSAC + SSBC + SSABC +SSOC (3). В каждое разложение (1)–(3) входят три группы компонент. Компоненты пер­вой группы – SSA, SSB, SSC (с одним индексом) – обусловлены т.н. главными эффектами факторов. В нашем примере SSA – компонента вариации удовлетворенности трудом, обусловленная воз­растом и только им. Ее можно получить усред­нением значений удовлетворенности по полу и внутри ячеек, т. е. рассмотреть всего три значе­ния средней удовлетворенности: для респонден­тов со средним образованием, со средним специ­альным и с высшим. По этим значениям легко вычисляется SSA, на основе к-рой получается оценка дисперсии признака Y при действии толь­ко фактора образования без принятия во внима­ние остальных источников дисперсии. По суще­ству, речь идет о "чистом" влиянии фактора образования. Компоненты второй группы – SSABC – обусловлены т.н. взаимодействиями фак­торов. SSAB – компонента вариации удовлетво­ренности трудом, обусловленная одновременным действием на такую удовлетворенность и воз­раста, и пола респондента. Ее можно получить усреднением данных внутри ячеек, т. е. на осно­ве шести (по числу ячеек) значений удовлетво­ренности. Третья группа компонент вариации Y, со­стоящая из SSOC, представляет собой т.н. остаточную вариацию. Ее источником служат все не­учтенные факторы, влияние к-рых обнаружи­вается при анализе изменчивости признака Y внутри ячеек. Естественно предположить, что эти факторы одинаково действуют на изменчивость в каждой ячейке (отсюда и возникает требова­ние равенства дисперсий и нормальности рас­пределения в ячейках, о к-рых говорилось выше). Процедура А.д. начинается с вычисления перечисленных выше компонент. На основе этих компонент рассчитываются различ. оценки дис­персии. Число таких оценок равно числу источ­ников дисперсии. Эти оценки называют средни­ми квадратами. Вычисляются они делением зна­чения соответствующей компоненты SS на отве­чающее ей число степеней свободы. В табл. 2 приведено число степеней свободы для случая двухфакторного разложения, когда число уров­ней фактора А равно r, а фактора В – с и число наблюдений в ячейках одинаково и равно n.

Таблица 2.

Компонента SSA SSB SSAB SSOC SS

Число степеней свободы r-1 с-1 (r-l)(c-l) rc(n-l) N-1

В нашей задаче r = 3, с = 2. Суждение о значимости влияния того или иного источника дисперсии выносится после сравнения оценки дисперсии, отвечающей этому источнику, с оцен­кой, вычисленной на основе SS. Подобное срав­нение осуществляется посредством критерия Фишера (F-критерий). Для этого вычисляется значение отношения двух оценок. Напр., при сравнении оценок SSA/(r–1) и SSoc/[rc(n–l)] (для выявления "чистого" влияния фактора А на из­менчивость признака Y) вычисляется величина FA=SSArc(n-l)/[SSoc(r–1)]. Полученная величи­на сравнивается с табличным значением F , к-рое определяется однозначно при заданных степенях свободы и для заданного уровня зна­чимости (cм. Проверка статистических гипо­тез). Если окажется, что FA> FT, то влияние фак­тора А статистически значимо. Предположим, что в нашей задаче SSA= 3,5; SSOC= 7,0; n=6. Тогда гипотеза о значимости влия­ния образования подтверждается, т.к. FA = 7,5, т. е. больше, чем FT= 4,17, при уровне значи­мости α=0,05 и степенях свободы ν1=3–1=2; ν2=rc(n–l)=30(α,ν1,ν2) – традиционные обозна­чения упомянутых величин в таблицах F-кри-терия). Проверка этой гипотезы есть не что иное, как проверка гипотезы о равенстве средних значений удовлетворенности на различных уровнях фактора образования. Если средние удовлетво­ренности для респондентов со средним, средним специальным и высшим образованием не равны между собой (в статистич. смысле различие зна­чимо), то влияние образования на удовлетворен­ность трудом значимо. В А.д. "влияние" понима­ется именно в этом смысле. Рассмотренная процедура А.д. возможна (т. е. SS разложима) лишь в предположении нек­рой модели изучаемого явления, описываемого посредством Y, А, В, .... А.д., по существу, пред­ставляет собой совокупность методов, каждый из к-рых предполагает определенную модель обусловленности значения Y тем, какие значения принимают рассматриваемые факторы А, В,..., и возможностями получения наблюдений при раз­лич. сочетании уровней факторов (та или иная модель подобного рода предполагается при ис­пользовании любого математич. метода). Мы рас­смотрим лишь наиболее простую из них, в пред­положении к-рой и стало возможным разложе­ние типа (1), (2) или (3). Для случая двух факто­ров она имеет вид Yijk=μ+αi+βi+γij.+lijk где {lijk} независимы и распределены нормально с пара­метрами (0,lower case «Sigma»2), т. е. со средним значением 0 и дисперсией lower case «Sigma»2 (cм. Распределение вероятностей); .

Для нашей задачи это означает, что оценка удовлетворенности трудом k-го респондента (Yijk с i-м уровнем образования, j-то пола представ­ляет собой сумму нескольких величин (т. е. име­ем дело с математич. моделью линейной), где μ – средняя "генеральная" удовлетворенность, статистич. оценкой (см. Оценивание статистич.) этой величины служит среднее значение при­знака Y по всем наблюдениям, представленным в табл. 1, т. е. средняя удовлетворенность всех респондентов, αi – главный эффект i-го уровня фактора А. Его оценкой является превышение среднего значения удовлетворенности респонден­тов с i-м образованием над средней удовлетво­ренностью всех респондентов; аналогично опре­деляется βi как главный эффект j-ro уровня фак­тора В; γij – взаимодействие i-го уровня факто­ра А с j-м уровнем фактора В. Принятый в ли­тературе термин "взаимодействие факторов" оз­начает совместное воздействие рассматриваемых факторов на Y. Так, в приведенном примере мо­жет оказаться, что ни одна градация пола и ни одна градация образования не определяют к.-л. специфич. уровня удовлетворенности трудом (мужчины и женщины удовлетворены примерно одинаково, то же справедливо для разных уров­ней образования). Однако какое-то сочетание (из шести градаций этих факторов) может быть свя­занным с каким-то выделяющимся значением удовлетворенности (напр., может оказаться, что женщины со средним образованием намного более удовлетворены трудом, чем все остальные рассматриваемые группы (ячейки) респондентов). Именно тогда и говорят о взаимодействии фак­торов (в нашем примере взаимодействуют пол и образование). Понятие "взаимодействие" можно трактовать и несколько по-иному (см. Анализ регрессионный). Поясним, как рассчитывается оценка γij. Оценка γ12 – взаимодействие средне­го образования с женщинами.– вычисляется как разность двух величин. Первая – превышение средней удовлетворенности женщин со средним образованием над средней удовлетворенностью всех респондентов со средним образованием (т. е. оценка главного эффекта второго уровня фактора "пол", вычисленная относительно первого уровня фактора "образование"), а вторая – превышение средней удовлетворенности трудом всех женщин над средней удовлетворенностью всех респондентов (т. е. оценка главного эффекта второго уровня фактора "пол"). Lijk – ошибка на­блюдения. Эта величина оценивается путем вы­числения меры изменчивости удовлетворенности трудом у респондентов, имеющих одни и те же пол и образование. Последнее равенство в опи­сании модели вытекает из определения αi и βi. Смысл сравнения FA с FT (о чем шла речь выше) на языке модели А.д. – проверка гипоте­зы, что все αi=0. Если гипотеза о значимости влияния образования на удовлетворенность тру­дом принимается (т. е. не все αi =0), то можно проверить, напр., гипотезу об одинаковости влия­ния среднего и высшего образования на оценку удовлетворенности трудом. Выявляется, какие же из αi не равны нулю. Для проверки таких гипотез служат методы множественного сравнения: ме­тод Тьюки (Т-метод) и метод Шеффе (S-метод). Естественно, что при решении конкретных задач условия применимости А.д. не всегда выполняются. А.д. можно применять и при их на­рушении, но при этом: 1) нарушение нормально­сти распределения в ячейках возможно при боль­ших значениях числа степеней свободы; 2) на­рушение равенства дисперсий в ячейках возмож­но, если число наблюдений в ячейках равное; 3) нарушение независимости наблюдений в ячей­ках недопустимо. Лит.: Шеффе Г. Дисперсионный анализ. М., 1962; Гласе Дж., Стэнли Дж. Статистические методы в педаго­гике и психологии. М., 1976: Статистические методы анали­за информации в социологических исследованиях. М., 1979. Г.Г. Татарова

Источник: Российская социологическая энциклопедия