Полная версия

Главная arrow Статистика arrow Многомерный статистический анализ эколого-геохимических измерений. Ч.1. Математические основы

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Дисперсионный анализ

Дисперсионный анализ [1, 3, 43, 44] - статистический метод, позволяющий анализировать влияние различных факторов (категориальных, группирующих, независимых переменных), обозначаемых латинскими буквами А,В,С и т. д., на результаты эксперимента (зависимые переменные). Для проведения дисперсионного анализа необходимо, чтобы независимая переменная была категориальной, а зависимая - метрической. Например, факторами, влияющими на содержание микроэлементов в пробе, могут быть: А - метод геохимического анализа (ИНАА, ISP), В - территория (гг. Томск, Междуреченск, Стрежевой), С- среда съёмки (почва, снег, зола, накипь). В этом случае говорят о применении 3-х факторного дисперсионного анализа для исследования влияния 3-х факторов (А - метод геохимического анализа с 2-мя уровнями; В - территория с 3-мя уровнями и С - среда съемки с 4-мя уровнями) на содержание микроэлементов в пробе.

Суть дисперсионного анализа (,analysis of variance - сокращенно ANOVA) заключается в разложении дисперсии измеряемого признака на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.

Анализ основан на расчете F-статистики (статистика Фишера), которая представляет собой отношение двух дисперсий: межгрупповой и внутригрупповой. F-тест в однофакторном дисперсионном анализе определяет, значимо ли различаются средние нескольких независимых выборок. Он заменяет f-тест (1.25) для независимых выборок при наличии более двух выборок и дает тот же результат в случае двух выборок.

Дисперсионный анализ в терминах общей линейной модели позволил рассматривать с единой точки зрения не только задачи множественного сравнения средних, но и задачи оценивания и проверки гипотез в моделях регрессии, факторного анализа, а также классификации объектов.

В случае применения дисперсионного анализа строят математическую модель, т. е. математическое соотношение, представляющее каждую зависимую переменную в виде суммы среднего значения и ошибки. В свою очередь, среднее значение каждого наблюдения представляется в виде суммы генерального среднего и «эффекта» от каждого фактора. Возникающие здесь статистические задачи связаны с оценкой этих эффектов и проверкой статистических гипотез о них. Задача проверки выдвинутых гипотез может быть решена только при введении дополнительных предположений о вероятностной структуре погрешностей наблюдений. Обычно предполагают, что они независимы и подчиняются нормальному закону с нулевым средним и постоянной дисперсией, что позволяет использовать развитую теорию метода наименьших квадратов (МНК). Менее жёсткие предположения требуют соответственно достаточно большого числа наблюдений, при котором становится оправданным обращение к результатам асимптотической теории.

Классификация моделей дисперсионного анализа основана прежде всего на характере анализируемых факторов: различают модели с фиксированные факторами (модель I), со случайными факторами (модель II). Пусть, например, рассматривается задача о существенности различий между выборками, отвечающими данным уровням фактора. Если включить в исследование все уровни, то влияние такого фактора фиксированное (модель I); если же включить только отобранную случайно часть уровней, то влияние фактора случайное (модель II), а полученные выводы применимы не только к тем отдельным уровням, которые привлекались при исследовании, но и ко всем остальным уровням случайного фактора. В многофакторных комплексах возможна смешанная модель III, в которой одни факторы имеют случайные уровни, а другие - фиксированные.

Рассмотрим наиболее распространенные варианты эксперимента, организуемого для проведения дисперсионного анализа: однофакторный (многофакторный) дисперсионный анализ с разным числом уровней факторов и разным числом опытов на каждом уровне.

Техника дисперсионного анализа меняется в зависимости от числа изучаемых независимых факторов.

Рассмотрим параметрический однофакторный одномерный дисперсионный анализ.

Однофакторный дисперсионный анализ используется в тех случаях, когда есть в распоряжении три или более независимые выборки (группы), полученные из одной генеральной совокупности путем изменения какого-либо фактора А, имеющего, соответственно, три или более уровня Ah /=1, ..., к. Предполагается, что эти выборки распределены по нормальному закону и имеют разные выборочные средние и одинаковые выборочные дисперсии а2. Поэтому необходимо ответить на вопрос, оказал ли этот фактор существенное влияние на разброс выборочных средних группы или разброс является следствием случайностей, вызванных, например, небольшим объемом выборок. Другими словами, если выборки принадлежат одной и той же генеральной совокупности, то разброс данных между выборками (между группами) должен быть не больше, чем разброс данных внутри этих выборок (внутри групп).

Пусть Y - случайная величина, определенная на этой генеральной совокупности, а р - ее среднее. В представлении pz = р + аг для среднего величины Y на /-й выборке объема величина а,• есть дифференциальный эффект, соответствующий уровню А,-. Обозначим через у у значение У, определенное j-м наблюдением (j= 1, ..., nt) i-ой выборки. Рассматриваемая здесь модель дисперсионного анализа описывает именно такую ситуацию в предположении, что распределение Y на каждой выборке нормально с одной и той же дисперсией а2, т. е. подчинено закону Af(pz, а2). Каждое значение у у равно сумме генерального среднего р (единого для всех к уровней фактора), дифференциального эффекта аг, определяемого уровнем Ah и случайной ошибки егу, вызванной влиянием неконтролируемых факторов:

где {е*у} независимы и распределены по нормальному закону N(0, а2).

Фактор будет интерпретироваться по модели I, то есть экспериментатора интересуют только выборки, отвечающие именно данным уровням фактора. Модель однофакторного дисперсионного анализа с фиксированными эффектами (модель I) задается соотношением (1.27). Проверяется гипотеза Ну. все аг = 0. Из представления модели в виде (1.27) можно вывести МНК-оценки р. для щ, / = 1, ..., к. Из них вытекают МНК-оценки величин р и аг. Для того чтобы обеспечить единственность МНК-оценок, нам придется наложить дополнительное ограничение на параметры аь ..., ак. Обычное требование состоит в том, чтобы взвешенная сумма эффектов равнялась нулю:

Таким образом, задача сводится к минимизации суммы квадратов по переменным рь / = 1, ...,/>.

Нормальные уравнения можно получить, приравняв к нулю производные

МНК-оценки р; (решения нормальных уравнений) находятся в виде

Здесь звездочкой вместо индекса обозначено усреднение по этому индексу. Дополнительное ограничение с учетом а/ = щ - р эквивалентно

что с учетом (1.28) дает МНК-оценку

и, как следствие, а,- = (ьц. - р = yim -y„,i= 1, ..., к.

Чтобы построить критерий для проверки гипотезы Я0 (все а/ = 0), рассмотрим сумму квадратов отклонений наблюдений уу от общей средней :

Последнее слагаемое

щ

так как сумма —yim~ равна нулю в силу (1.28).

j=1

В результате получим следующее тождество: где

- общая, или полная, сумма квадратов отклонений;

- сумма квадратов отклонений групповых средних от общей средней, или межгрупповая (межуровневая факторная) сумма квадратов отклонений;

- сумма квадратов отклонений наблюдений от групповых средних, или внутригрупповая (остаточная) сумма квадратов отклонений.

В разложении (1.30) заключена основная идея дисперсионного анализа: общая вариация переменной, порожденная влиянием фактора и измеренная суммой SST, складывается из двух компонент: SSB и SSR, характеризующих изменчивость этой переменной между уровнями фактора (SSB) и изменчивость внутри уровней (SSR).

В дисперсионном анализе анализируются не сами суммы квадратов отклонений, а так называемые средние квадраты, которые получаются делением сумм квадратов отклонений на соответствующее число степеней свободы. Напомним, что число степеней свободы определяется как общее число наблюдений минус число связывающих их уравнений. Поэтому для среднего квадрата MSB, являющегося несмещенной оценкой межгрупповой дисперсии, число степеней свободы vB = & - 1, так как при его расчете используются к групповых средних, связанных между собой одним уравнением (1.29). А для среднего квадрата MSR, являющегося несмещенной оценкой внутригрупповой дисперсии, число степеней свободы vR = n - к, ибо при её расчете используются все п наблюдений, связанных между собой к уравнениями (1.28). Таким образом, имеем

Для проверки гипотезы Я0: oii = ... = ак = 0 о том, что все дифференциальные эффекты равны нулю, вычислим наблюдаемое F-отношение:

т. е. отношение среднего межгруппового квадрата к среднему внутригрупповому квадрату. Для того чтобы сделать окончательный вывод, необходимо найти критическое значение F^ по таблице распределения Фишера с учётом количества степеней свободы (vB и vR) и соответствующего уровня значимости. Если наблюдаемое значение критерия FH, вычисленное по данным выборки, принадлежит критической области (FH > F), то гипотезу отвергают; если наблюдаемое значение не принадлежит критической области, то нет оснований отвергать гипотезу. Принятие (не отвержение) гипотезы Н0: все az = 0 означает справедливость эквивалентной гипотезы, т. е. Я0: pi =... = рк = р, что все к групповых средних равны генеральному среднему, что практически означает не значимое различие групповых и генерального средних. Результат является значимым, если гипотезу отвергают, поскольку это говорит о наличии существенных различий между средними значениями по группам (уровням фактора).

В случае нескольких независимых групп непараметрическими аналогами (альтернативами) однофакторного дисперсионного анализа являются ранговый дисперсионный анализ Краскела-Уоллиса и медианный тест. Предполагается, что файл данных должен содержать независимую переменную с кодами для однозначной идентификации групповой принадлежности каждого наблюдения в файле. Процедура позволяет сравнивать до 10 групп. Критерий Краскела-У оллиса основан на рангах, а не на исходных наблюдениях и предполагает, что рассматриваемая переменная непрерывна и измерена, как минимум, в порядковой шкале. Критерий Краскела-У оллиса проверяет гипотезу: сравниваемые выборки имеют одно и то же распределение или распределения с одной и той же медианой. Таким образом, интерпретация критерия схожа с интерпретацией параметрической однофакторной ANOVA, за исключением того, что этот критерий основан на рангах, а не на средних значениях. Медианный тест - это грубая версия критерия Краскела-У оллиса. В этом случае просто подсчитывается число наблюдений каждой выборки, которые попадают выше или ниже общей медианы выборок, и вычисляет затем значение хи-квадрат для таблицы сопряженности. При нулевой гипотезе (все выборки извлечены из совокупностей с равными медианами) ожидается, что примерно 50 % всех наблюдений в каждой выборке попадают выше (или ниже) общей медианы. Медианный тест особенно полезен, когда шкала содержит искусственные границы и многие наблюдения попадают в ту или иную крайнюю точку (оказываются вне шкалы). В этом случае медианный тест - фактически единственный метод сравнения выборок.

Рассмотрим теоретические основы критерия Краскела-Уоллиса на

к

примере следующей задачи [40]. Данные состоят из N = ^л. наблюде-

7=1

ний, по я, наблюдений наj-ю выборку (группу), j = 1, к. Предполагается следующая исходная математическая модель непараметрического однофакторного дисперсионного анализа:

где р - неизвестное общее среднее; ту - неизвестный эффекту-ой выбор-

к

ки (?ту =0). Все еу (случайные ошибки) взаимно независимы и извле-

7=1

чены из одной и той же непрерывной совокупности. По имеющимся предположениям требуется проверить гипотезу: Я0: Ti=t2=... к. Для этого надо выполнить следующие действия.

  • 1. Проранжировать все N наблюдений вместе от меньшего к большему. Пусть Гу обозначает ранг Ху в этой совместной ранжировке.
  • 2. Положить для

Например, R - сумма рангов, присвоенных выборке 1, а — средний ранг, который получила эта выборка.

3. Вычислить статистику

4. На уровне значимости а отклонить Я0, если Я> h(а, к, (щ, ..., пк)), принять Н0, если Я а, к, (щ, ..., пк)), где постоянная h(a, к, (щ, ..., пк)) удовлетворяет условию Р{Н > h{а, к, {щ, ..., пк))}=а. Если гипотеза Я0 верна, то статистика Я имеет асимптотическое (при min(wb ..., пк) —>оо) распределение %2 с Л:— 1 степенями свободы. Приближенный критерий уровня а таков: отклонить Я0, если Я> %2(к ~ 1, а), принять Я0, если Я <у^(к - 1, а), где ${к - 1, а) - верхняя а %-ая точка х2-распределения с к - 1 степенями свободы. Рассмотрим двухфакторный дисперсионный анализ.

Двухфакторный дисперсионный анализ используется в тех случаях, когда анализируется влияние двух различных факторов на результаты эксперимента (содержание микроэлементов в пробе): фактора А, имеющего уровни Ahi= 1, и фактора В, имеющего уровни Bhj= 1, ..J.

В таких моделях наблюдения могут быть оформлены по этим двум факторам в виде таблицы с двумя входами (двухфакторной таблицы), / строк которой соответствуют уровням фактора A, a J столбцов - уровням В. В «(/, у)-ячейку», расположенную на пересечении /-й строки и у'-го столбца, записываются наблюдения, полученные при одновременном исследовании факторов А и В соответственно в /-м и у-м уровнях. В рамках двухфакторного дисперсионного анализа с повторами обозначим одинаковое число наблюдений в (/, у)-ячейке через К > 1. Обозначим среднее результатов наблюдений (/, у)-ячейки через ру. Средним i-ao уровня А называют среднее /-Й строки, таким образом, это среднее является средним результатом /-го уровня А, усредненным по уровням В. Аналогично определяется среднее у-го уровня В, или среднее у-го столбца. Теперь среднее /-го уровня А и j-то уровня В запишется в виде

Генеральным средним будем называть величину

Главный эффект /-го уровня А определяется как превышение среднего /-го уровня над генеральным средним: az=pz* - р**. Аналогично главный эффект j-то уровня В определяется как Ру = р*у - р**. Главные эффекты а, и ру называют также эффектом /-й строки и эффектом j-то столбца. Мы придаем особое значение тому, что главные эффекты одного фактора являются средними по уровням других факторов и, таким образом, обычно зависят от того, каковы уровни других факторов, присутствующих в эксперименте (когда используется модель с фиксированными факторами).

Если мы будем определять главный эффект /-го уровня А специально по отношению к у-му уровню В, то естественно определить его как превышение ру над средним у'-го столбца, т. е.

Главный эффект z-го уровня А, определенный выше как а„ является

1 J

фактически средним для щ - r*j по столбцам: а/= —^(л,7 -г|*у). Пре-

J j=1

вышение % - г|^ над своим средним называется взаимодействием i-го уровня А с j-м уровнем В

Мы могли бы прийти к тому же результату, если бы начали с главного эффекта у-го уровня В специально по отношению к /-му уровню А; взаимодействие симметрично, поэтому мы можем назвать у у взаимодействием /-го уровня А иу'-го уровня В.

Обозначим через yijk к-е наблюдение в (/, у)-ячейке, тогда математическая модель примет вид

где гijk независимы и имеют нормальное распределение со средним, равным нулю, и дисперсией а2, а константы а,-, ру, у у удовлетворяют дополнительным условиям:

Согласно (1.31), мы должны минимизировать

Нормальные уравнения имеют единственное решение г|;} = у.щ. Как

следствие получим оценки генерального среднего, главных эффектов и взаимодействий в виде

Сумма квадратов ошибок, являющаяся минимумом S, т. е. с учетом (1.32), равна

Чтобы получить в данном случае основное тождество дисперсионного анализа, возьмем тождество

возведем в квадрат его правую и левую части и просуммируем по всем значениям индексов i, j, к. Так как все смешанные произведения при суммировании равны нулю, получаем основное тождество двухфакторного дисперсионного анализа, аналогичное (1.30):

SST = SSR + SSab + SSA + SSB.

Величины SSA и SSB называют соответственно SS главных эффектов А и В, или SS строк и столбцов, a SSAB называют SS взаимодействия эффектов А и В. С учетом (1.32) можно получить

Число степеней свободы SSA равно vA=I 1, то есть равно числу линейно независимых условий гипотезы НА, допускающих оценку; аналогично число степеней свободы SSB равно vB=J-l. Числом степеней свободы SSAB является vAb = (^-1)(*/_1), a vR=I J (К-1). Далее вычисляются средние квадраты MS делением SS на соответствующее число степеней свободы. В связи с проверкой гипотез вычисляются соответствующие критерии (табл. 1.10):

Таблица 1.10

Проверка гипотез в рамках повторяемого двухфакторного дисперсионного анализа с фиксированными эффектами фактора

Г ипотеза

Критерий FHa6jl

Числа степеней свободы

Уровень значимости определяется как площадь справа от числа Fmбл под кривой плотности распределения Фишера F(vb v2), изображенной на рис. 1.13-1.15.

Основные понятия и результаты двухфакторного дисперсионного анализа без затруднений допускают обобщение на случай, когда число факторов больше двух. Наиболее подробное рассмотрение различных схем дисперсионного анализа содержится в [3, 43].

Рассмотрим, наконец, однофакторный многомерный дисперсионный анализ.

к

Пусть пг (п = ^пг) - число наблюдений, полученных для г-й вы-

г=1

борки из к выборок (групп) для каждой из т переменных Уь Y2,..., Ym. Обозначим через ур (i = ,mj = l,nr9r = 9k) значение переменной Yh определенное j-м наблюдением r-ой выборки. Тогда

- выборочные (групповые) среднее значение переменной Yt для г-й выборки, а

- общее среднее значение для объединенной выборки по каждой Yt из т переменных. Кроме того, пусть

- значение остаточной суммы квадратов и произведений для г-й выборки с пг 1 степенями свободы.

Аналогично SSB в одномерном дисперсионном анализе, определим в многомерном случае

как межгрупповую сумма квадратов отклонений, и аналогично SSR

внутригрупповая (остаточная) сумма квадратов и произведений отклонений.

Матрицы (Bij) и (W/j) формируют соответствующие (межгрупповой и внутригрупповой) источники дисперсии системы т случайных величин {Y, Y2,..., Ym} с соответственно к-1 и n-к числами степеней свободы. Эти величины являются основой таблицы многомерного дисперсионного анализа. Тогда многомерный Л-критерий Уилкса {лямбда- критерий Уилкса) для проверки гипотезы о равенстве средних значений для к выборок по совокупности т переменных имеет вид

где W и В +W -определители матриц (Щ) и (В0+(Wy) соответственно.

Статистика Л имеет //-распределение с т, к- и п~к степенями свободы [2]. За исключением специальных случаев, процентили //-распределения бывает трудно вычислять и поэтому на практике обычно используется одна из двух аппроксимаций. Так, вопрос о том, следует ли отвергать проверяемую гипотезу, можно решить сравнением критерия Бартлета

с процентилями ^-распределения с т{к - 1) степенями свободы. С другой стороны, можно использовать F-аппроксимацию U, предложенную Рао [29]:

Гипотеза отвергается, если F >F~a со степенями свободы, определенными числителем и знаменателем первой дроби в выражении F.

Таким образом, если одновременно имеются несколько зависимых переменных, возрастает лишь сложность вычислений, а содержание и основные принципы не меняются. Вместо одномерного F-критерия используется многомерный F-критерий {лямбда-критерий Уилкса), основанный на сравнении ковариационной матрицы ошибок и межгрупповой ковариационной матрицы. Если общий многомерный критерий значим, можно заключить, что соответствующий эффект значим по совокупности всех переменных. Поэтому после получения значимого многомерного критерия, для отдельного главного эффекта или взаимодействия исследуется одномерный F-критерий, то есть отдельно исследуются зависимые переменные, которые вносят вклад в значимость многомерного критерия. Иными словами, если гипотеза о равенстве средних по совокупности всех переменных отвергается на основании A-критерия, то далее проверяется гипотеза о равенстве средних по каждой переменной на основании одномерного F-критерия. Если и она отвергается, то мы делаем вывод, что некоторые pz не совпадают. Так как F-критерий не дает информации о том, какие именно из средних не равны, необходимо провести множественный анализ средних. Рассмотрим в связи с этим вопрос о критерии для линейной комбинации сред-

к

них. Обозначим линейную комбинацию через У^сгрг, где сг - постоян-

г=1

ные. Выделяют три процедуры множественного сравнения.

В первой из них - метод Шеффе - для проверки гипотезы Н0:

к к

гр7. =0 против альтернативы Н ^crir ^0с уровнем значимости а

г=1 г=

образуют следующий 100(1 - а)%-ый доверительный интервал:

где MSR - средний квадрат, является несмещенной оценкой внутригрупповой дисперсии с числом степеней свободы vR = п - к и берется из таблицы однофакторного дисперсионного анализа, a FX-a(k, п - к) есть 100(1 - а)%-я процентиль распределения F{k, п - к). Если этот интервал не содержит нуль, то Н0 отвергается с уровнем а. Этот процесс повторяется для каждой интересующей нас линейной комбинации, причем общим для всех критериев уровнем значимости остается а.

На практике обычно проводятся сравнения контрастов в средних.

к

Контрастом называется линейная комбинация средних > коэффи-

г=1 к

циенты которой удовлетворяют условию ^ Хг = 0. Каждый контраст

г=1

пропорционален разности между взвешенными средними от средних. Например,

Метод Шеффе для контрастов имеет следующий вид. Для проверки

к к

гипотезы Н0:^Хгхг =0 против альтернативы Нх: ^0с уровнем

г=1 г=1

значимости а образуют следующий 100(1 - а)%-ый доверительный интервал:

aF-a(k-, п~ к) есть 100(1-а)%-я процентиль распределенияF(k— п - К). Если этот интервал не содержит нуль, то Но отвергается с уровнем а. Этот процесс повторяется для каждого интересующего нас контраста, причем общий для всех критериев уровень значимости остается равным а.

Вторая процедура множественного сравнения - метод Тьюки, который применим только для контрастов и только в случае равных объемов выборок, т. е. при П = П2=... =Пк = п/к. Для проверки гипотезы

к к

Но^Хгхг= 0 против альтернативы Н 0 образуют следую-

г=1 г=1

щий доверительный интервал:

a qi-a есть 100(1 - а)%-я процентиль распределения стьюдентизованно- го размаха с knv = n - к степенями свободы. Если этот интервал не содержит нуль, то Н0 отвергается с уровнем значимости а. Этот процесс повторяется для каждого представляющего интерес контраста, причем общим для всех критериев уровнем значимости остается а. Заметим, что стьюдентизованный размах с к иу = п - к степенями свободы определяется следующим образом. Пусть Yh Y2, ..., Yk - независимые случайные величины с распределением N([iy, g2 ), a W - их размах, т. е. W= max Yr -

min7r. Если s2 с v степенями свободы есть независимая несмещенная

оценка а2, то распределение W/sy и будет распределением стъюденти-

зованного размаха ckwv = n - к степенями свободы.

Третьей процедурой является множественный г-метод. Пусть ко - число заранее выбранных контрастов. Тогда для проверки гипотезы

к к

=0 против альтернативы Н .^0 следует построить

г=1 г=1

доверительный интервал:

а t~a/2k0 есть 100(1 - а/2ко)%-я процентиль t-распределения vR степенями свободы. Если этот интервал не содержит нуль, то мы должны отвергнуть Н0.

В рамках сравнительного анализа этих трёх процедур множественного сравнения можно заметить следующее.

  • 1. Так как в методах Шеффе, Тьюки и множественном ^-методе за основу взяты различные распределения (соответственно F, q и t), то в них, вообще говоря, рассматриваются разные доверительные интервалы. Метод Шеффе допускает различные объемы выборок и любые линейные комбинации средних, в то время как метод Тьюки применяется лишь при равных объемах выборок и лишь для контрастов. Множественный f-метод применяется только к множеству контрастов, выбранных до начала исследования данных, в то время как в двух других методах множество контрастов может быть любым.
  • 2. При получении доверительного интервала для контраста пользователь должен выбрать метод, который дает самый короткий доверительный интервал. В среднем для простых контрастов, содержащих не более трех средних, метод Тьюки дает более короткие доверительные интервалы, чем метод Шеффе. С другой стороны, для контрастов из четырех или более средних метод Шеффе дает в среднем более короткие доверительные интервалы.
  • 3. Если число заранее выбранных контрастов «мало», то множественный ?-метод может дать наиболее короткий доверительный интервал. Но контрасты обычно выбираются не до, а после анализа данных.
  • 4. Если к = 2, то F-отношение в таблице дисперсионного анализа равно квадрату ^-статистики для двух выборок, т. е. F( 1, Vr) = t2(vR).
  • 5. F-критерий дисперсионного анализа значим с уровнем а тогда и

к

только тогда, когда гипотеза Н0: = 0 отвергается для некоторого

г=1

контраста в соответствии с процедурой Шеффе. При этом задача отыскания и интерпретации значимого контраста может оказаться нелегкой. Возможна ситуация, когда F-критерий окажется значимым с уровнем а, а значимые при этом уровне контрасты найти не удаётся. Чтобы опознать эти контрасты, нужно использовать множественные критерии сравнения при большем а, чем при множественном сравнении для контраста целесообразно взять 90%-ый доверительный интервал.

6. Некоторые результаты множественного анализа могут выглядеть противоречивыми. Например, при к — 3 можно прийти к заключению, что pi незначимо отличается от р2, р2 незначимо отличается от р3, a pi значимо отличается от р3. Если «незначимо отличается» интерпретировать как «равно», а «значимо отличается» интерпретировать как «не равно», то эти заключения действительно противоречат друг другу. Но такая интерпретация некорректна, так как наши заключения могут с ненулевой вероятностью быть ложными. Корректной интерпретацией этого примера будет такая: на основе имеющихся данных можно с достаточной уверенностью утверждать, что как pi и р2, так и р2 и р3 различаются незначимо, а х и р3 - значимо.

В однофакторном многомерном дисперсионном анализе доверительные интервалы для всех переменных одновременно могут быть построены из одномерного интервала, заданного формулой в случае метода Шеффе для контрастов. Прежде всего, для этого требуется знание верхней 100(1 - а)-й процентили ^/-распределения. Для больших п она может быть аппроксимирована величиной

Определим у{_а =--1. Тогда если в формуле случая метода Шеффе

^Л-сх

для контрастов считать r-м групповым средним для любой из переменных Y, Yk величину у^, то соответствующий многомерный совместный 100(1 - а)%-ый доверительный интервал задается как

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>