Оценка точности, значимости коэффициентов регрессии и интерпретация результатов

Статистическую обработку проводят обычно для модели, записанной в нормализованных обозначениях факторов. Для определенности будем иметь в виду линейную модель, содержащую к факторов. После того как уравнение регрессии получено и рассчитана дисперсия воспроизводимости, следует оценить точность, с которой найдены коэффициенты регрессии. Поскольку они вычислены по результатам эксперимента, а эти результаты являются случайными величинами, то случайными величинами будут и коэффициенты регрессии Ьг Поэтому в качестве показателя точности отыскания коэффициента bi удобно взять его дисперсию s2{6,}. Изучим сначала случай отсутствия дублированных опытов в основном эксперименте.

Для получения дисперсий коэффициентов регрессии используют матрицу базисных функций X. Рассмотрим матрицу ТХ)~], элементы которой обозначим через су. Это квадратная матрица размера +1) х (к +1), называемая ковариационной матрицей:

Умножим каждый ее элемент на оценку дисперсии воспроизводимости s2 {у}. Можно показать, что полученная матрица имеет вид

Следовательно,

По главной диагонали матрицы (5.39) стоят дисперсии коэффициентов регрессии, а недиагональные элементы - это ковариации между коэффициентами регрессии. Ковариация, так же как и коэффициент корреляции, является мерой линейной статистической связи между двумя случайными величинами. Оценка ковариации двух случайных величин х и у, принимающих в однородной серии из п опытов значения хь уи х2, У2>-• •> *п, Уп-, равна

Легко заметить, что числитель формулы совпадает с числителем формулы для выборочного коэффициента корреляции (см. (4.26)). Поэтому аналогично коэффициенту корреляции ковариация между независимыми случайными величинами равна нулю. Таким образом, для отыскания дисперсии коэффициентов регрессии требуется, в общем случае, проделать сложные матричные преобразования. Пусть теперь имеет место дублирование опытов. В этом случае матрицу X будем формировать, учитывая только основные опыты; каждая ее строка будет содержать тогда условия проведения серии дублированных опытов.

Рассмотрим отдельно случай равномерного дублирования. Для получения оценок дисперсий и ковариации коэффициентов регрессии следует каждый элемент матрицы т X)~xs2 [у] (см. (5.39)) разделить на число п дублированных опытов. Если же дублирование неравномерное, то оценки дисперсий и ковариации коэффициентов регрессии являются элементами матрицы тРХ)~х s2 {у}, где Р - матрица дублирования.

Для большинства планов, рекомендуемых теорией эксперимента, существуют простые формулы для отыскания коэффициентов регрессии, их дисперсий и ковариаций между ними. Более того, ряд таких планов составлен исходя из требования равенства нулю ковариации между коэффициентами регрессии. Это так называемые ортогональные планы, к которым относятся, в частности, полный и дробный факторные планы. При ортогональном планировании отбрасывание незначимых коэффициентов регрессии не приводит к изменению оценок остальных коэффициентов.

После того как найдены дисперсии коэффициентов регрессии, следует выявить незначимые коэффициенты, т.е. те, которые в математической модели можно приравнять нулю. Для этого используется /-критерий Стью- дента. Для каждого коэффициента регрессии 6, отыскивается /-отно-шение

Можно, хотя это и менее удобно, анализировать значимость коэффициентов регрессии по уравнению с натуральными факторами. В этом случае /, = |5,|/s{5(}. В обеих формулах в числителе стоит абсолютная величина коэффициента регрессии, в знаменателе - его эмпирический стандарт - корень квадратный из дисперсии. Вычисленную величину /(. сравнивают с табличным значением /табл /-критерия Стьюдента (см. табл. 1 приложения) для заданного уровня значимости q и числа степеней свободы fy, с которым определялась дисперсия воспроизводимости s2{y}. Если /,- < /табл> то коэффициент регрессии bt незначим и соответствующий член в уравнении регрессии должен быть отброшен. С учетом (5.40) условие того, что коэффициент регрессии незначим, можно записать в более удобном виде:

При отбрасывании незначимых членов возникает определенное неудобство, связанное со статистической зависимостью коэффициентов регрессии. Эта зависимость проявляется в том, что, после того как незначимые коэффициенты регрессии приравняли нулю, оценки остальных коэффициентов регрессии изменяются. Практический вывод: после отбрасывания незначимых коэффициентов регрессии желательно снова воспользоваться МНК для уточнения оставшихся значимых коэффициентов регрессии.

С помощью /-критерия можно найти и доверительный интервал для произвольного коэффициента регрессии Ъ{. Обозначим истинную величину этого коэффициента через р(. Тогда

Даже простейшая линейная модель позволяет получить важную информацию об объекте исследования. Запишем ее в нормализованных обозначениях факторов:

Коэффициенты этой математической модели имеют четкий физический смысл. Коэффициент Ьо равен, очевидно, значению выходной величины, рассчитанному по уравнению регрессии, если все факторы зафиксированы на основном уровне, т.е. в середине диапазона варьирования. Знак коэффициента bсвидетельствует о характере влияния соответствующего фактора. Если Ъх> 0, то с ростом значений фактора выходная величина растет. Если Ъх< 0, то с ростом Хх отклик уменьшается. Величина Ъх равна приросту выходной величины, полученному при увеличении значения фактора Хх на половину диапазона его варьирования, например с основного уровня (Xj =Х°) до верхнего уровня х =Xl+l). Как уже указывалось, из вида модели (5.43) следует, что графиком зависимости величины у от любого фактора Х/ является прямая. Рассмотрение зависимостей выходной величины у от этого фактора при разных фиксированных значениях других факторов позволит получить семейство прямых, причем все эти прямые будут параллельны. Это связано с тем, что представление регрессионной модели в линейном виде (5.43) предполагает отсутствие взаимодействий факторов (см. п. 5.2). Например, при фиксированном значении Х2 - рис. 5.7, а, при фиксированном Х - рис. 5.7, б.

Зависимость y=f(x)

Рис. 5.7. Зависимость y=f(x): а-у =/(xi) при фиксированных значениях ху, б-у =f{xi) при фиксированных значениях х

Коэффициенты при независимых переменных указывают на степень влияния факторов при этих коэффициентах. Чем больше абсолютная величина линейного коэффициента регрессии в модели (5.43), тем сильнее влияние соответствующего фактора. Если, например, оказалось, что |63|>|6,|, то можно сделать вывод о том, что изменение фактора Х3 в пределах его диапазона варьирования оказывает большее влияние на изменение отклика, чем варьирование фактора X, в его диапазоне. Таким образом, с помощью линейной регрессионной модели можно сравнить степень влияния факторов на выходную величину и выявить важнейшие факторы.

П5

Если уравнение регрессии отличается от линейного, то степень влияния фактора может изменяться от начала к концу диапазона варьирования и зависит от уровней варьирования других факторов.

После получения уравнения регрессии еще нельзя сказать, насколько оно достоверно описывает результаты эксперимента. Чтобы быть уверенным в этом, надо проверить пригодность линейной модели. Такая проверка называется проверкой адекватности полученной модели по результатам эксперимента. Методика проверки адекватности математической модели рассмотрена ниже.

Модель может быть неадекватна. Неадекватность может быть объяснена наличием парных и более высоких взаимодействий факторов.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >