Многофакторный линейный корреляционный и регрессионный анализ

В подразд. 10.2 была рассмотрена однофакторная линейная модель. Но чаще всего изучаемые нами природные и общественные явления зависят не от одного, а от целого ряда факторов. Корреляционная зависимость результативного признака от нескольких факторных признаков называется уравнением множественной регрессии. Рассмотрим линейную многофакторную модель, к ней часто можно свести криволинейные модели.

Главные задачи, которые стоят при построении уравнения множественной регрессии таковы:

  • 1) надо отобрать те факторные признаки, которые оказывают наибольшее влияние на признак следствия;
  • 2) правильно выбрать регрессионную модель.

Если данные пункты выполнены правильно, то все остальное дело техники. Мы рассматриваем пока линейную многофакторную регрессию, поэтому задача выбора модели перед нами не стоит, нужно только определиться с количеством факторных признаков, влияющих на признак следствие. Решение первой задачи основано на рассмотрении матрицы парных коэффициентов корреляции (о ней будет сказано ниже). Принимаются во внимание и частные коэффициенты детерминации для каждого факторного признака. Их значения говорят об объясняющей способности каждого из факторных признаков. Заметим, что уравнение многофакторной регрессии должно быть как можно проще. Чем проще тип уравнения, тем очевиднее интерпретация параметров, входящих в него, и лучше его использование с целью анализа и прогноза. Поэтому чаще всего используют линейное уравнение множественной регрессии, которое имеет вид

Параметры ар а2, ..., ат, Ъ уравнения множественной регрессии (10.55) можно находить по МНЕ. Затем с помощью корреляционного анализа делают проверку адекватности полученной модели и, если модель адекватна, делают ее интерпретацию. Так поступают в том случае, если заранее известно, например на основании предшествующих исследований, что все основные признаки-факторы, оказывающие влияние на результативный признак, учтены (мы не говорим о выборе типа модели, так как пока рассматриваем только линейную модель).

Если мы не уверены в том, что учтены все факторные признаки, или, наоборот, учтены лишние, сначала проводим корреляционный анализ (находим парные коэффициенты корреляции, частные коэффициенты корреляции, совокупный коэффициент множественной корреляции), а потом, уточнив модель, строим уравнение множественной линейной регрессии по МНК.

Покажем, как находятся параметры av а2, ..., ат, Ъ уравнения регрессии (10.55) по МНК. Условие МНК в этом случае имеет вид

Теперь подставляем (10.55) в (10.56) и получаем

Теперь записываем необходимые условия экстремума функции, содержащей (m + 1) переменных (av а2,..., ат, Ъ).

Находим частные производные функции F по неизвестным параметрам а12т и получаем следующее:

После преобразования системы (10.59) получаем так называемую систему нормальных уравнений:

Решая систему нормальных уравнений (10.60) (они линейные), определяем неизвестные параметры множественной линейной регрессионной модели: av а2, ..., ат, Ъ. Разумеется, решение системы проводят на ПЭВМ, например, методом Гаусса или одной из его модификаций (в том случае, если количество неизвестных параметров не превышает нескольких сотен). В том случае, если количество искомых параметров несколько тысяч, можно использовать итерационные методы решения системы нормальных уравнений (10.60), например, методом Якоби или методом Зейделя.

После нахождения неизвестных параметров уравнения множественной линейной регрессии надо провести проверку ее адекватности с помощью корреляционного анализа.

Так как на изучаемый результативный признак влияет не один факторный признак, а несколько факторных признаков), то появляется задача изолированного измерения тесноты связи результативного признака с каждым из признаков- факторов, а также задача определения тесноты связи между результативным признаком и всеми факторными признаками, включенными в модель множественной регрессии.

При рассмотрении линейной однофакторной модели мы находим один парный коэффициент корреляции (вернее его оценку) между признаком-следствием и факторным признаком. В случае множественной линейной модели число парных коэффициентов корреляции будет равно:

где C(2m+1) — число сочетаний из (m + 1) по два, а (га +1)! — читается (га + 1) факториал и равно: (га + 1)! = 1-2-...-га(га + 1). Заметим, что 0! = 1. Все коэффициенты парной корреляции рассчитываются по формуле (10.15) (их называют еще коэффициентами нулевого порядка).

Найденные коэффициенты парной корреляции удобно записывать в виде матрицы коэффициентов парной корреляции. Напомним, что матрица — это прямоугольная таблица, содержащая некоторые математические объекты, в данном случае коэффициенты парной корреляции. Число строк и столбцов матрицы коэффициентов парной корреляции будет равно, т. е. она будет квадратной. Так как коэффициент парной корреляции — это симметричная мера связи (fi;- = при i*j), то матрица коэффициентов корреляции записывается или как верхняя, или как нижняя треугольная, на главной диагонали которой расположены единицы, так как и т. д. Поэтому матрица коэффициентов парной корреляции (коэффициентов нулевого порядка) имеет вид:

На основе коэффициентов нулевого порядка (см. (10.61)) можно найти коэффициенты частной корреляции первого порядка, если элиминируется (устраняется) корреляция с одной переменной. Например,

В формуле (10.62) исключаем влияние признака х .

На основе коэффициентов частной корреляции первого порядка определяют коэффициенты частной корреляции второго порядка. В этом случае элиминируется корреляция с двумя переменными, например,

В формуле (10.63) исключили влияние факторов х2 и х3. На основе коэффициентов частной корреляции второго порядка находят коэффициенты частной корреляции третьего порядка и т. д. Коэффициенты частной корреляции являются мерами линейной зависимости и принимают значения от -1 до 1. Квадрат коэффициента частной корреляции называется коэффициентом частной детерминации.

Показателем тесноты связи, которая устанавливается между признаком-следствием и факторными признаками факторных признаков) является совокупный коэффициент множественной корреляции КуХ]Х2...Хт. Если известны парные коэффициенты корреляции, то его можно найти по формуле:

Квадрат совокупного коэффициента множественной корреляции RyX X х , который называется совокупным коэффициентом множественной детерминации, показывает, какая доля вариации результативного признака объясняется влиянием факторных признаков, которые включены в уравнение множественной регрессии. Возможные значения -RyX]X2...Xm и Щх х х могут находиться в пределах отрезка [0, 1]. Следовательно, чем ближе ЩХгх2_х к единице, тем вариация результативного признака в большей мере характеризуется влиянием учтенных факторных признаков.

Подробно рассмотрим частный случай линейной множественной регрессии — двухфакторную линейную регрессию и приведем конкретный числовой пример.

Уравнение двухфакторной линейной регрессии записывается следующим образом:

где — расчетные значения результативного признака;

хи, х2. — полученные в результате проведения статистического наблюдения значения факторных признаков;

av а2, Ъ — параметры уравнения регрессии, подлежащие определению.

Для нахождения параметров уравнения регрессии вида (10.65) используем МНК. Условие МНК в данном случае имеет вид:

Функция (10.66) — функция трех независимых аргументов: av а2, Ъ. Запишем необходимое условие экстремума этой функции:

После нахождения частных производных имеем:

После преобразования системы (10.68) получаем систему нормальных уравнений:

Для решения системы (10.69) используем метод Крамера (о методе Крамера можно причитать, например, в [2]). Для нахождения решения системы (10.69) можно применить и метод Гаусса.

Сначала находим определитель системы, который не должен равняться нулю:

Далее вычисляем определители А , А , Ад

Определители Av A , А3 расписываются так же, как определитель А (эти разложения не приведены, чтобы не загромождать вывод).

Зная значение определителей А, Ах, Д2, А , находим искомые параметры уравнения регрессии по следующим формулам:

Теперь найдем коэффициенты парной корреляции (коэффициенты нулевого порядка), их количество будет равно

Поэтому матрица коэффициентов парной корреляции (10.61) в данном случае будет иметь вид:

В нашем случае парные коэффициенты корреляции находятся по формулам:

А ковариации (корреляционные моменты) находятся из выражений:

Коэффициенты частной корреляции первого порядка в данном случае находятся по следующим формулам:

г определяется по уже приведенной формуле (10.62)

(в этой формуле исключено влияние факторного признака а^).

(в этой формуле исключено влияние результативного признака у).

Теперь по формуле (10.64) определяем совокупный коэффициент множественной корреляции. Для случая двухфакторной линейной модели формула (10.64) примет вид:

Как уже говорилось, величина ЩХ]Х.2 называется совокупным коэффициентом множественной детерминации. Он показывает, какая часть дисперсии результативного признака у объясняется за счет двух учтенных факторных признаков и х2. Заметим, что на основе парных коэффициентов корреляции и средних квадратических отклонений можно определить параметры линейной двухфакторной регрессионной модели вида (10.65) (см. например [14]).

Теперь приведем конкретный числовой пример. Для этого используем исходные данные примера 10.2. Поместим эти данные в табл. 10.12.

По данным табл. 10.12 вычисляем коэффициенты системы нормальных уравнений (10.69):

Таблица 10.12

Год

Преступления (у{)

Хищения оружия

(дЦ

Административные правонарушения (х,.)

1997

13492

143627

238424

1998

13557

145471

213212

1999

14395

147783

215861

2000

15640

150209

233230

2001

17988

152763

236415

2002

17917

155207

234380

2003

17569

157804

220531

2004

17178

160050

260596

Следовательно, система нормальных уравнений (10.69) имеет вид:

Решаем полученную систему (10.76) методом Крамера:

Теперь по формулам (10.70) находим искомые параметры уравнения регрессии:

Поэтому получаем следующее уравнение двухфакторной линейной регрессии:

По уравнения регрессии (10.77) найдем расчетные (выравненные) значения результативного признака:

Делаем арифметический контроль. Должно выполняться условие:

Внашем случае имеем Сравниваем с

и видим, что арифметический контроль выполнен

(различие на единицу объясняется ошибками округления).

Мы расписали подробно процесс нахождения параметров регрессии av а2, Ъ. Видно, что даже в нашем простом примере достаточно много вычислений и их лучше проводить на ЭВМ или калькуляторе с большим количеством значащих цифр. По формуле (10.31) определяем среднюю ошибку аппроксимации:

Находим:

Вычисляем средние квадратические отклонения:

По формуле (10.72) определяем корреляционные моменты:

Теперь по формулам (10.71) вычисляем парные коэффициенты корреляции:

Далее по формулам (10.62), (10.73), (10.74) находим коэффициенты частной корреляции первого порядка:

Наконец по формуле (10.75) определяем совокупный коэффициент множественной корреляции:

Зная Ryxxx2> находим совокупный коэффициент множественной детерминации , который показывает, что вариация результативного признака у на 77,9% обусловлена признаками = факторами хх и х2. Поэтому целесообразно строить линейную двухфакторную регрессионную модель вида (10.77).

Проведем проверку значимости полученного нами уравнения регрессии (10.77) по F-критерию Фишера:

где п — количество наблюдений; га — количество параметров в уравнении регрессии.

В нашем случае

F сравнивается с табличным значением F-критерия Фишера, которое зависит от уровня значимости а и от степени свободы v1 = га - 1 и v2 = п - га.

Выбираем 5%-ный уровень значимости (а = 0,05). В нашем случае = 2; v2 = 5. По таблице (см. приложение 4) находим

Так как , то построенное нами уравнение регрессии (10.77) можно признать значимым. Мы уже упоминали, что параметры av а2, Ъ линейного двухфакторного уравнения регрессии можно найти, используя парные коэффициенты корреляции и среднее квадратическое отклонение. Если считать параметры уравнения регрессии вручную, то этот способ проще в вычислительном отношении. Приведем его и применим к рассматриваемому нами примеру.

Уравнение линейной двухфакторной регрессии записываем в виде:

После преобразования (10.79) примет вид:

Из сравнения (10.65) и (10.80) получаем:

По формулам (10.82) и (10.83) с учетом первой и второй формулы (10.81) находим:

Используя вычисленные значения ах и а2 по третьей формуле (10.81) определяем искомый параметр Ъ:

Сравниваем полученные параметры av а2, Ъ с теми которые вычисленные с помощью МНК и видим, что они совпадают.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >