Однофакторный линейный корреляционный и регрессионный анализ

Методология парной линейной корреляции является наиболее разработанной в статистике. Она рассматривает влияние одного факторного признака на признак-следствие. Зная теорию и практику построения и анализа двумерной модели корреляционного и регрессионного анализа легче оставить многофакторную модель. Чаще встречаются криволинейные однофакторные модели, но их иногда удается свести к линейной модели путем логарифмирования или замены переменной. Как правило, перед построением модели убеждаются, существует ли линейная зависимость между изучаемыми факторами (иногда это уже известно на основе предыдущих исследований).

Для этого используют метод параллельных рядов, вычисляют коэффициент корреляции (точнее его оценку), а также строят график — поле корреляции. Поле корреляции представляет собой совокупность точек в прямоугольной системе координат. Координаты каждой точки определяются значениями признака-фактора и результативного признака (рис. 10.1).

Рис. 10.1

По характеру расположения точек на поле корреляции можно судить о наличии, направлении линейной зависимости (можно судить и о характере связи: линейная, криволинейная).

Предположим, что в наше распоряжение поступил статистический материал наблюдений двух некоторых явлений. Также установлено, что между ними должна существовать линейная стохастическая зависимость. По результатам этих наблюдений надо построить линейную однофакторную модель и установить количественно степень тесноты связи между изучаемыми явлениями. Исходные ряды наблюдений можно представить как значения, принимаемые двумя случайными величинами X (факторный признак) и Y (результативный признак), т. е.

Уравнение парной линейной регрессии имеет вид:

где х. — данные наблюдений факторного признака;

у{ — вычисленные (теоретические) значения результативного признака;

а,Ъ — параметры регрессии, подлежащие определению.

Причем b — свободный параметр уравнения регрессии, который показывает, на сколько единиц в среднем изменится результативный признак при изменении признака фактора на одну единицу его измерения. Если а > 0, то зависимость будет прямой, а если а < 0, то она будет обратной.

Параметры а и Ъ можно найти либо с помощью МНЕ, либо через коэффициент корреляции, который надо вычислить в любом случае, так как он показывает меру близость между случайными величинами х и у.

Рассмотрим оба эти способа. Условие МНЕ (о нем мы говорили в главе 8) в данном случае имеет вид:

Подставляем в (10.6) уравнение регрессии (10.5) и получаем:

Записываем необходимые условия экстремума для функции (10.7):

Далее находим частные производные, приравниваем их нулю и получаем:

Преобразуем (10.8) и получаем так называемую систему нормальных уравнений:

Решаем систему (10.9) находим искомые параметры а и Ъ. Из второго уравнения системы (10.9) выражаем Ъ:

Теперь из первого уравнения системы (10.9) выражаем а:

Подставляем (10.10) в (10.11) и получаем:

Первый член последнего выражения переносим в левую часть и получаем:

Из последнего выражения находим искомое значение параметра а.

Определив по формуле (10.12) параметр а, затем из выражения (10.10) находим параметр Ъ.

Рассмотрим второй способ определения параметров а и Ъ. Он предусматривает предварительное нахождение оценок коэффициента корреляции и коэффициента регрессии. При этом уравнение регрессии записывается следующим образом:

где у — среднее арифметическое ряда наблюдений у; х — среднее арифметическое ряда наблюдений х;

Ру/х — коэффициент регрессии, который находится по следующей формуле:

где ду и ох — оценки средних квадратичных отклонений рядов наблюдений у их соответственно (о средних квадратических отклонениях и их оценках мы уже говорили в главах 2 и 6);

?ху — оценка коэффициента корреляции (о коэффициенте корреляции говорилось в главе 2).

Так как в статистике имеют дело с выборками ограниченного объема, то вычисляют не сами характеристики, а их оценки. Об этом мы уже говорили в главе 6. Далее для краткости слово “оценка” мы будем опускать.

Коэффициент корреляции вычисляется по формуле

где — оценка ковариации или корреляционного момента (о ковариации мы говорили в главе 2).

Корреляционный момент определяется из выражения

при количестве наблюдений п > 40.

Если n < 40 используется формула

Напомним, что |rxy| < 1.

Чем ближе гху к ±1, тем более тесная линейная связь существует между рядами наблюдений х и у.

Квадрат коэффициента корреляции гху называется коэффициентом детерминации. Часто он более предпочтителен для измерения связи, так как его можно применять для измерения не только линейных, но и нелинейных зависимостей [15]. Коэффициент детерминации часто выражают в процентах.

Преобразуем формулу (10.13) следующим образом:

Из сравнения (10.5) и (10.18) получаем:

где ру/г — тангенс угла наклона прямой к положительному направлению оси абсцисс;

— отрезок, отсекаемый прямой на оси ординат.

Рассмотрим конкретный пример построения однофакторной линейной регрессионной модели.

Пример 10.1

Предположим, что мы располагаем зарегистрированными данными о хищении огнестрельного оружия и вооруженных преступлениях в некотором городе N. Между зарегистрированным уровнем хищений огнестрельного оружия и учтенными преступлениями, совершенными с применением огнестрельного оружия, существует прямолинейная корреляционная зависимость. Данные деяния корреллируют между собой главным образом потому, что у них практически одни и те же причины. Оговоримся сразу, что пример, который мы приведем, учебный. К тому же из результатов предыдущих исследований мы знаем, что линейная корреляционная зависимость между исследуемыми явлениями существует. Если же это не так, то для надежного установления корреляционной зависимости количество наблюдений должно быть не менее двадцати.

Исходные данные задачи поместим в табл. 10.1, причем не в хронологическом порядке, а по возрастанию числа зарегистрированных хищений огнестрельного оружия (признак фактор х). Посмотрим, как при этом будут меняться зарегистрированные значения числа вооруженных преступлений с применением огнестрельного оружия (результативный признак у). То есть покажем, как применяется способ сопоставления двух параллельных рядов.

Таблица 10.1

Виды преступлений

1991 г.

1996 г.

1992 г.

1995 г.

1994 г.

1993 г.

Хищения огнестрельного оружия, а:

773

ИЗО

1138

1336

1352

1396

Вооруженные преступления, у

4481

9549

8873

12160

18059

19154

Из табл. 10.1 видно, что при возрастании признака фактора х результативный признак тоже в основном возрастает. Выпадает только один год (1992), где при возрастании факторного признака х признак следствия у убывает. Если между рядами х и у существует прямолинейная корреляционная зависимость, то все имеющиеся отклонения обусловлены влиянием случайных факторов. Конечно наши ряды наблюдений слишком короткие для того, чтобы делать какие-то глобальные выводы. По данным табл. 10.1 построим поле корреляции для нашего примера (рис. 10.2).

Из рисунка видно, что полученную ломанную можно ап- роксимировать прямой линией, т. е. в качестве регрессионной модели примем уравнение прямой вида (10.5). Для нахождения параметров а и Ъ используем оба рассмотренных способа. Сначала найдем параметры а и Ъ по МНК (обозначим их а, и Ь2). Используя исходные данные табл. 10.1, определяем

Поле корреляции

Рис. 10.2. Поле корреляции

(количество наблюдений в нашем примере равно 6, т. е. п = 6);

Далее по формуле (10.12) находим искомый параметр Теперь по формуле (10.10) вычисляем искомый параметр Ъ:

Теперь используем второй способ определения параметров а и Ъ через предварительное нахождение коэффициента корреляции (обозначим искомые параметры а2 и Ъ2). Вычисляем:

Исходя из полученной точечной оценки коэффициента корреляции, имеем достаточно близкую линейную прямую зависимость между рядами наблюдений х и у.

При количестве наблюдений п > 50 В. И. Романовский рекомендует для среднего квадратического отклонения коэффициента корреляции использовать формулу

Связь считается установленной, если выполняется неравенство

При количестве наблюдений менее тридцати (п < 30) необходимо проверить полученный коэффициент корреляции на значимость (существенность). Для этого используют t-критерий Стьюдента. Выдвигают гипотезу Н0 о том, что вычисленное нами значение коэффициента корреляции получилось случайно, а на самом деле он равен нулю. Сначала находим расчетное (фактическое) значение t-критерия по формуле

Для нашего примера имеем:

Затем определяем табличное значение t-критерия Стьюдента (см. приложение 10) по числу степеней свободы v = п - 2 (для нашего примера v = 4) и по заданному уровню значимости (ошибки первого рода) а, который обычно задают равным 0,05 (а = 0,05).

Для нашего примера получаем:

Так как t > t , , то гипотеза Нп отвергается, а это озна- чает, что полученный нами коэффициент корреляции можно считать значимым с ошибкой первого рода 5%.

Но, строго говоря, при малой выборке (а выборка разбираемого нами примера является малой) точечной оценкой коэффициента корреляции пользоваться некорректно и необходимо интервальное оценивание. Построим доверительные интервальные оценки для истинного значения коэффициента корреляции. Это возможно сделать, если основываться на нормальном распределении точечной оценки коэффициента корреляции. Верхнюю и нижнюю границы интервала можно найти из формулы

где — квантиль нормального распределения уровня

Для нахождения квантиля используется таблица значений нормированной функции Лапласа Ф0(х) (приложение 5). Но применение выражения (10.24) возможно при ряде ограничений, выполнение которых не всегда реально, а именно: значение г^у должно быть близко к ±1; число наблюдений (п) должно быть достаточно велико.

Отбросить эти ограничения позволяет следующее преобразование:

которое предложил Р. Фишер. Он доказал, что z в формуле (10.25) даже при малых п достаточно близко к нормальному закону распределения. Это позволило Фишеру создать следующий доверительный интервал:

Из формулы (10.26) следует, что истинное значение коэффициента корреляции с доверительной вероятностью (1 - а) заключено в следующем интервале:

где thzn — гиперболический тангенс аргумента 2.

Из курса математического анализа известно, что

Найдем интервальную оценку коэффициента корреляции для рассматриваемого примера. Уровень значимости а возьмем

равным 0,05 (а = 0,05). Тогда получаем По приложению 3 учебника [8] находим Х0475 = 1,96. Далее используем формулу (10.26) и получаем:

Для нашего случая неравенство (10.27) имеет вид: 0,246 < < < 0,987, т. е. истинное значение коэффициента корреляции

при а = 0,05 лежит между 0,246 и 0,987. Конечно, разрыв этот великоват, но не надо забывать, что пример наш учебный и количество наблюдений мало. Значение коэффициента детерминации в нашем примере равно гху = 0,81, или 81%. Иначе говоря, количество преступлений, совершенных с применением огнестрельного оружия на 81% зависят от хищений огнестрельного оружия. Но нужно очень осторожно относиться к такого рода выводам, так как вряд ли полученное значение в чистом виде отражает зависимость хищений оружия от вооруженных преступлений. Наверное, здесь сказывается и влияние других неучтенных нами факторов. Теперь, используя вычисленные нами значения г , дх, бу, ос, у, найдем по формуле (10.14), учитывая формулу (10.19), искомые параметры а2 и Ъ2:

Сравнивая с параметром av полученным по МНК, видим, что а1 = а2. Поэтому принимаем а = а1 = а2 = 21,9. Затем по формуле (10.20) находим искомый параметр Ъ2:

Сравнивая найденный параметр Ъ2 с параметром Ър полученным с помощью МНК, видим, что они равны. Поэтому принимаем Следовательно, уравнение парной

линейной регрессии для нашего примера имеет вид:

Теперь, используя уравнение регрессии (10.29) и табл. 10.1, вычисляем теоретические (выровненные по прямой) значения признака следствия у. Получаем:

Значение yt округляем до целых, так как количество вооруженных преступлений не может быть дробным. Делаем арифметический контроль. Если нет арифметических ошибок, то должно соблюдаться равенство:

Находим

Видим, что равенство (10.30) соблюдается, значит, вычисления выполнены верно. На рис. 10.2 наносим теоретические значения Они лежат точно на прямой линии, поэтому на рис. 10.2 нанесем два крайних значения уг и у6 и соединим их пунктирной линией (см. рис. 10.2).

Теперь находим среднюю ошибку аппроксимации по формуле

Для нашего примера она будет равна:

Сумма есть составляющая общей колеблемости, которая в регрессионном анализе записывается следующим образом:

где — общая колеблемость;

— остаточная колеблемость;

— колеблемость результативного признака у,

объясненная уравнением регрессии.

Приведенное нами разложение зависимой переменной у лежит в основе оценки качества полученного уравнения регрессии: чем большая часть вариации результативного признака у объясняется регрессией, тем лучше качество последней, т. е. правильно выбрана математическая модель зависимости между признаком-фактором и признаком- следствием и правильно выбран факторный признак. Соотношение объясненной колеблемости и общей колеблемости позволяет найти степень детерминации регрессией вариации результативного признака у, т. е. вычислить коэффициент детерминации:

Если взять арифметический квадратный корень из коэффициента детерминации, то получим теоретическое корреляционное отношение:

Оно применяется для измерения тесноты связи при линейной и криволинейной зависимостях между результативным и факторным признаками, а значит, оно более универсально, чем коэффициент корреляции. При криволинейных зависимостях теоретическое корреляционное отношение, вычисляемое по формуле (10.34), часто называют индексом корреляции. По данным нашего примера по формуле (10.33) найдем коэффициент детерминации (вернее его оценку):

Такой же результат мы получили ранее с помощью коэффициента корреляции. Используя найденное значение коэффициента детерминации и формулу (10.34), определяем оценку теоретического корреляционного отношения: fjT « 0,8992 = 0,9. Установлено, что если гу -т^у|<0,1, то гипотеза о линейной зависимости может считаться подтвержденной. Для нашего примера имеем

Поэтому можно считать, что между признаком фактором х и результативным признаком у есть линейная корреляционная зависимость. В противном случае (при несовпадении г|т и г^) связь между изучаемыми рядами наблюдений криволинейна. Как видно из формулы (10.34) 0 < rT < 1. Чем ближе г|т к 1, тем связь между изучаемыми признаками более тесная. Так как рассматриваемые нами ряды наблюдений слишком коротки (п < 30), необходимо проверить значимость полученных нами параметров а и Ъ (так же, как мы проверяли на значимость г^). Для этого мы применяем t-критерий Стьюдента. Выдвигаем гипотезу Н0, которая говорит о том, что полученные нами значения параметров а и Ъ случайны, а на самом деле они равны 0. Сначала определим значимость параметра Ъ. Вычисляем расчетное значение t-критерия по формуле:

где вост — среднее квадратическое отклонение исходных значений результативного признака у. от теоретических (выровненных) yt.

Поэтому Gocm находится по формуле

Применительно к результатам нашего примера имеем

Теперь по формуле (10.35) находим:

Далее ?Ьрасч сравниваем с ^бл, а его мы нашли, когда проверяли на значимость по t-критерию Стьюдента (см. табл. 10) коэффициент корреляции.

Если t ,=2,78, так как t, > t , , то гипотеза Н„ отбрасы-

вается и параметр Ъ признается значимым. Теперь определим значимость параметра а, для этого найдем расчетное значение t-критерия по формуле

Подставляя в формулу (10.37) данные рассматриваемого примера, получаем:

Видно, что , поэтому параметр а признается значимым. Для проверки значимости уравнения регрессии в целом можно применить F-критерий Фишера. Расчетное значение F-критерия для случая парной корреляции имеет вид

Fpacu сравнивается с табличным значением F-критерия (приложение 4), который определяется по заданному уровню значимости б и по степеням свободы vx = 1 и v2 = п - 2. В том случае, если Fpac4 > Гтабл, уравнение регрессии в целом признается значимым. Используя данные рассматриваемого примера по формуле (10.38) вычисляем:

Выбираем ошибку первого рода (уровень значимости) а = 0,05. В нашем случае: vx = 1 (в случае парной корреляции vx = 1 всегда); v2 = 4. Затем по таблице F-критерия Фишера находим: F , = 7,71. Так как в нашем случае F > F , , то по- лученное уравнение регрессии (10.29) признается значимым с ошибкой первого рода 5%. Вообще говоря (как мы уже упоминали в главе 8), коррелировать непосредственно уровни двух рядов можно только в том случае, когда в каждом из них отсутствует автокорреляция, так как ее наличие может существенно повлиять на величину коэффициента, измеряющего зависимость между изучаемыми показателями (в нашем примере это коэффициент корреляции и корреляционное отношение). Поэтому, прежде чем вычислять коэффициент корреляции между рядами наблюдений хну, надо каждый из этих рядов проверить на автокорреляцию.

Сначала проверим на автокорреляцию ряд х (хищения огнестрельного оружия.) Для этого параллельно со значениями xt запишем х (сдвинутые на единицу). А для того чтобы ряд не укоротился и характеристики обоих рядов были одинаковыми (xt = и аХ( = дХ( ), последнее значение xt поставим первым в столбце значений xt . Для измерения автокорреляции между уровнями одного ряда используем следующую модификацию формулы коэффициента автокорреляции (8.41):

Необходимые данные для расчета по формуле (10.39) приведены в табл. 10.2.

Таблица 10.2

Год

xt

1991

773

ИЗО

597529

873490

1992

1138

773

1295044

879674

1993

1396

1138

1948816

1588648

1994

1352

1396

1827904

1887392

1995

1336

1352

1784896

1806272

1996

ИЗО

1336

1276900

1509680

Теперь применяем формулу (10.39) и получаем

Далее по таблицам значения коэффициента автокорреляции (приложение 9) находим гатабл по заданному уровню значимости б и имеющемуся объему выборки п. Примем а = 0,01, объем выборки в нашем примере 6, т. е. п = 6. Тогда получаем г й = 0,447. Так как г < г ,, то делаем вывод об отсутствии автокорреляции в ряду xt (хищения огнестрельного оружия).

Проверим теперь на автокорреляцию ряд yt (вооруженные преступления). Данные, необходимые для расчета коэффициента автокорреляции, приведены в табл. 10.3.

Таблица 10.3

Год

Уг

Уь-1

у

Уг ? у г-1

1991

4481

(9549)

20079361

42789069

1992

8873

4481

78730129

39759913

1993

19154

8873

3,6687571 10®

1,6995344-10®

1994

18059

19154

3,2612748-10®

3,4590208 10®

1995

12160

18059

1,478656-10®

2,195974410®

1996

9549

12160

91183401

1,1611584-10®

Теперь используем формулу (10.39) и получаем:

Так как га < гатабл, то делаем вывод об отсутствии автокорреляции в ряду yt (вооруженные преступления).

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >