Элементы корреляционно-регрессионного анализа: качественные аспекты статистического изучения взаимосвязей
Как уже было сказано, корреляционно-регрессионный анализ имеет двоякую сущность. Во-первых, он заключается в оценке тесноты связи между факторным и результативным признаками, в определении неизвестных причинных связей и в оценке факторов, оказывающих наибольшее влияние на результативный признак (корреляционный анализ). Во-вторых, он заключается в установлении формы зависимости между факторным и результативным признаками путем определения функции (уравнения) регрессии, а также в использовании данного уравнения для оценки неизвестных значений зависимой переменной (регрессионный анализ).
При проведении корреляционно-регрессионного анализа должны выполняться следующие требования (условия).
- 1. Наличие исходной информации по достаточно большой совокупности социально-экономических процессов, объектов или явлений. Анализ единичных объектов или явлений не позволяет раскрыть статистические закономерности, которые проявляются лишь при наличии множества явлений. Должны учитываться требования закона больших чисел, обеспечивающего надежное взаимопогашение действия случайных факторов при изучении взаимосвязей. Поэтому в практических расчетах количество единиц совокупности должно быть максимально большим, т.е. выборка должна быть представительной. В конкретных расчетах значимости (существенности) отдельных показателей существует даже разграничение способов проверки этой значимости в зависимости от объема выборки п. Если п > 30, то используется один способ, если п < 30, то используется другой способ.
- 2. Обеспечение качественной однородности изучаемой совокупности. Так, при изучении зависимостей между экономическими показателями предприятия необходимо отбирать не только предприятия одной отрасли или сферы деятельности, но и предприятия, выпускающие однородную продукцию или оказывающие однотипные услуги. Некорректно, например, изучать корреляционную связь между спросом и ценой на все товары и услуги, входящие в потребительскую корзину. Необходимо выделить как минимум три однородные группы: продовольственные товары, непродовольственные товары, услуги. Каждая группа в зависимости от целей исследования может быть дезагрегирована на более мелкие однородные подгруппы, например, на конкретные товары и услуги.
Кроме качественной однородности следует учитывать и количественную однородность, степень которой можно оценить с помощью коэффициента вариации. Если он более 60—80%, то применение методов корреляционно-регрессионного анализа ограничено.
3. Наличие именно корреляционной (стохастической), а не функциональной связи. Теоретически возможно применение методов корреляционно-регрессионного анализа и в случае жестко-детерминиро- ванной связи, что может позволить более полно измерить роль каждого фактора в формировании значения результативного признака. Но в целом считается, что если связь функциональная, то ее исследование следует осуществлять с помощью других экономических и экономико-статистических методов (например, метода цепных подстановок или индексного метода), поскольку корреляционный анализ не будет иметь смысла. Так, возможно рассчитать тесноту связи между прибылью и рентабельностью продаж Rn, однако коэффициент должен быть равен единице, так как эти два показателя жестко связаны между собой формулой:
где П — прибыль; Q — выручка от реализации товаров, работ услуг.
4. Наличие нормального распределения единиц совокупности по рассматриваемым признакам. Это условие связано с тем, что все положения корреляционно-регрессионного анализа разработаны из предположения о нормальном характере распределения факторного и результативного признаков. Однако нормальное распределение вероятностных значений тех или иных признаков в экономической и социальной сфере встречается довольно редко. Поэтому для оценки соответствия фактического распределения нормальному существует ряд простых количественных показателей, которые целесообразно рассчитывать до начала осуществления корреляционно-регрессионного анализа. Так, в частности, применяют показатели асимметрии и эксцесса. Например, показатель асимметрии Л$ характеризует отклонение фактического распределения от нормального вправо или влево:
где х — среднее значение признака; MQ — показатель моды; а — среднее квадратическое отклонение.
Если As > 0, то кривая фактического распределения смещена вправо от кривой нормального распределения и говорят о правосторонней асимметрии. При А$ < 0 имеет место отрицательная, левосторонняя асимметрия.
Оценка существенности А$ осуществляется с помощью ее средней квадратической ошибки:
где п — число единиц изучаемой совокупности.
На основе исчисленных величин определяют значение t — критерия:
Если значение t < 3, то асимметрия считается несущественной, распределение близко к нормальному и поэтому использование методов корреляционно-регрессионного анализа оправданно.
5. Наличие требований к факторным признакам. Включаемые в анализ признаки-факторы должны быть основными или значимыми, т.е. оказывающими решающее влияние на уровень результативного признака, а также независимыми друг от друга. Например, при рассмотрении влияния доходов (х) на потребление домашних хозяйств (у) неверно в качестве факторных признаков брать номинальные доходы (Xj), располагаемые доходы (х2), реальные доходы (х3). Все эти группы доходов определяются друг через друга и поэтому являются зависимыми показателями. В многофакторную корреляционную модель целесообразно включить какой-либо один из показателей доходов (например, реальный, т.е. скорректированный на инфляцию, среднемесячный доход семьи — Xj) и дополнить ее другими независимыми признаками (например, численность домохозяйства — х2, доля иждивенцев — х3, площадь недвижимости — х4 и т.д.).
Следует отметить также, что факторы должны характеризовать одну и ту же единицу совокупности, т.е. они должны относиться только к рассматриваемому объекту или процессу. Так, к факторам, определяющим уровень расходов домохозяйств, нецелесообразно относить такие факторы, как прибыль предприятия, на котором работает член домохозяйства или размер доходов бюджета города, в котором живет член домохозяйства. Эти факторы относятся к другим объектам и не должны включаться в модель.
При осуществлении корреляционно-регрессионного анализа выделяют следующие этапы:
- • выявление корреляционной связи между признаками, включая отбор факторного (в случае множественной регрессии — факторных) и результативного признаков;
- • выбор формы уравнения регрессии;
- • построение регрессии (определение параметров уравнения регрессии);
- • определение показателей тесноты связи;
- • оценка достоверности полученных результатов.
Первые два этапа предполагают преимущественно качественный подход при осуществлении корреляционно-регрессионного анализа, а последние три этапа — количественные расчеты разной степени сложности в зависимости от содержания модели.
Выявление корреляционной связи осуществляется с помощью различных статистических методов. Кратко рассмотрим основные из них.
Метод параллельных рядов. Данный метод используется при отсутствии ярко выраженной связи между факторным и результативным признаками. Его суть заключается в том, что на основе двух рядов признаков (факторного и результативного), которые находятся в определенной взаимосвязи, визуально определяют характер этой взаимосвязи. Для этого факторный признак располагают в монотонно убывающем или возрастающем порядке и в соответствии с этим перемещают результативный признак. В табл. 5.7 в качестве примера приведены исходные и упорядоченные посредством метода параллельных рядов значения факторного признака (среднегодовая численность занятых в экономике — S) и соответствующие им значения результативного признака (валовой внутренний продукт по паритету покупательной способности — ВВП).
Наличие и характер связи определяется по степени согласованности вариации данных рядов. В тех случаях, когда возрастание факторного признака влечет за собой возрастание результативного признака, возможно наличие прямой корреляционной связи. Если же с увеличением факторного признака величина результативного признака имеет тенденцию к снижению, то можно предполагать обратную связь между этими признаками. В нашем примере параллельное сопоставление рядов индивидуальных значений занятого населения
Таблица 5.7
Среднегодовая численность занятых и объем ВВП (по результатам международных сопоставлений в 2008 г. [80, с. 60-61, 94-95])
Исходные данные |
Упорядоченные данные |
||||
Страна |
S, млн чел. |
ВВП, млрд долл. США |
Страна |
S, млн чел. |
ВВП, млрд долл. США |
Россия |
71,0 |
2888,8 |
Великобритания |
29,4 |
2260,5 |
Германия |
38,9 |
3052,5 |
Германия |
38,9 |
3052,5 |
Вел и кобритан ия |
29,4 |
2260,5 |
Япония |
63,9 |
4322,9 |
США |
145,4 |
14 296,9 |
Россия |
71,0 |
2888,8 |
Япония |
63,9 |
4322,9 |
США |
145,4 |
14 296,9 |
и ВВП показывает на наличие прямой корреляционной связи: по мере увеличения численности занятых объем ВВП имеет тенденцию к росту.
Метод параллельных рядов обычно используется для установления характера связи при относительно небольшом объеме исходной информации. Однако при наличии большого числа значений признаков, когда одному и тому же значению факторного признака, как правило, соответствует несколько различных значений результативного признака, восприятие и анализ параллельных рядов сильно затрудняется. В этих случаях целесообразно использовать метод построения корреляционных таблиц.
Метод построения корреляционных таблиц. Данный метод предполагает построение группировочной таблицы, где в подлежащем указывается факторный признак, а в сказуемом — результативный признак. При этом в самой корреляционной таблице представлено распределение частот, т.е. показывается, сколько раз данная величина одного признака повторяется в сочетании с соответствующей величиной другого признака. Если частоты в таблице расположены на «главной» диагонали (из левого верхнего угла в правый нижний угол), то возможно наличие прямой корреляционной зависимости между признаками. Если же частоты расположены по «вспомогательной» диагонали, то связь предположительно обратная.
Следует отметить, что при использовании метода построения корреляционной таблицы необходимо установить расположение основной части частот. Возможна ситуация, когда все клетки корреляционной таблицы окажутся заполненными. Однако это еще не означает, что корреляционная связь между признаками отсутствует. Если основная масса частот расположена по той или иной диагонали, то корреляционная связь между признаками существует.
Для иллюстрации данного метода рассмотрим простой условный пример о выявлении характера взаимосвязи между величиной производственного стажа (факторный признак) и размером заработной платы (результативный признак) 12 работников[1]. Исходные данные представлены в табл. 5.8.
Таблица 5.8
Производственный стаж и размер заработной платы
Производственный стаж, лет |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
Заработная плата, тыс. руб. |
10 |
13 |
11 |
14 |
16 |
15 |
14 |
17 |
19 |
18 |
19 |
21 |
Сгруппировав эти данные, получим пример корреляционной таблицы (табл. 5.9). Поскольку основные частоты расположены по «главной» диагонали, то можно говорить о прямой корреляционной связи.
Таблица 5.9
Корреляционная таблица производственного стажа и размера заработной
платы
Производственный стаж, лет |
Заработная плата, тыс. руб. |
Итого |
||
10-13 |
14-17 |
18-21 |
||
1-3 |
3 |
- |
- |
3 |
4-6 |
- |
3 |
— |
3 |
7-9 |
- |
2 |
1 |
3 |
10-12 |
- |
- |
3 |
3 |
Итого |
3 |
5 |
4 |
12 |
Корреляционная таблица позволяет и достаточно просто обнаружить корреляционную связь. Однако данный метод, так же как и метод параллельных рядов, полностью базируется на сопоставлении индивидуальных значений изучаемых признаков. Но индивидуальные значения формируются под влиянием как основных, так и случайных факторов. При этом корреляционная связь обнаруживается более четко, если влияние случайных факторов удается нивелировать. Это можно сделать при применении метода аналитической группировки и исчисления групповых средних.
Метод аналитической группировки и исчисления групповых средних. Данный метод основан на использовании рассмотренного в предыдущем параграфе метода статистических группировок. В качестве группировочного признака берется факторный признак, исходные данные разбиваются на группы и для каждой группы вычисляется средняя величина результативного признака. Кроме того, эта средняя может быть рассчитана по данным корреляционной таблицы. Сравнивая значения факторного признака и средние значения результативного признака, можно говорить о наличии или отсутствии корреляционной связи между признаками. Корреляционная зависимость будет тем отчетливее обнаруживаться, чем сильнее будут отличаться друг от друга групповые средние. Если бы связь между факторным и результативным признаками отсутствовала, то все групповые средние результативного признака были бы приблизительно одинаковыми по величине.
Для нашего примера аналитическая группировка и расчет средних групповых значений результативного признака представлены в табл. 5.10. Сравнивая средние значения групповых зарплат и количество лет стажа (с ростом стажа средняя зарплата растет), можно сделать вывод, что между данными признаками имеется тесная прямая корреляционная зависимость.
Таблица 5.10
Группировка рабочих по производственному стажу
Группы рабочих по стажу, лет |
Число рабочих, чел. |
Общая сумма заработной платы, тыс. руб. |
Средняя зарплата одного рабочего, тыс. руб. |
|
по индивидуальным данным |
по данным корреляционной таблицы |
|||
1-3 |
3 |
34 |
11,3 |
11,5 |
4-6 |
3 |
45 |
15,0 |
15,5 |
7-9 |
3 |
50 |
16,7 |
16,8 |
10-12 |
3 |
58 |
19,3 |
19,5 |
Итого |
12 |
187 |
15,6 |
15,8 |
Графический метод. Данный метод используется для предварительного выявления наличия корреляционной связи и визуального определения уравнения регрессии. Для этого в прямоугольной системе координат на горизонтальной оси (оси абсцисс) откладываются значения факторного признака, а на вертикальной оси (оси ординат) — результативного признака. Используя индивидуальные данные, строится точечный график. Каждая точка имеет соответствующие друг другу координаты.
Совокупность полученных точек образует корреляционное поле. По характеру расположения на нем точек можно судить о наличии или отсутствии связи, о ее форме, а также о направлении связи. На рис. 5.1,ц точки беспорядочно разбросаны по полю и образуют фигуру, похожую на шар. В этом случае считается, что корреляционная зависимость между признаками отсутствует или она очень слаба. Если же точки образуют фигуру, похожую на вытянутый эллипс или концентрируются вокруг оси, идущей из нижнего левого угла в верхний правый угол (рис. 5.1, б или наоборот — рис. 5.1, в), то име-

Рис. 5.1. Виды корреляционного поля
ется прямая (обратная) корреляционная связь между исследуемыми признаками.
Таким образом, рассмотренные методы позволяют выявить наличие или отсутствие корреляционной связи между признаками, а также дать приблизительную оценку формы связи: линейно или нелинейно зависит результативный признак от изменений факторного признака. Следующим шагом (этапом) корреляционно-регрессионного анализа является выбор конкретной математической формы взаимосвязи. Эта форма называется уравнением регрессии.
Уравнение регрессии — это математическая модель, в которой среднее значение результативного признака рассматривается как функция одной или нескольких (в случае множественной регрессии) переменных — факторных признаков.
Экономико-математический смысл уравнения регрессии заключается в том, что с его помощью можно установить, каким будет среднее значение результативного признака у при том или ином значении факторного признаках, если остальные факторы, влияющие на у и не связанные с х, не учитывать. Другими словами, уравнение регрессии отображает зависимость у(х) при условии полного взаи- мопогашения всех случайных по отношению к фактору х причин. Уравнение регрессии можно рассматривать как вероятностную гипотетическую функциональную связь величины результативного признака со значениями факторного признака.
Следует отличать понятия «теоретическая линия регрессии» и «эмпирическая линия регрессии» Уравнение регрессии по своей сути и является теоретической линией регрессии. Рассчитанные по уравнению регрессии значения результативного признака называются теоретическими. Они обычно обозначаются как ух. Эта запись читается как «игрек, выровненный по х» и рассматривается как функция отх, т.е. ух = /(х). Эмпирическая линия регрессии — это исходные (эмпирические) статистические данные (статистическая выборка) факторного и результативного признаков, на основании которых выбирается уравнение регрессии. Другими словами, эмпирическая линия — это то, что изображено на корреляционном поле, и с помощью чего можно построить теоретическую линию регрессии.
Поиск в каждом конкретном случае того типа функции, с помощью которого можно наиболее адекватно отразить ту или иную эмпирическую зависимость между признаками х и у, — главная задача регрессионного анализа. Выбор теоретической линии регрессии обусловлен формой эмпирической линии регрессии; теоретическая линия как бы сглаживает ее изломы.
Рассмотрим чаще всего используемые уравнения регрессии в наиболее простом случае — при анализе взаимосвязи между двумя признаками хиу. Такой анализ называется однофакторным корреляционно-регрессионным анализом.
1. Если с увеличением факторного признака результативный признак равномерно возрастает или убывает, то зависимость является линейной и описывается уравнением прямой:
где aQ — свободный член уравнения регрессии; а{ — коэффициент регрессии, отражающий вариацию результативного признака, приходящуюся на единицу вариации факторного признака (это показатель силы связи).
Например, если при анализе связи между среднемесячным доходом и потреблением какого-либо продукта питания (например, молока) д, = 0,75, то это означает, что при росте дохода на 1 тыс. руб., потребление молока увеличится на 0,75 л.
2. Если связь между признаками нелинейная, причем с возрастанием факторного признака происходит ускоренное возрастание или убывание результативного признака, то используется уравнение параболы второго порядка:
3. Если результативный признак с увеличением факторного признака возрастает или убывает не бесконечно, а стремится к какому-то пределу, то связь описывается уравнением гиперболы:
4. Если связь нелинейная и слабая, то связь между признаками описывается уравнением степенной функции:
5. Если при увеличении значений факторного признака в арифметической прогрессии значения результативного признака изменяются в геометрической прогрессии, то связь может быть описана уравнением показательной функции:
Выбор той или иной функции в качестве уравнения регрессии может осуществляться на основании графического изображения эмпирических данных. Однако визуально однозначно проследить характер взаимодействия между признаками чаще всего не представляется возможным. Поэтому целесообразно определять параметры уравнений регрессии разных видов. Затем с помощью различных критериев нужно отобрать ту форму уравнения, которая наиболее точно отражает реально существующую зависимость. Одним из таких критериев является средний коэффициент аппроксимации. Он дает обобщенную количественную характеристику относительных размеров отклонения эмпирических значений результативного признака (у) от теоретических значений (у*), полученных по построенному уравнению регрессии:
Коэффициент аппроксимации определяет среднюю величину относительного отклонения эмпирического значения от расчетного значения. Если Ф < 6—8%, то это свидетельствует о высокой степени приближения расчетных значений к эмпирическим значениям, т.е. выбранная форма уравнения связи и состав отобранных факторов достаточно точно отражают реальные взаимосвязи. Если 9% < Ф <15%, то можно говорить о средней степени приближения расчетных значений к эмпирическим значениям и о среднем качестве избранной формы связи. Если Ф > 16-20%, то считается, что уравнение регрессии неадекватно описывает реальную взаимосвязь.
Таким образом, выбор формы связи имеет очень важное качественное значение. Если этот выбор сделан неверно, то все дальнейшие расчеты становятся не адекватными реальной экономической ситуации. Вместе с тем важно понимать, что выбор той или иной теоретической линии регрессии всегда связан с некоторой долей условности, поскольку это всегда выбор функциональной зависимости, в то время как в реальной жизни функциональные связи встречаются крайне редко. Можно говорить лишь об определенной
степени приближенности реальных социально-экономических взаимосвязей к функциональным зависимостям. Но если эта степень высокая, т.е. теоретические и эмпирические данные близки друг к другу, то именно теоретическая линия регрессии и ее параметры приобретают практическое значение, превращая корреляционно-регрессионный анализ в хорошего помощника при анализе сложных экономических объектов и процессов.
- [1] Этот пример взят из электронного учебно-методического комплекса по дисциплине «Статистика» [38].