Понятие о криволинейном корреляционном и регрессионном анализе

При исследовании различных общественных и природных явлений зависимости между изучаемыми признаками очень часто являются криволинейными.

Например, если исследовать изменение издержек от объема выпуска, то наилучшей является степенная (кубическая) зависимость. Построение и анализ криволинейных уравнений регрессии имеет свою специфику. Некоторые нелинейные модели (мы уже об этом упоминали) можно линеаризировать (свести к линейным), например, с помощью замены переменной или логарифмирования. Заметим, что криволинейные уравнения регрессии бывают однофакторными и многофакторными. Приведем некоторые часто используемые уравнения криволинейной регрессии.

Параболы второй, третьей,... n-й степеней.

Степенная функция

Показательная функция

Гипербола

Полулогарифмические функции:

Степенную и показательную модели можно легко свести к линейным путем логарифмирования.

Для степенной функции , т. е. получили линейную регрессионную модель относительно пу( и In х. (можно брать логарифм по любому основанию). Напомним, что InXj = loge x# где е * 2,718.

Для показательной функции , т. е. получили линейную модель относительно yt и х..

Полулогарифмическую модель и гиперболическую функцию сводят к линейным путем замены переменной.

И получаем:

Видно, что после линеаризации мы получили парную линейную регрессионную модель, которую рассматривали в подразд. 10.2.

Нелинейные параметры криволинейных регрессионных моделей можно находить, например, с помощью МНК. Рассмотрим, как это делается на примере параболической модели третьего порядка. Условие МНК в данном случае имеет вид:

Записываем необходимое условие экстремума функции четырех независимых аргументов:

Определяем частные производные и получаем следующую систему:

После преобразовании (10.86) получаем систему нормальных уравнений для определения искомых параметров av а2, а3, Ъ.

Систему (10.87) можно легко решить, используя, например, метод Гаусса или одну из его модификаций.

Приведем некоторые часто используемые криволинейные многофакторные модели:

1) степенная

2) экспоненциальная

3) гиперболическая

Модели (10.88) и (10.89) приводятся к линейной многофакторной модели логарифмированием:

а так как In е = 1, то получаем

Модель (10.90) сводят к линейной с помощью подстановки:

Модели (10.91), (10.92),(10.93) являются линейным многофакторными, которые мы рассматривали в подразд. 10.5.

Кратко коснемся вопроса выбора формы модели. Сложность и многообразие рассматриваемых природных и общественных явлений предопределяет большое количество моделей, используемых для их анализа. Это значительно осложняет выбор оптимальной зависимости. В случае парной криволинейной регрессии выбор модели, как правило, осуществляется по расположению данных наблюдений на поле корреляции. Но встречаются случаи, когда расположение значений наблюдений на корреляционном поле приближенно соответствует нескольким функциональным зависимостям, и возникает вопрос выбора из них наилучшей. Еще более сложна ситуация для множественной криволинейной регрессии, так как исходные данные наблюдений наглядно не представляются. Для того чтобы выбрать адекватную модель необходимо ответить на ряд вопросов, которые возникают при ее анализе:

  • • Каковы признаки “хорошей” модели?
  • • Какие ошибки спецификации могут встречаться, и каковы их последствия?
  • • Как найти ошибку спецификации?
  • • Как можно исправить ошибку спецификации и перейти к более качественной модели?

Для того чтобы построить “хорошую” модель, нужно учитывать следующие критерии.

Модель должна быть максимально простой (модель упрощенно описывает изучаемое явление). Поэтому из двух моделей, приблизительно одинаково описывающих изучаемый процесс, выбирают более простую (например, содержащую меньшее количество факторных признаков).

Для любого набора данных наблюдений определяемые параметры должны находиться однозначно.

Уравнение регрессии будет тем лучше, чем большую часть разброса результативного признака оно может объяснить, т. е. коэффициент детерминации должен быть максимальным.

Никакое уравнение регрессии не может быть признано качественным, если оно не соответствует теоретическим предпосылкам.

Модель можно признать хорошей, если полученные на ее основе прогнозы, соответствуют реальной действительности.

Ошибки спецификации в данном пособии не рассматриваются. Сведения о них можно почерпнуть, например, в [6].

Теперь приведем конкретный пример расчета криволинейного уравнения регрессии.

Пример 10.5

Построить показательное уравнение регрессии у{=Ъ? ах% если имеются данные наблюдений над двумя случайными величинами х и у (табл. 10.13, данные условные)

Таблица 10.13

X

4

5

5

6

8

10

8

7

11

6

У

1,5

2

4,4

2,3

2,7

4

2,3

2,5

6,6

1,7

Используя данные табл. 10.13, построим поле корреляции для нашего примера (рис. 10.3) Черными точкам на рис. 10.3 обозначены исходные данные.

Рис. 10.3

В данном примере вид уравнения регрессии задан (показательная функция). С помощью логарифмирования линеаризируем исходную модель. Получаем:

Исходные параметры а и Ъ найдем с помощью МНК.

Условие МНК в данном случае имеет вид:

Записываем необходимые условия экстремума функции F двух независимых аргументов In а и In Ъ.

Вычисляем чистые производные и получаем следующую систему уравнений:

После преобразования (10.96) получаем следующую систему нормальных уравнений:

Считая, что искомые параметры а и Ъ отличны от нуля (а ф О, Ъ * 0), умножаем левую и правую стороны первого уравнения системы (10.97) на а, а второго — на Ъ и получаем:

Решая систему нормальных уравнений (10.98) (для этого можно использовать, например, способы Крамера или Гаусса), находим In а и In Ъ, а затем определяем искомые параметры а и Ъ.

Применим метод Крамера. Найдем определитель системы (10.98):

Затем определяем

Находим натуральные логарифмы искомых параметров:

Используя таблицу (10.13) исходных данных составим систему (10.98)

Таким образом, получаем:

Находим определитель системы:

Вычисляем определители:

Теперь по формулам (10.99) находим натуральные логарифмы искомых параметров:

Зная логарифмы, вычисляем сами параметры:

Таким образом, искомое уравнение регрессии будет иметь

вид

Используя формулу (10.100) найдем выравненные (теоретические) значения результативно признака у :

Все эти вычисления выполнены правильно, но должен выполняться арифметический контроль:

В нашем случае имеем:

То есть арифметический контроль выполнен, а имеющееся расхождение объясняется ошибками округления.

Нанесем выравненные значения у{ на поле корреляции, т. е. на рис. 10.3 (сплошная линия). По формуле (10.31) находим среднюю ошибку аппроксимации:

Так как связь между признаками у и х криволинейная, то мера ее близости (тесноты) определяется с помощью теоретического корреляционного отношения по формуле (10.34). По данным нашего примера получаем оценку r|T (fjT):

Поэтому имеем:

Квадрат теоретического корреляционного отношения, как мы уже говорили, носит название коэффициента детерминации. В нашем случае его оценка равна fj^ =0,379, или 37,9%, т.е. на 37,9% вариация результативного признака (у) обеспечивается вариацией выбранного нами для модели признака фактора (х).

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >