Нахождение параметров регрессионной модели методом наименьших квадратов в матричной форме

Цель работы: научиться применять метод наименьших квадратов (МНК) в матричной форме для нахождения параметров любой регрессионной модели, линейной по неизвестным параметрам, с помощью информационной матрицы Фишера.

Пусть в результате реализации плана эксперимента X зависимая переменная Y приняла некоторые значения (каждому значению X соответствует определённое значение Y). Требуется определить параметры регрессионной модели y = AT-f (х), где А - вектор-столбец неизвестных коэффициентов (параметров) модели. Формула для нахождения коэффициентов любой модели, линейной по параметрам, имеет вид:

Здесь F - матрица плана эксперимента X, построенная в соответствии с видом модели /(х), Y - столбец значений зависимой переменной, которые наблюдались в эксперименте. Произведение матриц / = FTF называют информационной матрицей Фишера, а матрицу, обратную к информационной D = I l=(FTF) называют дисперсионной матрицей Фишера, которая определяет свойства будущей модели.

Задача 1. Пусть в реализации плана эксперимента X зависимая переменная Y принимала следующие значения:

X

1

2

3

4

5

6

7

8

6

33

100

225

426

721

1128

1665

Требуется методом наименьших квадратов в матричной форме найти коэффициенты регрессионной модели у = ах + а2х2 + а3х3.

Решение

Все вычисления будем выполнять с помощью табличного процессора MS Excel.

Шаг 1. Вычислим элементы матрицы F плана эксперимента. Количество строк этой матрицы равно количеству значений независимой величины X, а число столбцов равно числу неизвестных параметров в регрессионной модели 123). Таким образом, размерность матрицы F в данном случае 8x3.

Запускаем табличный процессор MS Excel. Создадим рабочий лист, присвоив ему имя МНК (или переименуем лист со стандартным именем). В ячейки ^43:^410 этого листа введём значения плана эксперимента X, в ячейки ВЗ:В10 введём значения зависимой величины Y. Элементы матрицы F будем размещать в ячейках D4.FM. В ячейки D4: Dl 1 введём единицы, так как коэффициент при неизвестном параметре ах в регрессионной модели равен 1. В ячейках Е4: Е 1 будем вычислять величины х1 для значений величины X, так как функциональный коэффициент при неизвестном параметре а2 в регрессионной модели равен х2. В ячейках F4: FI 1 будем вычислять величины х3 для значений величины X, так как функциональный коэффициент при неизвестном параметре а3 в модели равен х3. После вставки и копирования соответствующих формул получаем:

Шаг 2. Вычислим элементы матрицы FT, которая является транспонированной к матрице F плана эксперимента. Чтобы получить матрицу FT, нужно в матрице F поменять местами строки и столбцы, т. е. элементы первой строки матрицы FT совпадают с элементами первого столбца матрицы F, элементы второй строки матрицы FT совпадают с элементами второго столбца матрицы F и т. д. Таким образом, размерность матрицы FT равна 3x8.

Для вычисления матрицы FT в MS Excel используем стандартную функцию = ТРЛНСП(МАССИВ). При этом соответствующую формулу необходимо обязательно вводить как формулу массива. Для этого сначала выделим диапазон ячеек А14: Я16, в котором будут размещаться элементы матрицы FT. Затем вставим функцию = ТРАНСП(ИЛ: F 1), нажмем клавишу F2, а затем - CTRL+SHIFT+ENTER. В результате получим:

Шаг 3. Вычислим элементы информационной матрицы Фишера / = FT F, которая является произведением матриц FT и F. Для вычисления информационной матрицы / в MS Excel используем стандартную функцию = МУМНОЖ(МАССИВАМАССИВ2). При этом соответствующую формулу также необходимо вводить как формулу массива. Для этого сначала выделим диапазон ячеек J3: L5, в котором будут размещаться элементы информационной матрицы /. Затем любым способом вставим функцию = МУМНОЖ(А4: Я16;?>4: F11), нажмем клавишу F2, а затем - CTRL+SHIFT+ENTER. В результате получим:

Шаг 4. Вычислим элементы дисперсионной матрицы Фишера D = 7_1 =(FT которая является обратной к информационной матрице /. Для вычисления дисперсионной матрицы D в MS Excel используем стандартную функцию = МОБР(МАССИВ). При этом соответствующую формулу необходимо вводить как формулу массива. Для этого сначала выделим диапазон ячеек У8:/Л0, в котором будут размещаться элементы дисперсионной матрицы D. Затем любым способом вставим функцию = MOBP(J 3: L5), нажмем клавишу F2, а затем -

CTRL+SHIFT+ENTER. В результате получим:

Шаг 5. Вычислим элементы произведения матрицы FT на вектор- столбец значений зависимой величины Y. Для этого используем стандартную функцию = МУМНОЖ(МАССИВМАССИВ!). При этом соответствующую формулу также необходимо вводить как формулу массива. Для этого сначала выделим диапазон ячеек Л 3: Л 5, в котором будут размещаться элементы вектора-столбца FT Y. Затем вставим функцию = МУМНОЖ(А4 : Н6;ВЗ: В), нажмем клавишу F2, а затем - CTRL+SHIFT+ENTER.

Шаг 6. Вычислим неизвестные параметры уравнения регрессии и а2, а3). Для этого выделим диапазон ячеек L13: L15, в котором будут размещаться элементы вектора-столбца А. Затем вставим функцию = МУМЯОЖ(/8: Z10; ЛЗ: Л 5), нажмем клавишу F2, а затем - CTRL+SHIFT+ENTER. В итоге получаем:

Таким образом, найдены коэффициенты регрессионной модели ах= 1, а2=2, аъ= 3. Следовательно, регрессионная модель имеет вид

у — 1 + 2х2 + Зх3.

Найти параметры модели в MS Excel можно гораздо быстрее и проще следующим образом.

В открытой рабочей книге создадим рабочий лист, присвоив ему имя Линии тренда (или переименуем лист со стандартным именем). В диапазон ячеек АЪВ этого листа с листа МНК скопируем значения плана эксперимента X и значения зависимой величины Y.

На основе этих данных строим точечную диаграмму со значениями, соединёнными сглаживающими линиями:

На графике вызываем локальное меню, в котором выбираем команду Добавить линию тренда... В появившемся диалоговом окне Линия тренда устанавливаем тип линии тренда Полиномиальная и степень 3.

Во вкладке Параметры этого же диалогового окна устанавливаем флажки следующим образом:

В результате получаем:

Таким образом, модель регрессии имеет вид $х = 1 + 2*1(Г11х + 2х2 + Зх3. Так как коэффициент 2-КГ11 практически равен нулю, то в качестве модели можно использовать $х = 1 + 2х2 + Зх3. Отсюда видно, что полученная регрессионная модель совпадает с моделью, найденной с помощью дисперсионной матрицы Фишера. Значение R2 = 1 говорит о высокой степени достоверности аппроксимации. Об этом свидетельствует и график регрессии, на котором линия экспериментальных данных практически совпадает с линией регрессии.

В MS Excel кроме линейной и полиномиальной линий тренда можно строить следующие стандартные типы линий тренда:

  • - логарифмическая у = а{2 -1пх;
  • - степенная у = а{ха2;
  • - показательная у = ахе°.

Таким образом, с помощью возможностей табличного процессора MS Excel можно строить уравнения регрессии почти со всеми элементарными функциями (за исключением тригонометрических функций). Но имеются и ограничения:

  • - максимальная степень многочлена при полиномиальной аппроксимации равна 6 (хотя для большинства случаев этого достаточно);
  • - невозможно построить регрессионную модель, представляющую собой суперпозицию элементарных функций, например у = ах • 1пх + а2х2 + а3.

Эти ограничения отсутствуют при построении регрессионных моделей с помощью дисперсионной матрицы Фишера. Но этот способ пригоден только для моделей, в которые неизвестные параметры регрессии входят линейным образом. Например, невозможно построить модели, содержащие степенную у = ах • хй2 и показательную у = ахeaiX функции, так как в них неизвестный параметр а2 входит нелинейным образом. В таких случаях нужно строить модели с фиксированными значениями параметров, входящих нелинейно, и подбирать наиболее подходящие значения по величине коэффициента достоверности аппроксимации R2 (чем он ближе к 1, тем достовернее полученная модель описывает реальный процесс).

Учитывая изложенные обстоятельства, при построении регрессионных моделей в MS Excel необходимо придерживаться следующего подхода:

  • - сначала строим регрессионную модель с помощью линий тренда на основе элементарных функций: линейной, полиномиальной, логарифмической, степенной или показательной (это проще и быстрее);
  • -если коэффициент достоверности аппроксимации R2 < 0,9, то пытаемся построить регрессионную модель в виде суперпозиции элементарных функций, в которую неизвестные параметры регрессии входят линейным образом, с помощью дисперсионной матрицы Фишера.

В любом случае после построения регрессионной модели необходимо проверить её значимость (например, с помощью F -критерия Фишера), независимо от значения коэффициента достоверности аппроксимации R2.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >