Полная версия

Главная arrow Логика

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Обнаружение и исключение грубых ошибок

По определению, выбросы являются нетипичными, резко выделяющимися наблюдениями. Так как при построении прямой регрессии используется сумма квадратов расстояний наблюдаемых точек до прямой, то выбросы могут существенно повлиять на наклон прямой и, следовательно, на значение коэффициента корреляции. Поэтому единичный выброс (значение которого возводится в квадрат) способен существенно изменить наклон прямой и, следовательно, значение корреляции (рис. 7.1).

Заметим, что если размер выборки относительно мал, то добавление или исключение некоторых данных (которые, возможно, не являются «выбросами», как в предыдущем примере) способно оказать существенное влияние на прямую регресии (и коэффициент корреляции). Это показано в следующем примере, где исключенные точки названы «выбросами»; хотя, возможно, они являются не выбросами, а экстремальными значениями (рис. 7.2).

Обычно считается, что выбросы представляют собой случайную ошибку, которую следует контролировать. К сожалению, не существует общепринятого метода автоматического удаления выбросов. Чтобы не быть введенными в заблуждение полученными значениями, необходимо проверить на диаграмме рассеяния каждый важный случай значимой корреляции. Очевидно, выбросы могут не только искусственно увеличить значение коэффициента корреляции, но также реально уменьшить существующую корреляцию.

Влияние наличия «выбросов» на корреляцию между переменными х и у

Рис. 7.1. Влияние наличия «выбросов» на корреляцию между переменными х и у

Влияние наличия экстремальных значений на корреляцию между переменными х и у

Рис. 7.2. Влияние наличия экстремальных значений на корреляцию между переменными х и у

Важно исключить из ряда экспериментальных данных аномальные (грубые) ошибки (промахи), так называемый брак при повторных опытах, если они допущены. Грубая погрешность (промах) - это погрешность результата отдельного измерения, входящего в ряд измерений, которая для данных условий резко отличается от остальных результатов этого ряда. Поскольку даже опытному экспериментатору трудно только на логическом уровне решить вопрос об аномальности того или иного результата, то следует использовать статистические критерии для проверки такой гипотезы.

Выявление грубых погрешностей осуществляют с помощью разнообразных критериев (Романовского, «трех сигм», Диксона и других).

Проверка при малом числе наблюдений (п < 20) может быть осуществлена согласно критерию Романовского. Результат (п + 1)-го сомнительного опыта исключается, и по остальным п опытам находится среднее арифметическое значение ( хп) без учета экстремального значения хп+ Sx- среднеквадратическое отклонение без учета экстремального значения хп+.

Результат (п + 1)-го сомнительного опыта считается промахом и отбрасывается, если

Значения /'-критерия Романовского при различной доверительной вероятностир и числе измерений п приведены в табл. 7.2.

Таблица 7.2

Значения t' для различных уровней значимости

Уровень

значимости

Значения t' при числе измерений

4

6

8

10

12

15

20

0,01

1,73

2,16

2,43

2,62

2,75

2,90

3,08

0,02

1,72

2,13

2,37

2,54

2,66

2,80

2,96

0,05

1,71

2,10

2,27

2,41

2,52

2,64

2,78

0,10

1,69

2,00

2,17

2,29

2,39

2,49

2,62

При числе измерений п > 20, распределенных по нормальному закону, результат, возникающий с вероятностью < 0,003, считается маловероятным, и его можно считать промахом. В соответствии с критерием «трех сигм», если расчет по вышеприведенной формуле дает значение больше трех (А* > 3),то результат xn+i с установленной доверительной вероятностью р = 0,997 считают промахом и отбрасывают.

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>