Количественная оценка тесноты связи между двумя случайными величинами

Для количественной оценки тесноты связи служит выборочный коэффициент корреляции:

Коэффициент (индекс) корреляции является безразмерной величиной, так как его значение не зависит от выбора единиц измерения обеих переменных и не изменяется при изменении начала отсчета и масштаба величин х и у. Так, если значение величины увеличить на порядок, то коэффициент корреляции не изменится.

Например, корреляция между ростом и весом будет одной и той же, независимо от того, проводились измерения в дюймах и фунтах или в сантиметрах и килограммах. Пропорциональность означает просто линейную зависимость.

Выборочный коэффициент корреляции по абсолютной величине не превосходит единицы, т. е. лежит в пределах от -1 до +1.

Обратите внимание на крайние значения коэффициента корреляции. Значение -1,00 означает, что переменные имеют строгую отрицательную корреляцию. Значение +1,0 означает, что переменные имеют строгую положительную корреляцию. Отметим, что значение 0,00 означает отсутствие корреляции.

Принято считать, что если о ,30, то связь слабая; при = (0,3-Ю,7) -

средняя; при Г*У> 0 ,70 - сильная, или тесная. Когда rxy = 1 - связь функциональная.

Если случайные величины х, и независимы, то коэффициент корреляции обязательно равен нулю, обратное утверждение неверно. Близкая к нулю величина коэффициента корреляции свидетельствует об отсутствии линейной связи переменных, но не об отсутствии связи между ними вообще.

Коэффициент корреляции одинаково отмечает долю случайности и криволинейность связи между х и у. Эта зависимость может быть близкой к функциональной, но существенно нелинейной, а коэффициент корреляции будет значительно меньше единицы.

Корреляция без разделения данных на отдельные группы

Рис. 7.4. Корреляция без разделения данных на отдельные группы

Отсутствие однородности в выборке также является фактором, смещающим (в ту или иную сторону) выборочную корреляцию. Представьте ситуацию, когда коэффициент корреляции вычислен по данным, которые поступили из двух различных экспериментальных групп, что, однако, было проигнорировано при вычислениях. Далее, пусть действия экспериментатора в одной из групп увеличивают значения обеих коррелированных величин, и, таким образом, данные каждой группы сильно различаются на диаграмме рассеяния (рис. 7.4).

В подобных ситуациях высокая корреляция может быть следствием разбиения данных на две группы, а вовсе не отражать «истинную» зависимость между двумя переменными, которая может практически отсутствовать (это можно заметить, взглянув на каждую группу отдельно (рис. 7.5).

Корреляция с учетом разбиения данных на две отдельные группы

Рис. 7.5. Корреляция с учетом разбиения данных на две отдельные группы

Если допускается такое явление, как наличие «подмножества» данных, желательно вычислить корреляции отдельно для каждого множества.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >