Определяя истинную природу феномена, исследователь определяет зависимость результата от переменных. Если мы контролируем эксперимент, мы выявляем зависимость фиксируя один из параметров. В случае, когда эксперимент тяжело воспроизводим или невозможно задать значение какого-либо из параметров, нам необходимо воспользоваться данными, которые могут иметь косвенное отношение к феномену или же не иметь его вовсе.
Зависимость между случайными величинами
Продолжим с примером: попробуем узнать, есть ли взаимосвязь между количеством солнечных часов в день и количеством часов активности? Так как мы не управляем количеством солнечных часов, мы можем только записывать данные и следить за ними.
Часы отдыха | Солнечные часы | Часы активности |
---|---|---|
9.7 | 7.53 | 14.3 |
10.6 | 0.02 | 13.4 |
10.2 | 4.06 | 13.8 |
10.1 | 7.5 | 13.9 |
10.3 | 5.16 | 13.7 |
9.7 | 0.27 | 14.3 |
9.5 | 0.73 | 14.5 |
10.5 | 1.71 | 13.5 |
9.6 | 0.57 | 14.4 |
10.4 | 7.15 | 13.6 |
10.2 | 0.9 | 13.8 |
9.8 | 4.72 | 14.2 |
10.1 | 7.67 | 13.9 |
10.3 | 3.33 | 13.7 |
9.7 | 6.16 | 14.3 |
10.3 | 7.99 | 13.7 |
10.4 | 2.15 | 13.6 |
9.7 | 7.35 | 14.3 |
9.1 | 2.48 | 14.9 |
10.1 | 7.31 | 13.9 |
Таблица 1. Данные солнечных часов и часов отдыха |
Как понять, связаны ли эти цифры? Есть ли зависимость двух величин между собой? Для наглядности перенесём данные на график X-Y. Хотя не имеет значения, какие данные будут выбраны в качестве оси X, а какие по оси Y, поскольку нас интересует именно взаимосвязь, а не зависимость, лучше откладывать независимую переменную по оси Х.
График 1. Корреляционная диаграмма количества солнечных часов и времени снаКорреляционная диаграмма позволяет нам "на глаз" определить взаимосвязь между двумя величинами. Но перейдём к термину корреляции: корреляция - это статистическая взаимосвязь случайных величин, изменение значений одной из величин сопровождается изменением других величин. Это не означает, что одна величина влияет на другую, здесь именно рассматривается феномен взаимосвязи, для выявления зависимости одной переменной от другой используется регрессионный анализ.
Корреляция
Перейдём к математическим моделям, позволяющим определять корреляцию между величинами. Существуют три основных метода расчёта корреляции: коэффициент Пирсона, коэффициент Спирмена и коэффициент Кендалла. Выбор методики зависит от исходных данных, но в каждом из случаев, у коэффициента корреляции буду значения от -1 до +1. Значение равное нулю означает, что корреляционной зависимости нет, значение единицы означает абсолютную взаимосвязь двух величин, знак означает направление взаимосвязи, отрицательный коэффициент - увеличение значения критерия X связано с уменьшением значения критерия Y, положительный коэффициент - увеличение одного значения связано с увеличением другого.
Ковариация
Ковариация - это показатель взаимосвязи между двумя величинами, основанный на моменте второго уровня каждой из величин, формула ковариации:
Cov(X,Y) = E[(X-E[X])(Y-E[Y])] ковариация, E - ожидаемое значение (expected) E[(X-E[X])(Y-E[Y])] = E[XY-XE[Y]-E[X]Y+E[X]E[Y]] = E[XY]-E[X]E[Y]-E[X]E[Y]+E[X]E[Y] = E[XY]-E[X]E[Y] преобразования формулы Cov(X,Y) = E[(X-E[X])(Y-E[Y])] = E[XY]-E[X]E[Y]
Для дискретных значений формула может быть упрощена:
Cov(X,Y) = i=1nΣ pi(xi - E[X])(yi - E[Y])
Значения ковариации будут зависеть от исходных данных, то есть нельзя по величине сказать что-либо о зависимости, полученное значение нужно сравнивать с исходными данными. Например, для двух диапазонов [23,48] и [1000, 2322] значение ковариации будет -300, если просто уменьшить второй набор данных в 100 раз, то значение ковариации будет 5. Для нормализации этого значения ввели понятие коэффициент линейной корреляции.
Коэффициент линейной корреляции
Коэффициент линейной корреляции или коэффициент корреляции Пирсона рассчитывается по формуле:
rxy = cov(X,Y)/σxσy
Выраженная связь
Прямая взаимосвязь
Коэффициент корреляции Пирсона может быть использован только при условии, что распределение величин подчиняется нормальному закону распределения, то есть мы должны предварительно проверить данные на соответствие нормальному закону распределения (статья).
Коэффициент корреляции Пирсона показывает наличие именно линейной взаимосвязи между величинами.
=CORREL(data1,data2) функция в openoffice =КОРРЕЛ(data1,data2) функция на русском языке в excel
Отличие корреляции от регрессии
Регрессия выражает количественную зависимость двух величин, как изменение одной величины влияет на изменение другой. В случае корреляционного анализа мы исключительно проверяем наличие линейной взаимосвязи между двумя числами, рассматривая эти два числа как независимые друг от друга величины. Регрессия может быть не только линейной, а корреляция проверяет только линейную взаимосвязь.