Коэффициент корреляции

{IMAGE_0}

Коэффициент корреляции — это численная характеристика, измеряющая степень и направление статистической связи между двумя количественными признаками. В школьном курсе чаще всего рассматривают линейный коэффициент корреляции Пирсона, который отражает, насколько точки на диаграмме рассеяния приближаются к прямой. Значение коэффициента может принимать значения от минус единицы до единицы: положительное значение указывает на тенденцию «чем больше x, тем больше y», отрицательное — на обратную зависимость. Формально связь между ковариацией и стандартными отклонениями выражается следующим образом: rX,Y=Cov(X,Y)σXσYr_{X,Y}=\dfrac{\operatorname{Cov}(X,Y)}{\sigma_X\,\sigma_Y} Этот показатель нормирует ковариацию, делая размерность безразмерной и позволяя сравнивать зависимости между разными парами признаков.

Коэффициент корреляции широко применяется в прикладной статистике, экономике, биологии и многих других областях: при анализе связи между расходами и доходами, при проверке зависимостей в экспериментальных данных, при выборе признаков для моделей машинного обучения. При интерпретации важно помнить, что сам по себе коэффициент показывает только линейную составляющую связи: он не заметит сильной нелинейной зависимости и чувствителен к выбросам. Также корреляция не равна причинности: высокая корреляция может возникать из-за общей причины или случайности. Для оценки ранговой (монотонной) связи используют альтернативы, например корреляцию Спирмена.

Пример вычисления для небольшой выборки: пусть есть n пар наблюдений (x_i, y_i). Вычисляют средние значения, затем суммируют попарные произведения отклонений и нормируют на произведение квадратных корней сумм квадратов отклонений. Формула для выборочного коэффициента Пирсона имеет вид: r=i=1n(xix)(yiy)i=1n(xix)2  i=1n(yiy)2r=\dfrac{\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum_{i=1}^n (x_i-\overline{x})^2\;\sum_{i=1}^n (y_i-\overline{y})^2}} На практике это даёт число, близкое к единице при сильной прямой связи, близкое к нулю при отсутствии линейной зависимости и близкое к минус единице при сильной обратной связи. Оценка сопровождается визуальной проверкой (диаграмма рассеяния) и анализом выбросов — это помогает избежать неверных выводов о связях между признаками.