Коэффициент корреляции
{IMAGE_0}Коэффициент корреляции — это численная характеристика, измеряющая степень и направление статистической связи между двумя количественными признаками. В школьном курсе чаще всего рассматривают линейный коэффициент корреляции Пирсона, который отражает, насколько точки на диаграмме рассеяния приближаются к прямой. Значение коэффициента может принимать значения от минус единицы до единицы: положительное значение указывает на тенденцию «чем больше x, тем больше y», отрицательное — на обратную зависимость. Формально связь между ковариацией и стандартными отклонениями выражается следующим образом: Этот показатель нормирует ковариацию, делая размерность безразмерной и позволяя сравнивать зависимости между разными парами признаков.
Коэффициент корреляции широко применяется в прикладной статистике, экономике, биологии и многих других областях: при анализе связи между расходами и доходами, при проверке зависимостей в экспериментальных данных, при выборе признаков для моделей машинного обучения. При интерпретации важно помнить, что сам по себе коэффициент показывает только линейную составляющую связи: он не заметит сильной нелинейной зависимости и чувствителен к выбросам. Также корреляция не равна причинности: высокая корреляция может возникать из-за общей причины или случайности. Для оценки ранговой (монотонной) связи используют альтернативы, например корреляцию Спирмена.
Пример вычисления для небольшой выборки: пусть есть n пар наблюдений (x_i, y_i). Вычисляют средние значения, затем суммируют попарные произведения отклонений и нормируют на произведение квадратных корней сумм квадратов отклонений. Формула для выборочного коэффициента Пирсона имеет вид: На практике это даёт число, близкое к единице при сильной прямой связи, близкое к нулю при отсутствии линейной зависимости и близкое к минус единице при сильной обратной связи. Оценка сопровождается визуальной проверкой (диаграмма рассеяния) и анализом выбросов — это помогает избежать неверных выводов о связях между признаками.