nlothik (nlothik) wrote,
nlothik
nlothik

Categories:

Статистика

В статистике есть такая очень важная штука -- корреляция. Описывает статистическую взаимосвязь каких-то цифр. Наиболее широко используется коэффициент линейной корреляции Пирсона, его расчёт есть даже в Экселе (команда CORREL).

Корреляция бывает положительная и отрицательная. Одна не хуже другой -- просто при отрицательной корреляции при росте значений одной переменной значения второй переменной снижаются, а при положительной -- увеличиваются. Пример отрицательной корреляции -- например, количество патрульных полицейских и количество преступлений. Чем больше полицейских на улице -- тем меньше преступлений.

Коэффициент корреляции принимает значения от -1 до +1. Чем ближе абсолютная величина коэффициента к единице -- тем теснее связь между переменными. Если коэффициент корреляции равен нулю -- корреляции нет (или она какая-то хитрая, например, нелинейная).

При этом важно понять, что само по себе наличие корреляции не доказывает наличие причинно-следственной связи! Например, есть корреляция между стоимостью проезда в метро и стоимостью молока в магазине. Но они не имеют никакой причинно-следственной связи! Они связаны через третий фактор -- инфляцию. Поэтому люди, тычущие вам в лицо наличием корреляции (даже с хорошим коэффициентом в районе 0.99) сначала должны ещё показать КАК величины связаны между собой, а не делать из наличия корреляции далеко идущие выводы.

Но если наличие корреляции не доказывает ничего, её отсутствие, напротив, доказывает всё. Если при увеличении количества патрульных полицейских количество преступлений не меняется или меняется сначала в одну сторону, а потом в другую без всякой связи с количеством патрульных -- если посчитать коэффициент корреляции для всех этих случаев -- он будет ближе к нулю, чем к плюс-минус единице.

Как решить, является ли посчитанный коэффициент линейной корреляции статистически значимым? 0.3 -- это статистически значимый? А как насчёт 0.36? Сколько яблок составляют кучу? На этот вопрос есть простой ответ. Чем больше наблюдений, тем меньше должен быть корреляционный коэффициент, чтобы считаться статистически значимым. Это логично -- чем больше точек, тем более слабым становится значение случайных величин, тем более предсказуемо ведут себя данные. Есть таблицы, в которых эти "критические" значения уже давно подсчитаны и пронумерованы. Так, для 32 наблюдений абсолютная величина коэффициента корреляции должна составлять 0.497 или больше, чтобы считаться статистически значимой. Для 82 наблюдений это значение коэффициента корреляции уже снижается до 0.183 -- всё, что выше, означает наличие линейной корреляции (все числа указаны для уровня значимости 0.1).

Вот таблица с этими цифрами, посмотрите сами:

http://www.gifted.uconn.edu/siegle/research/correlation/corrchrt.htm

Зачем я написал этот текст? Во-первых, затем, чтобы возразить яростным короткостволистам, которые показывают на наличие корреляции между количеством оружия и преступлениями. Ибо -- наличие корреляции абсолютно ничего не доказывает. Во-вторых, поделиться результатом корреляционного анализа ставки подоходного налога и федерального национального долга США. Мне было интересно, влияют ли налоги на долг. Оказалось -- не влияют, или влияют очень нелинейно. Ибо коэффициент линейной корреляции между ставкой подоходного налога и долгом -- 0.15, для 97 наблюдений. Поэтому статистически значимой корреляции не наблюдается. Поэтому теперь я точно не против повышения налогов :))
Tags: америка, математика, политика
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments