Что такое ложная корреляция? (Определение и примеры)
29 октября 2021 г.
Ложные корреляции могут возникать в статистике, когда две или более переменных имеют причинно-следственную связь друг с другом. Однако эти типы корреляций редко имеют настоящую причинно-следственную связь, хотя и кажутся таковыми. Кроме того, ложные корреляции могут помочь вам лучше понять характеристики и поведение набора данных. В этой статье мы рассмотрим, что такое ложная корреляция, как она связана с причинно-следственной связью и как идентифицировать ложную корреляцию с некоторыми примерами для дополнительного понимания этой статистической взаимосвязи.
Что такое ложная корреляция?
Ложная корреляция в статистике представляет собой связь между двумя переменными, которая кажется причинно-следственной связью, но на самом деле таковой не является. Причинно-следственная связь описывает причинно-следственную связь между двумя переменными, когда одна переменная делает что-то, что непосредственно влияет на другую. Однако в ложной корреляции то, что кажется причинно-следственной связью между двумя переменными, часто является случайной связью или из-за третьего искажающего фактора, который влияет на обе переменные.
Например, если вы заметили, что и стоимость высшего образования, и стоимость жизни растут, это изменение обеих переменных не обязательно означает наличие причинно-следственной связи между ними. Это означает, что рост стоимости жизни не обязательно является причиной увеличения платы за обучение в высших учебных заведениях. В этом примере вы можете приписать изменение обеих затрат росту инфляции или другим макроэкономическим факторам, что приведет к ложной корреляции со смешанным фактором.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Хотя ложные корреляции, по-видимому, имеют связующий фактор, корреляции не всегда означают причинно-следственную связь. Чтобы лучше понять, как в статистических исследованиях могут возникать ложные корреляции, важно понимать разницу между коррелятивной и причинно-следственной связью.
Корреляция против причинно-следственной связи
В статистике вы можете анализировать отношения и поведение нескольких переменных, чтобы лучше понять свое исследование. Отношения, возникающие между переменными в этом смысле, являются коррелятивными или причинными и могут быть непосредственно связаны друг с другом или вообще не иметь фактической связи:
Корреляция
Корреляция — это мера направления и размера двух или более переменных в наборе данных. Это означает, что при рассмотрении статистических моделей, если одна переменная изменяется или движется в определенном направлении, то и другая переменная тоже. Когда подобное поведение проявляется между переменными в исследованиях, статистики предполагают наличие корреляции или связи между выборками. В любом конкретном исследовании могут встречаться три основных типа корреляций:
Положительные корреляции представляют собой положительное изменение одной переменной из-за другой.
Отрицательные корреляции представляют собой отрицательное изменение одной переменной из-за другой.
Нулевая корреляционная связь указывает на отсутствие очевидной связи между двумя или более переменными.
Когда возникают ложные корреляции, взаимосвязь может выглядеть как корреляция любого типа, пока вы не определите ложность в выборке и не определите, что ее вызывает.
причинность
Причинно-следственные связи по своей сути являются причинно-следственными связями. Это означает, что одна или несколько переменных напрямую влияют на другие переменные, вызывая результат. Отличным примером причинно-следственной связи является тонущая лодка. Если в лодке есть дыра, дыра вызывает утечку, а утечка приводит к тому, что лодка наполняется водой, и в конечном итоге она тонет. Переменные, задействованные в этом примере, включают лодку, яму и воду.
Отверстие в лодке напрямую влияет на увеличение количества просачивающейся в нее воды, вызывая отрицательное изменение плавучести лодки. Эта причинно-следственная связь является простым примером, однако важно понимать, что вы можете приписать причинно-следственную связь фактору, непосредственно влияющему на переменную. Корреляционные отношения только связывают две или более переменных вместе, образуя возможную связь.
О чем говорят ложные корреляции?
Ложная корреляция может рассказать вам о взаимосвязях между различными данными в выборке. Когда статистики анализируют выборки для проверки теорий и гипотез, они ищут любые причинно-следственные связи между проверяемыми переменными. Если формируются ложные корреляции, статистики могут оценить, является ли взаимосвязь между двумя или более переменными случайной или результатом действия третьего искажающего фактора.
Как определить ложную корреляцию
Профессионалы, которые анализируют данные в своей карьере, постоянно ищут взаимосвязи между переменными в своих исследованиях. Это означает применение различных подходов для обнаружения и учета ложных корреляций. Несколько методов, которые статистики, аналитики данных и другие исследователи используют для поиска ложных корреляций, включают:
1. Обеспечение адекватных размеров выборки
Профессионалы, работающие с данными, должны убедиться, что они получают адекватные размеры выборки. Если размер выборки слишком мал, более вероятно, что она будет иметь ложные корреляции, потому что просто недостаточно данных для формирования более широкой картины поведения выборок. Этот тип сценария может создавать кажущиеся связанными события, когда в большей выборке данные могут вести себя по-разному.
2. Оценка данных для произвольных конечных точек
В некоторых типах исследований, таких как медицинские или фармацевтические исследования, конечные точки говорят о том, полезны ли проверенные результаты. Произвольные конечные точки — это результаты или исходы, которые, как кажется, не имеют причины или иным образом не связаны с поведением переменных в исследовании. Если эти сценарии возникают, это, вероятно, ложная корреляция.
3. Контроль внешних переменных
Когда статистики разрабатывают исследования, испытания или другие эксперименты, они учитывают все факторы, которые могут повлиять на переменные в выборке. Когда статистик анализирует данные, он оценивает эти факторы, чтобы понять, как они влияют на данные. Понимание того, как внешние факторы влияют на данные, которые они изучают, может помочь статистикам определить, являются ли отношения между поведением переменных жизнеспособными корреляциями или ложными корреляциями.
Эти три подхода могут помочь статистикам, специалистам по данным и другим аналитикам выявлять ложные корреляции, чтобы анализировать истинные отношения между переменными.
Примеры ложной корреляции
Ложные корреляции могут быть довольно распространены вне строгих статистических исследований. Однако некоторые ложные корреляции могут возникать постоянно и с высокой степенью точности, даже если события или выборки не связаны между собой. Вот несколько примеров ложных корреляций, касающихся повседневных событий:
Пример 1
Предположим, что диаграмма показывает тенденцию к росту продаж игр виртуальной реальности и увеличение числа студентов, получивших степень магистра технологий в течение определенного года. Можно предположить, что из-за интереса студентов и вовлеченности в технологию виртуальной реальности больше людей получили дипломы в области технологий.
Однако это становится ложной корреляцией, если пользователи VR-игр являются старшеклассниками в том же году, когда увеличивается количество выпускников технических вузов. Внешний фактор возраста сводит на нет отношения, потому что учащиеся средней школы вряд ли одновременно получат степень магистра.
Пример 2
Другим примером ложной корреляции является связь между увеличением количества продаж билетов в аквапарки и продаж мороженого в супермаркетах. Несмотря на то, что оба показателя продаж растут, маловероятно, что увеличение продаж мороженого в супермаркетах вызывает увеличение продаж в тематических парках. Точно так же маловероятно, что увеличение продаж билетов в тематические парки связано с увеличением продаж мороженого. В этом сценарии есть третий сбивающий с толку фактор.
Если это исследование проводится летом, вполне вероятно, что причиной увеличения продаж в обоих случаях является жара. Более высокие температуры летом, скорее всего, могут быть причиной того, что больше людей покупают билеты в тематические аквапарки, а также холодные угощения, такие как мороженое, в их супермаркетах.