Статистика, которая нас обманывает
Серьёзно, почти у всех, вне зависимости от пола, уровня образования и возраста, мозг словно отключается при первой же новогодней распродаже или при прочтении яркого заголовка. Дело не в том, что нас хотят обмануть; дело в том, что повседневная логика (если её можно так назвать) невероятно отличается от логики классической, математической. У нас просто нет возможности и ресурсов применять научный взвешенный подход ко всем мелочам жизни; мы расслабляемся и вуаля! — уже купили пакет молока на N рублей дороже просто потому, что на нём была наклейка «Ты можешь выиграть дачу на Мальдивах». Ну, и потому что мы взяли его с полки, расположенной на уровне наших глаз.

Источник: ucrazy.ru
Статистика — та самая наука, которая балансирует между ложью и наглой ложью (но в итоге становится путём к истине).
Послушайте, у людей всегда на всё найдется какая-нибудь статистика. Это известно 14% населения.
Гомер Симпсон
Итак, самые распространённые статистические приёмы, которым нельзя верить.
Среднестатистический гражданин
В ноябре 2013 года средний денежный доход на душу населения в России составлял 21 069 рублей. Что вы чувствуете, когда читаете эту фразу?
Вы вспоминаете своего бывшего одноклассника и его «Порше» и свою двоюродную тётушку-медсестру, получающую 6 428 рублей со всеми надбавками за стаж. И немного успокаиваетесь, потому что сами зарабатываете больше 21 тысячи рублей.
То, что здесь называют средним денежным доходом, является лишь средним арифметическим от известных значений доходов населения. Среднее арифметическое не приносит нам хлопот, пока разброс между числами невелик.
1, 2, 3, 4, 5
Среднее арифметическое = 3
Как только в статистику попадают числа, необычно выбивающиеся из ряда, значение среднего арифметического теряет всякий смысл.
10, 20, 20, 40, 1 000 000
Среднее арифметическое = 200 018
Если из группы людей в пять человек хотя бы один заработал миллион, каждый из них волшебным образом превращается в зарабатывающего двести тысяч, хотя в реальности это не так.
Для того, чтобы понять, насколько действительно богат мифологический «среднестатистический гражданин», нужны хотя бы процентные данные: какие группы доходов можно выделить и каково процентное соотношение между этими группами? Впечатляющая информация: каждый третий россиянин является владельцем автомобиля. Откуда взялись эти данные? По данным агентства «Автостат», в России зарегистрировано 48 миллионов автомобилей. Учитывая, что население страны составляет 143 миллиона человек, журналисты просто взяли и поделили 143 на 48. Красота. Из этих цифр мы никогда не узнаем, какому проценту населения принадлежит более чем два автомобиля и что вообще эта информация может сказать об общем уровне благосостояния.
Полуправда
Источник: ЖСЖЖФГ
Полуправдивая информация привлекает внимание, выглядит интересно, но по факту почти ничего не значит.
На тюбике зубной пасты вы читаете: «Теперь на 25% больше!». Ух ты, как здорово. А на 25% больше чем что? Больше чем прошлая выпущенная серия этой же зубной пасты? Больше чем тюбики конкурентов? Больше чем вы ожидали?
Или вот, к примеру, вам предлагают купить готовый бизнес: один с прибыльностью в 20%, другой — в 1%. Ожидаемо, что вы выберете первый вариант, и зря. Для начала было бы неплохо поинтересоваться у продавца, какая прибыль имеется в виду: прибыльность инвестиций или доход с продаж. Бизнес, окупившийся за год на 20%, однозначно хуже, чем бизнес, с каждой сделки получающий 1%.
На 99% гарантированный результат
Представим ситуацию. Управление транспортной безопасности США анонсирует новую технологию определения террористов. По данным управления, применение технологии позволит успешно определить 99% и не допустить их на борт самолёта или в здание аэропорта; при этом вероятность ошибки (когда за террориста принимают обычного человека) составляет лишь 0,01%. Звучит здорово. В реальности это будет означать, что достаточно большое количество невиновных людей будет обыскано, снято с полёта и незаслуженно оскорблено. Если за год перелёты совершает около 700 000 людей, 7 000 из них окажутся в неприятной ситуации. Никто из нас не хочет играть роль статистической погрешности.
Корреляция
Источник: habrahabr.ru
Представим себе небольшое исследование выпускников любого вуза. Его результаты говорят о том, что семью завели 93% выпускников-мужчин и только 65% выпускников-женщин. Ох, как хочется сделать вывод о том, что высшее образование серьёзно снижает шансы женщины на счастливое замужество!
Действительно существует некоторая корреляция между двумя фактами: женщины с высшим образованием выходили замуж не так часто. Ошибкой является построение ложных причинно-следственных связей. Тот факт, что выпускницы университета не торопятся замуж, вовсе не означает, что их испортил вуз. Скорее всего, поступление в вуз было обусловлено уже заложенной в будущих выпускницах ориентацией на карьеру.
Ту же ошибку (скорее всего, намеренную) совершают адепты каких-либо антинаучных общественных течений. Самый яркий пример — противники вакцинации. Они обязательно покажут убедительно выглядящие графики, на которых вы увидите одну кривую роста количества прививок и другую — рост количества больных аутизмом детей. Это тоже всего лишь бездоказательная корреляция. Таких графиков можно построить множество и всерьёз найти зависимость между количеством серых футболок в гардеробе и риском попасть под автомобиль.
Экстраполяция
Экстраполяция — это попытка предсказать поведение какого-либо феномена на основе имеющегося опыта и данных. Мы ищем закономерности вне заданных значений. Наблюдая рост какого-нибудь показателя, велик соблазн предположить, что этот показатель будет с течением времени линейно расти. Например, если посмотреть на хронологию рекордов бега на стометровую дистанцию, можно заметить, что в 1912 г. рекорд составлял 10,6 секунд; а в 1976 — 9,9 секунд. Мы стали бегать на 0,7 секунд быстрее за 64 года. Можно ли предположить, что к 2500-му году мы будем пробегать стометровку менее чем за секунду?
Ошибка техасского снайпера
Источник: ibigdan.livejournal.com
Все помнят многочисленные страшилки из жёлтых изданий и телевизионных передач 90-х годов о том, как еда, разогретая в микроволновке, вызывает рак, а употребление генно-модифицированной морковки скажется на здоровье наших детей. Механизм рассуждений выглядит очень похоже на механизм корреляции; разница в том, что при корреляции ищется зависимость между двумя кластерами данных; в данном же случае вывод делается на основании любых случайных данных.
Такую ошибку распознавания называют «Ошибкой техасского снайпера», что является аллюзией к бородатому американскому анекдоту:
Генерал едет по техасскому городку. На каждых воротах нарисована мишень, и в каждой единственная дырочка точно в «яблочке». Генерал спрашивает у старика, сидящего на скамейке:
— Папаша, кто это у вас такой меткий стрелок?
— Это, сэр, Рыжий Билл в стрельбе упражнялся, — отвечает старик.
— Этому парню место в армии.
— Нет, сэр, он вам не подойдёт.
— Почему? Он же такой меткий!
— Понимаете, сэр, он сначала стреляет в ворота, а потом рисует мишень.
Если мы анализируем большую группу людей, не нужно даже стараться, чтобы нарисовать возможные закономерности. У большинства людей, умерших от рака за последние 20 лет, дома была микроволновая печь. Возможно, у многих из них в детстве был трёхколёсный велосипед. Значит ли это, что трёхколёсные велосипеды приводят к смерти?
ссылка