Пере Грима - Том13. Абсолютная точность и другие иллюзии. Секреты статистики
Чтобы разрешить этот парадокс, возникающий при сравнении вариаций, вводится коэффициент вариации, который равен частному среднеквадратического отклонения и среднего значения:
В нашем примере коэффициент вариации для веса котов равен 0,125, для веса коров — 0,01. Коэффициент вариации — безразмерная величина.
* * *
ДВЕ КЛАВИШИ ДЛЯ РАСЧЕТА СРЕДНЕКВАДРАТИЧЕСКОГО ОТКЛОНЕНИЯ
Несмотря на то что дисперсия и среднеквадратическое отклонение — важнейшие показатели статистики, их часто пытаются скрыть. При попытке обобщить большую выборку данных мы можем столкнуться с одной из следующих ситуаций.
1. Интерес представляют имеющиеся данные. Мы хотим определить среднее значение или среднеквадратическое отклонение этих данных, составляющих так называемую генеральную совокупность.
2. Имеющиеся данные являются выборкой из изучаемой генеральной совокупности. Иными словами, интерес представляет не столько среднее значение или среднеквадратическое отклонение, сколько оценка (некое представление) значений генеральной совокупности.
Расчет среднего значения в обоих случаях будет одинаков. Формула не изменится, так как наилучшей оценкой среднего значения генеральной совокупности является среднее значение выборки. Если мы хотим сделать какие-то выводы о генеральной совокупности на основании выборки, необходимо, чтобы выборка была репрезентативной.
При расчете дисперсии ситуация выглядит несколько иначе. Если дана генеральная совокупность, то нужно использовать формулу, указанную выше. Если же дана выборка, а мы хотим оценить дисперсию генеральной совокупности, используется следующая формула:
Почему? Дело в том, что при работе с выборками вариация рассчитывается с использованием среднего значения по выборке, а не среднего значения генеральной совокупности, которое мы хотим найти. Можно сказать, что среднее значение выборки подстраивается под данные выборки, что ведет к недооценке вариации генеральной совокупности. При делении на (n -1) результат будет чуть больше, и он будет точнее описывать дисперсию генеральной совокупности. При делении на 4 или на 3 разница окажется большой, но при делении на 100 или на 99 разница будет невелика. На практике для больших объемов выборки подобные расхождения не влияют на результат.
Если эта тема кажется вам сложной и вы что-то не понимаете, не волнуйтесь. Если при решении задачи вам придется выбирать между двумя формулами, считайте, что речь идет о выборке. В этом случае нужно делить на (n — 1). Если вы используете статистическую программу, где нет возможности выбора из двух формул, знайте: в программе используется формула для выборки.
х¯ — среднее арифметическое.
σn — среднеквадратическое отклонение в случае, когда расчет выполняется для всей генеральной совокупности и интерес представляет среднеквадратическое отклонение «всех» данных.
σn-1 — среднеквадратическое отклонение в случае, когда расчет выполняется для выборки и стоит задача оценить среднеквадратическое отклонение всей генеральной совокупности, из которой взята выборка.
Статистические функции на калькуляторе: одна клавиша используется для расчета среднего арифметического, две клавиши — для вычисления среднеквадратического отклонения.
* * *
Резюмируем данные (3): квантилиНекоторые показатели используются часто, но они не характеризуют центр распределения и вариацию. С их помощью «проводят границы» на области данных и получают некие эталонные значения, с которыми можно сравнить все остальные.
Квартили
Если упорядочить данные по возрастанию, медиана разделит множество данных пополам. Первым квартилем называется медиана первой половины; 25 % значений будут меньше него, 75 % — больше. Медиана второй половины называется третьим квартилем, 75 % значений меньше него, 25 % — больше.
Допустим, что первый квартиль зарплаты в вашей компании равен 1000 евро, медиана — 1300 евро, третий квартиль — 2000 евро. Если вы получаете 800 евро, то находитесь среди 25 % тех, кто получает меньше всего. Если ваша зарплата равна 1500 евро, вы входите в 50 % сотрудников, получающих больше остальных, но минимум 25 % зарабатывают больше вас. Если ваша зарплата равна 2100 евро, вы входите в 25 % наиболее высокооплачиваемых сотрудников компании.
Перцентили
15-я перцентиль — это значение, меньше которого ровно 15 % упорядоченного множества данных. Очевидно, что 85 % значений будут больше него. Если ваша зарплата равна 70-й перцентили, это означает, что зарплата 70 % сотрудников меньше вашей, или, что аналогично, 30 % получают больше вас — если вы из тех, для кого стакан всегда наполовину пуст. Перцентили также используются при оценке результатов тестов на интеллект. Если вы находитесь в 90-й перцентили, это означает, что 90 % участников справились с тестом хуже, чем вы.
Многие впервые сталкиваются с перцентилями, когда педиатр говорит, что, например, рост вашего сына находится в 45-й перцентили. Это означает, что 45 % мальчиков (значения для мальчиков и девочек отличаются) того же возраста ниже вашего ребенка. Всемирная организация здравоохранения составляет справочные таблицы и графики, в которых указывается рост детей разного возраста.
Графики роста девочек (вверху) и мальчиков (внизу) в возрасте от 5 до 19 лет, составленные Всемирной организацией здравоохранения, с медианой и 3-й, 15-й, 85-й и 97-й перцентилями.
Проценты: выглядят безобидно, но на самом деле опасны
Чтобы выделить какой-либо важный аспект множества данных, используются проценты («65 % подростков в возрасте от 10 до 17 лет признаются, что пользовались видеоиграми для взрослых»), но в книгах по статистике эта тема не рассматривается: считается, что она либо выходит за рамки статистики, либо слишком проста и поэтому не заслуживает упоминания. Знак процента можно встретить на простейших калькуляторах. Кажется, что процентами может оперировать любой, однако они часто вызывают путаницу, поэтому будет нелишним рассказать о них подробнее.
Общие вопросы
Нужно всегда помнить, от какой величины рассчитывается процент. Рассмотрим пример. Гель для душа раньше продавался в бутылках по 750 мл, теперь же — в бутылках по 1000 мл по той же цене. Сколько процентов вы получаете в подарок?
Правильный ответ зависит от того, от какого значения будет рассчитываться процент. Мы получаем бесплатно 33 % от исходного объема и 25 % от нового.
Также следует различать проценты и процентные пункты. Так, если прибыль предприятия возросла с 2 до 4 %, то говорят, что она возросла на 2 процентных пункта (но не на 2 %!).
Аналогично нужно различать проценты от исходной величины и проценты ее изменения. Лучше понять это различие вам поможет следующий пример. Объем продаж в прошлом году составил 10 миллионов евро. Цель на текущий год — увеличение объема продаж на 6 %. Объем продаж в нынешнем году составил 10,3 миллиона евро. На сколько процентов продавец выполнил намеченную цель?
Если целью продавца является рост дохода, то она выполнена всего на 50 %. Однако если мы будем считать целевым значением объем продаж в 10,6 миллиона, а фактическим — 10,3, то получается, что цель выполнена на 97,2 %.
Операции с процентами также стоит выполнять очень внимательно.
1. Если цена товара увеличилась на 20 %, а затем снизилась на 20 %, каким будет соотношение начальной и конечной цены? Цена товара изменится: она уменьшится на 4 %. Обозначив исходную цену за х, получим, что итоговая цена равна (х + 0,2х) — 0,2(х + 0,2х) = х — 0,04х.
2. Товар состоит из 10 компонентов. Стоимость каждого компонента возросла на 2 %. На сколько увеличится стоимость товара? Она возрастет на 2 %. Цена отдельных компонентов в этом случае не имеет значения. Если вы все еще сомневаетесь, выполните расчеты вручную и убедитесь в этом самостоятельно.
3. Если Иван зарабатывает на 1000 % больше Петра, он получает в 11 раз больше, а не в 10, как может показаться. Если он зарабатывает на 100 % больше, он получает в два раза больше, если на 200 % больше — то в три раза больше.
В действительности всё не так. Парадокс Симпсона
Когда приводятся проценты для нескольких групп, каждая из которых разбита на подгруппы, может показаться, что налицо определенная зависимость. Однако истинная зависимость будет прямо противоположной. Это явление известно под названием парадокс Симпсона. Рассмотрим пример.