KnigaRead.com/
KnigaRead.com » Научные и научно-популярные книги » Математика » Пере Грима - Том13. Абсолютная точность и другие иллюзии. Секреты статистики

Пере Грима - Том13. Абсолютная точность и другие иллюзии. Секреты статистики

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн "Пере Грима - Том13. Абсолютная точность и другие иллюзии. Секреты статистики". Жанр: Математика издательство -, год -.
Перейти на страницу:

В действительности всё не так. Парадокс Симпсона

Когда приводятся проценты для нескольких групп, каждая из которых разбита на подгруппы, может показаться, что налицо определенная зависимость. Однако истинная зависимость будет прямо противоположной. Это явление известно под названием парадокс Симпсона. Рассмотрим пример.

Крупная компания открывает новый завод и создает 250 рабочих мест в службе продаж, монтажа и в складской службе. На рабочие места претендовали 355 мужчин и 325 женщин. Работу получили 190 мужчин (53,5 %) и 60 женщин (18,5 %). Уровень подготовки мужчин и женщин был абсолютно одинаков. Можно ли утверждать, что имеет место дискриминация женщин при приеме на работу? Нет, это не так. Исходные данные таковы:



В действительности процент принятых на работу в каждом отделе выше среди женщин. Причина в том, что в службе, куда было принято больше всего сотрудников, рабочие места получили много мужчин и мало женщин, а в других службах, где требовалось меньше сотрудников, ситуация была обратной.

В начале раздела мы приводили цитату о том, что 65 % молодых людей 10–17 лет пользовались видеоиграми для взрослых. Взята она из реального газетного заголовка. В статье объясняется, откуда взята цифра в 65 %: автор сложил положительные ответы 50 % юношей и 15 % девушек! Любопытно, каков был бы результат, если бы на этот вопрос положительно ответили 50 % юношей и 60 % девушек?


Графическое представление переменной

Решим еще одну задачу. Владелец пекарни обеспокоен тем, что, как ему кажется, вес готовых булок различается слишком сильно и некоторые булки могут весить меньше, чем допускается стандартом. Для выпечки используются две печи, в которых выпекают хлеб два оператора. В какие-то дни работает первый оператор, в какие-то — второй. В следующей таблице указан вес (в граммах) для выборки булок. Измерения производились в течение 20 дней:



Вес булки должен равняться (220 ± 10) граммов. Допустим, что представленная выборка является репрезентативной. Нужно ответить на вопросы, действительно ли существует проблема; что происходит; что нужно сделать, чтобы устранить проблему, если она вообще существует.

Если вы попытаетесь сделать какие-то выводы «на глаз» на основании данных, представленных в таблице, то, скорее всего, ошибетесь. Хотя речь идет всего о 160 значениях, выводы, сделанные «на глаз», скорее всего, будут неточными. Также не следует погружаться в объемные вычисления или использовать сложные методы. Достаточно представить данные графически, как показано далее.



Гистограмма веса 160 хлебобулочных изделий.


Эта диаграмма называется гистограммой. Она крайне полезна для анализа вариации данных.

В нашем примере гистограмма указывает, что проблема действительно существует, так как вес некоторых булок меньше минимально допустимого. Иными словами, речь идет не об исключениях, а о естественной вариации веса булок.

На следующих гистограммах представлены данные по каждой печи и по каждому оператору в отдельности. Из них четко видно, что неполадки присутствуют в печи № 2, так как центральное значение на соответствующей диаграмме смещено. С печью № 1 все в порядке, и данные для обоих операторов практически совпадают.



Вес булок для каждой печи и каждого оператора в отдельности.


Даже для очень малого объема данных, например для такого:

21,1; 17,8; 19,7; 18,6; 16,8; 21,7; 28,7; 20,1; 19,5; 17,8,

на простой точечной диаграмме видны подробности, которые можно упустить при простом анализе данных «на глаз». В этом случае видно, что одно значение существенно отличается от остальных, и следует проанализировать причины подобного отклонения (возможно, это простая опечатка: оператор ввел 28,7 вместо 18,7). Эти вопросы крайне важны, так как ошибка в исходных данных может перечеркнуть всю проделанную работу.



Представление множества данных с помощью точечной диаграммы.


Если мы хотим учесть порядок выборки данных, гистограммы и точечные диаграммы нам не помогут. Для этого нужно представить данные в виде временного ряда, как показано на следующем рисунке, где четко заметно увеличение среднего роста населения Испании на протяжении XX века. Разумеется, на основе графиков подобного типа нельзя делать экстраполяции: вовсе не факт, что через 1000 лет средний рост будет находиться у отметки 2 м 70 см.



Изменение среднего роста населения Испании в период с 1910 по 1982 год.

(Источник: X. СпийкерX. Перес и А. Камара. Изменение среднего роста населения Испании в XX веке по результатам исследования министерства здравоохранения. Журнал Estadistica Espahola, № 169, 2008 г.)


Помимо стандартных графиков, которые мы только что рассмотрели, круговых и им подобных диаграмм, можно использовать и другие, не столь известные. Существует, например, диаграмма «стебель — листья».

Рассмотрим практический пример. Группу из 92 студентов попросили измерить пульс. На гистограмме на следующей странице представлены полученные значения (все данные, использованные в этом примере, содержатся в файлах примеров пакета статистических программ Minitab).



Гистограмма и диаграмма «стебель — листья», на которых представлены данные о пульсе для группы из 92 студентов.


При построении диаграммы «стебель — листья» все значения делятся на две части. Наименее значимая часть (в этом случае единицы) образует «листья», другая (десятки и сотни) — «стебель». Наименьшим значением является 48, далее следует 54 и снова 54, затем три раза 58 и так далее до последнего значения, равного 100. Заметим, что строки диаграммы имеют ту же форму, что и столбцы гистограммы. Следовательно, диаграмма «стебель — листья» содержит информацию, представленную на гистограмме, и кроме этого обладает следующими свойствами.

1. Исходные данные можно восстановить. При взгляде на гистограмму можно увидеть, что существует значение в интервале между 45 и 50, но мы не можем сказать, чему оно равно. В диаграмме «стебель — листья» эта информация не теряется.

2. Диаграмма «стебель — листья» позволяет увидеть детали, которые остаются незамеченными на других графиках. Например, не следует думать, что студенты измеряли свой пульс в течение одной минуты. Если бы это было так, то примерно половина значений были бы четными, а половина — нечетными. Однако мы видим, что все значения четные. Это означает, что студенты измеряли пульс в течение 15 или 30 секунд, а затем умножали результат на 2 или на 4. Результаты, полученные таким образом, имеют большую погрешность по сравнению с результатами, полученными реальным измерением в течение одной минуты.

Иногда ученые разрабатывают особые диаграммы для определенных задач. В качестве примера можно привести диаграммы, которыми сопровождаются футбольные трансляции. С помощью ряда переменных на них отображается ход матча, указываются голевые моменты каждой команды, а также другая информация — от числа пасов в штрафную зону до забитых голов и незабитых пенальти.



Ход атак во время футбольного матча.

(источник: Elpais.com)


При построении графиков чаще всего используются компьютерные программы. Это могут быть пакеты статистических программ, программы для работы с электронными таблицами или системы обработки текстов.

Текстовый редактор, использованный при написании этой книги, позволяет с легкостью создавать и применять в расчетах диаграммы. С его помощью можно строить красивейшие трехмерные графики или простые плоские диаграммы. Нужно учитывать, что трехмерные диаграммы, как правило, более эффектны, но могут быть менее понятны. Тип диаграммы следует выбирать в зависимости от контекста и из соображений наглядности.



Графики, построенные в текстовом редакторе Word.


В завершение этого раздела, посвященного графическому представлению значений одной переменной, вернемся к нашему примеру с пекарней. Допустим, что в пекарне есть третья печь, для которой также были произведены измерения веса 80 готовых булок (столько же измерений было проведено для печи № 1). Как вы охарактеризуете вариацию веса хлеба, выпеченного в новой печи, по сравнению с печью № 1?



Как вы оцените печь № 3 по сравнению с печью № 1?


Если вам кажется, что вес хлеба, выпеченного в печи № 3, варьируется сильнее, чем вес хлеба, выпеченного в печи № 1, вы ошибаетесь. На обеих гистограммах представлено одно и то же множество данных. Они выглядят по-разному, так как был выбран разный масштаб. Вас сбил с толку выбранный способ представления данных. Мораль: при построении диаграмм для сравнения различных данных убедитесь, что диаграммы имеют одинаковый масштаб. Программа по умолчанию изменяет масштаб с учетом вариации данных. Нужно скорректировать масштаб вручную, иначе диаграммы будут неверно представлять данные и, образно говоря, вы попадете в сети, которые сами же и расставили.

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*