Весенний семестр, фарм. фак, Витебск, ОЭФ. Тема про основы экономического анализа деятельности аптечной организации, не вызывает никакого слюноотделения у преподавателя, а у студента тем более. В этом блюде не хватает специй, чего-нибудь жгучего, вроде смутного дискомфорта от того, что интуиция подвела тебя на простом примере. И, коль скоро на первом занятии в семестре речь идет о показателях относительных, а еще и о разнообразных группировках, то идея добавить в качестве перца парадокс Симпсона, приходит сама собой.
Чтобы создать тематический пример, нужно достаточно глубоко разобрать с сущности моделируемого явления, а разбираться лучше всего с определения. Парадоксом Симпсона принято называть такое явление, когда средние значения в группировках по, по меньшей мере, двум признакам для определенной категории одного признака меньше, вне зависимости от категории по второму признаку, но, в то же время, при группировке только по первому признаку средние обращаются, то есть категория наименьшим средним перестает быть таковой. Легче понять на примерах, а их исторически набралось уже довольно много, самые известные из них: дискриминация по половому признаку при процента поступивших в университет Беркли [5, 6], дискриминация по полу в отношении часовых ставок оплаты труда в различных регионах США [4], выживаемость пассажирова Титаника [3], соревнования улиток по восхождению на гору Фудзи [2], набор в хор [1]. Есть даже прямой пример из фармакологии про метаанализ исследований росиглитазона [12], но, это не про экономику.
Примеров не мало, и я бы мог прибегнуть к магии преобразования мяса в шоколад [7, 8, 9], но колебания в силе чувствую я, думая как стану заниматься таким, тем более, в статье «PRACTITIONERS CORNER: On Simpson’s Paradox in Economic Statistics»[4], отлично описаны и проанализированы условия возникновения парадоксальной ситуации, и условий этих ровно два:
Перед тем как сказку сделать былью, нужно её сочинить. Итак, преамбула пафоса мистического эпоса про анализ данных в аптеке будет следующая: начитавшись про естественный отбор, руководство небольшой аптечной сети «Фхтагн р’льех» приняло решение что держаться нету больше сил и пора сокращать ассортимент, и штаты. И если со штатми было просто: планировалось применить старейшую и самую надежную стратегию «е-отбор», то по второму пункту сложно определиться, какой именно ассортимент сокращать. Делить решено было по возрастным группам: олдыри и адалты (первый признак для группировки). Сказано — сделано! После тщательнейшего проектирования и сбора данных было установлено, что каждой отдельной аптеке (второй признак для группировки) одно посещение покупателем из одной из двух групп (средний чек) приносит в среднем рублей:
| подразделение | олдыри | адалты |
|---|---|---|
| Аптека №1 | 29.4 | 30.2 |
| Аптека №2 | 32.0 | 34.0 |
| Аптека №3 | 33.9 | 35.8 |
| Аптека №4 | 28.6 | 31.6 |
| Аптека №5 | 35.0 | 36.0 |
У самых эффективных среди менеджеров возникло однозначное решение, посколько только его можно принять глядя на данные. Сразу понятно что олдыри тут попали в группу \(L\). Но смотреть и видеть не одно и то же, даже Джек «ретард» Салли знал это от синемордых. Некоторые из менеджеров постарше, больше, чем просто решать, любят складывать. Короче, решили они посчитать, сколько всей сети в среднем приносит один олдовый ходок за один заход, результат обескуражил:
| показатель | величина |
|---|---|
| адалты | 31.589285 |
| олдыри | 32.775674 |
| разность | 1.186389 |
Закипел тимбилдинг,… полетел фалафель… Вес! Ответ на загадку. Готовь вазелин и заплатку.
Реально, всему причиной вес, но не в том смысле, что олдыри жирнее. Просто то ли в аптеках, куда их ходит больше, сотрудники научились лучше их окучивать, то ли олдырям больше нравится ходить туда, где сотрудники лучше вынимают деньги, точно ответить нельзя по имеющимся данным, но факт в том, что нежиданный результат перегруппировки связан с тем, что среди олдовых в «дорогую» аптеку ходит большя доля олдовых, чем доля адалтов. У меня и график есть, чтоб было понятнее:
Или, если кому ближе дух Луки Пачоли, табличка:
| Аптека | Олдыри | Адалты |
|---|---|---|
| Аптека №1 | 2.66 | 40.93 |
| Аптека №2 | 19.77 | 17.04 |
| Аптека №3 | 34.84 | 1.63 |
| Аптека №4 | 17.17 | 38.47 |
| Аптека №5 | 25.56 | 1.93 |
И для закрепления инсайта, приведу диаграмму на которой видно сразу все. Бирюзовые элементы относятся к олдырям, коралловые — к адалтам, диаметры кругов — доля в групы (по первому признаку), посетившая соответствующую аптеку, линиям показаны уровни средних чеков без группировки по аптекам:
Или то же, но в профиль [10]. Коралловый и бирюзовый использованы аналогично предыдущей диаграмме.
К сожалению я не смог освоить хард-кор из «Visualizing Statistical Mix Effects and Simpson’s Paradox»[11].
Тем, кто захочет воcпроизвести мои построения поможет исходный Rmd-файл для запуска в R через knit (Rstudio делает это особенно удобно).
Осталось решить только еще один вопрос — что придумать про планирование рецептуры, на следующее занятие.