От чего это

Весенний семестр, фарм. фак, Витебск, ОЭФ. Тема про основы экономического анализа деятельности аптечной организации, не вызывает никакого слюноотделения у преподавателя, а у студента тем более. В этом блюде не хватает специй, чего-нибудь жгучего, вроде смутного дискомфорта от того, что интуиция подвела тебя на простом примере. И, коль скоро на первом занятии в семестре речь идет о показателях относительных, а еще и о разнообразных группировках, то идея добавить в качестве перца парадокс Симпсона, приходит сама собой.

Чтобы создать тематический пример, нужно достаточно глубоко разобрать с сущности моделируемого явления, а разбираться лучше всего с определения. Парадоксом Симпсона принято называть такое явление, когда средние значения в группировках по, по меньшей мере, двум признакам для определенной категории одного признака меньше, вне зависимости от категории по второму признаку, но, в то же время, при группировке только по первому признаку средние обращаются, то есть категория наименьшим средним перестает быть таковой. Легче понять на примерах, а их исторически набралось уже довольно много, самые известные из них: дискриминация по половому признаку при процента поступивших в университет Беркли [5, 6], дискриминация по полу в отношении часовых ставок оплаты труда в различных регионах США [4], выживаемость пассажирова Титаника [3], соревнования улиток по восхождению на гору Фудзи [2], набор в хор [1]. Есть даже прямой пример из фармакологии про метаанализ исследований росиглитазона [12], но, это не про экономику.

Примеров не мало, и я бы мог прибегнуть к магии преобразования мяса в шоколад [7, 8, 9], но колебания в силе чувствую я, думая как стану заниматься таким, тем более, в статье «PRACTITIONERS CORNER: On Simpson’s Paradox in Economic Statistics»[4], отлично описаны и проанализированы условия возникновения парадоксальной ситуации, и условий этих ровно два:

  1. Максимальное значение в группе с меньшими значениями (\(L_{max}\)) должно быть больше, чем минимальное значение в группе с бóльшими значениями (\(B_{min}\))
  2. Разница между \(L_{max}\) и \(B_{min}\) (\(\Delta\)) должна быть больше, чем сумма произведений долей групп по первому признаку и соответствующих значений средних, более формально это удобно вразить как: \(L_{max} - B_{min} > \sum_{i=1}^{n} ({B_i}-B_{min}) \times \omega_{B_i} + \sum_{i=1}^{n} (L_{max}-{L_i}) \times \omega_{L_i}\) , где \(i\) — номер группы по второму признаку.

Симулякры и симуляции

Перед тем как сказку сделать былью, нужно её сочинить. Итак, преамбула пафоса мистического эпоса про анализ данных в аптеке будет следующая: начитавшись про естественный отбор, руководство небольшой аптечной сети «Фхтагн р’льех» приняло решение что держаться нету больше сил и пора сокращать ассортимент, и штаты. И если со штатми было просто: планировалось применить старейшую и самую надежную стратегию «е-отбор», то по второму пункту сложно определиться, какой именно ассортимент сокращать. Делить решено было по возрастным группам: олдыри и адалты (первый признак для группировки). Сказано — сделано! После тщательнейшего проектирования и сбора данных было установлено, что каждой отдельной аптеке (второй признак для группировки) одно посещение покупателем из одной из двух групп (средний чек) приносит в среднем рублей:

подразделение олдыри адалты
Аптека №1 29.4 30.2
Аптека №2 32.0 34.0
Аптека №3 33.9 35.8
Аптека №4 28.6 31.6
Аптека №5 35.0 36.0

У самых эффективных среди менеджеров возникло однозначное решение, посколько только его можно принять глядя на данные. Сразу понятно что олдыри тут попали в группу \(L\). Но смотреть и видеть не одно и то же, даже Джек «ретард» Салли знал это от синемордых. Некоторые из менеджеров постарше, больше, чем просто решать, любят складывать. Короче, решили они посчитать, сколько всей сети в среднем приносит один олдовый ходок за один заход, результат обескуражил:

показатель величина
адалты 31.589285
олдыри 32.775674
разность 1.186389

Закипел тимбилдинг,… полетел фалафель… Вес! Ответ на загадку. Готовь вазелин и заплатку.

Что к чему

Реально, всему причиной вес, но не в том смысле, что олдыри жирнее. Просто то ли в аптеках, куда их ходит больше, сотрудники научились лучше их окучивать, то ли олдырям больше нравится ходить туда, где сотрудники лучше вынимают деньги, точно ответить нельзя по имеющимся данным, но факт в том, что нежиданный результат перегруппировки связан с тем, что среди олдовых в «дорогую» аптеку ходит большя доля олдовых, чем доля адалтов. У меня и график есть, чтоб было понятнее:

Или, если кому ближе дух Луки Пачоли, табличка:

Аптека Олдыри Адалты
Аптека №1 2.66 40.93
Аптека №2 19.77 17.04
Аптека №3 34.84 1.63
Аптека №4 17.17 38.47
Аптека №5 25.56 1.93

И для закрепления инсайта, приведу диаграмму на которой видно сразу все. Бирюзовые элементы относятся к олдырям, коралловые — к адалтам, диаметры кругов — доля в групы (по первому признаку), посетившая соответствующую аптеку, линиям показаны уровни средних чеков без группировки по аптекам:

Или то же, но в профиль [10]. Коралловый и бирюзовый использованы аналогично предыдущей диаграмме.

К сожалению я не смог освоить хард-кор из «Visualizing Statistical Mix Effects and Simpson’s Paradox»[11].

Тем, кто захочет воcпроизвести мои построения поможет исходный Rmd-файл для запуска в R через knit (Rstudio делает это особенно удобно).

Осталось решить только еще один вопрос — что придумать про планирование рецептуры, на следующее занятие.