“Человек способен принимать здравые решения, только если он включен в реальность”
(Нассим Талеб, интервью РБК 16.11.2017)
2024-04-18
(Нассим Талеб, интервью РБК 16.11.2017)
На 2024 год установлены следующие показатели эффективности:
- объём поддержанного экспорта - 12,6 млн $ США;
- кол-во СМСП, заключивших экспортные контракты - 30.
Таким образом, в KPI заложен средний объём экспорта для одного поддержанного экспортёра:
Е̄KPI = 12,6 /30 = 420 тыс. $ США
Определение функции распределения и робастной центральной тенденции для показателя экспортной выручки;
Проверка следующих гипотез: Н0 – Е̄KPI является показателем центральной тенденции экспортной выручки предприятий ЧР; Н1 – Е̄KPI не является показателем центральной тенденции экспортной выручки предприятий ЧР;
Создание модели формирования объёма регионального экспорта.
Для проведения исследования использованы следующие материалы:
- файл 2023_ЕАЭС.xlsx - 10093 записи по экспортным поставкам экспортёров Чувашской Республики в 2023 году (145 919 586 $).
Для обработки данных использовалась интерактивная среда разработки RStudio и методы математической статистики.
Из файла 2023_ЕАЭС.xlsx были взяты столбцы “ИНН отправителя” и “Статистическая стоимость” (стоимость экспортного контракта в долл. США). После агрегирования (суммирование показателей “Статистическая стоимость” по значениям “ИНН отправителя” был создан фрейм данных df1 со столбцами INN и Export (совокупный объём экспорта в долл. США для каждого экспортёра) со следующими параметрами описательной статистики:
## vars n mean sd median trimmed mad min max range ## X1 1 695 209956.2 1809338 388.09 12121.05 569.67 1.33 40022208 40022207 ## skew kurtosis se ## X1 17.38 350.72 68632.08
Интерпретация параметров описательной статистики фрейма данных df1:
NЧ (кол-во уник. экспортёров ЧР) = 695;
ЕЧМин (мин. объём эксп. выручки для одного экспортёра ЧР) = 1$,
ЕЧМакс (макс. объём эксп. выручки для одного экспортёра ЧР) = 40 млн $,
Е̄Ч (сред.значение эксп. выручки) = 210 тыс.
ЕЧМе (медианное значение эксп. выручки) = 388 $;
SDЧ (стандартное отклонение) = 1,8 млн $.
Особое внимание: Очень большие показатели асимметрии - skew = 17, и эксцесса - kurtosis = 351, которые при нормальном распределении близки к 0. В исследуемой выборке эти показатель свидетельствуют о наличии длинного хвоста справа и сильно выраженном пике распределения, указывая на низкую устойчивость (робастность) среднего значения (Е̄Ч) и стандартного отклонения (SDЧ)
Экспортёры с минимальными и максимальными показателями выручки
| Экспортёры с минимальным показателем экспорта | Экспортёры с максимальным показателем экспорта |
|---|---|
| ИП Фролова Т.В. - 1,33 $ | ООО “ГК”Эстет” - 2,30 млн $ |
| ИП Ананьева Р.Я. - 1,81 $ | ООО “Релематика” - 2,67 млн $ |
| ИП Миронов В.Г. - 1,92 $ | ООО “Гален” - 2,68 млн $ |
| ИП Степанова Г.Н. - 2,07 $ | ООО “ЧЭТА” - 2,71 млн $ |
| ИП Афанасьева О.Н. - 2,19 $ | АО “ШЗСА” - 3,17 млн $ |
| ИП Петрова М.С. - 2,20 $ | АО “Элара” - 6,54 млн $ |
| ИП Дегтярев А.М. - 2,47 $ | ПАО “Химпром” - млн 10,88 $ |
| ИП Николаев Е.В. - 2,48 $ | ООО “Мега Юрма” - 12,58 млн $ |
| ИП Рахмачева А.Л. - 2,54 $ | АО “Акконд” - 17,24 млн $ |
| ИП Шулаева К.Н. - 2,60 $ | ООО “Хевел” - 40,02 млн $ |
Интерпретация: Отмечается сильная ассиметрия данных. Визуально имеются признаки логнормального распределения показателей выручки экспортёров (отсутствие отрицательных показателей, длинный правый хвост, который содержит очень экстремальные выбросы и признаки дискретизации).
*На 10 % (70) экспортёров приходится 95 % (139 млн $) экспорта*
Характер распределения экспортной выручки не позволяет использовать показатели среднего арифметического (Е̄Ч) и стандартного отклонения (SDЧ), так как они не являются робастными для рассматриваемой выборки данных (при таком распределении очень нестабильны и подвержены влиянию выбросов) и не могут быть использованы в референтной модели экспортёра. С целью определения оптимальной центральной тенденции для референтной модели экспортёра далее рассматриваются два подхода:
Вариант 1: Использование исходной выборки данных без очистки, но с учётом возможного логнормального распределения;
Вариант 2: Максимальная очистка исходной выборки данных.
Вариант 1 (очистка исходных данных не производится) подразумевает, что все значения экспортной выручки от 1 $ до 40 млн $ значимы для определения показателей эффективности поддержки экспорта.
Как отмечено выше, при асимметричном распределении экспортной выручки использование среднего показателя со стандартным отклонением для оценки центральной тенденции неуместно. Рост или снижение экспортной выручки крупнейших экспортёров может сильно смещать её средний показатель, который будет характеризоваться значительной волатильностью. Однако это не будет влиять на действующий региональный тренд, формируемый основной массой экспортёров.
Для подтверждения очень низкой устойчивости (робастности) среднего арифметического (М) и стандартного отклонения (SD), а также сильной зависимости этих показателей от длинных хвостов выборок с логнормальным распределением, применён метод Монте-Карло: с помощью функции rlnorm (R Studio, возвращает вектор m случайных чисел, имеющих логнормальное распределение) сгенерировано 100 случайных выборок по 1000 элементов каждая по одному заданному набору параметров логнормального распределения (N = 1000, μ (ln E)=6.637703 и SD(ln E) = 3.766079) и рассчитаны среднее, максимальное и минимальное значение для показателей среднего (М), медианы (МЕ) и стандартного отклонения (SD) сгенерированных выборок.
Таблица 1 - Результаты моделирования логнормального распределения
| Сред. значение | Макс. значение | Мин. значение | |
|---|---|---|---|
| M | 1 417 470 | 67 082 393 | 124 629.3 |
| ME | 779.1 | 1 123.823 | 535.7446 |
| SD | 37 569 893 | 2 115 093 128 | 810 684.5 |
Как видно из таблицы результатов эксперимента, из приведённых характеристик логнормального распределения случайной величины в выборках, сгенерированных по единому набору параметров, наиболее робастной статистической величиной является медиана (МЕ). Также наглядно подтверждена неуместность использования среднего показателя со стандартным отклонением для оценки центральной тенденции в выборках с сильной асимметрией.
Учитывая, что исследуемое распределение экспортной выручки среднего экспортёра не является нормальным, а также с учётом признаков логнормального распределения, для более наглядной визуализации проведено логарифмирование исходной выборки по основанию е.
Получившаяся в результате преобразования выборка характеризуется следующими параметрами описательной статистики:
## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 0.2852 3.4166 5.9612 6.6377 9.7287 17.5049
Параметры skew и kurtosis стали близки к нормальному распределению.
Интерпретация: Имеет признаки логнормального распределения с сильными загрязнениями.
Несмотря на то, что распределение экспортной выручки после логарифмирования стало более нормальным, его проверка по критерию Шапиро-Уилка (результаты: W = 0.9531605, p-value = 4.6339683\times 10^{-14}) отклоняет гипотезу о нормальности.
Вместе с тем, схожесть распределения экспортной выручки с логнормальным распределением можно подтвердить его сравнением с референтным набором данных. Для этого с помощью функции rlnorm (R Studio) сгенерирована выборка случайных данных X c параметрами N=695, μ(ln E)=6.637703 и SD(ln E) = 3.766079, соответствующими прологаримированной исходной выборке E. Параметры описательной статистики выборки X:
## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 0 52 721 506177 7966 101765604
В результате проверки логарифмированных реальной и референтной выборок с помощью двухвыборочного t-критерия Уэлча (результаты: p-value = 0.4665025) нет оснований отклонить гипотезу об отсутствии значимой разницы между выборками.
Также можно допустить использование функции генерирования выборки с логнормальным распределением по заданным параметрам для дальнейшего использования в референтной модели экспортёра.
Для проверки соответствия Е̄KPI (420 тыс. $) выборке Х, которую можно представить в качестве модели регионального экспорта, сгенерирована выборка случайных данных Y c параметрами N=695, μ (ln Е̄KPI)=5.856334 и SD(ln E) = 3.766079. При этом параметры N (кол-во элементов выборки) и SD(ln E) (стандарт. откл-ние логнорм. выборки) соответствуют выборкам Е и Х, а μ (ln Е̄KPI) (стандарт. откл-ние логнорм. выборки Y) рассчитано на основании формулы Е̄KPI = exp(μ + 0.5*σ^2) → μ=ln(Е̄KPI) - 0.5*SD(ln E)^2. Параметры описательной статистики выборки Y:
## vars n mean sd median trimmed mad min max ## X1 1 695 13525718 315134776 8956.89 91699.3 13199.45 0.1 8306263341 ## range skew kurtosis se ## X1 8306263341 26.22 686.96 11953743
Рис. 4. Сопоставление целевой (Y (Е̄KPI), серая) и референтной (красная) выборок после логарифмирования
Несмотря на визуальную схожесть целевой (Y) и референтной (X) выборок, в результате их проверки с помощью двухвыборочного t-критерия Уэлча (результаты: p-value = 1.9900655^{-41}) гипотеза об отсутствии значимой разницы между выборками отклоняется.
Учитывая значительные колебания показателя среднего арифметического выборки со значительной асимметрией применено логарифмирование тестируемых выборок.
Учитывая, что медиана исходной выборки без очистки имеет очень низкое значение (388 $) для использования в референтной модели экспортёра, целесообразно рассмотреть очищенную выборку. При этом стандартные подходы к очистке (методы стандартного отклонения, интерквартильных расстояний и т.д.) нужного эффекта не дадут.
Для оценки возможностей очистки исходной выборки экспортёры разделены на группы в зависимости от показателя экспортной выручки. Принимая во внимание наличие признаков логнормального распределения выборки, для группировки экспортёров использована логарифмическая шкала:
0 $ - 1000 $ - 10 000 $ - 100 000 $ - 1 000 000 $ - 10 000 000 $
Таблица 2 - Распределение экспортёров по объёму экспортной выручки
| гр.1 < 1 тыс. $ |
гр. 2 1 тыс. - 10 тыс. |
гр. 3 10 тыс. - 100 тыс. |
гр. 4 100 тыс.- 1 млн |
гр. 5 1 млн - 10 млн $ |
гр. 6 > 10 млн |
|
|---|---|---|---|---|---|---|
| N | 382 | 115 | 114 | 62 | 18 | 4 |
| % | 55,0 | 16,5 | 16,4 | 8,9 | 2,6 | 0,6 |
| Σ $ | 45 374 | 472 757 | 4 274 643 | 19 615 726 | 40 793 248 | 80 717 838 |
| % | 0,03 | 0,3 | 2,9 | 13,4 | 28,0 | 55,3 |
Группы 1 и 2 - в совокупности составляют 71,5 % исходной выборки экспортёров по численности, но при этом на них приходится только 0,33 % регионального экспорта. Входящие в группы субъекты МСП не ориентированы (гр. 1) или слабо ориентированы (гр. 2) на экспорт, но эпизодически осуществляют незначимые экспортные поставки (продажи через Интернет, отправки образцов, мелкооптовая торговля). Эти группы не оказывают значимого влияния на совокупный объём регионального экспорта, но при этом приводят к значительному снижению медианного значения экспортной выручки.
Удаление групп 1 и 2 из исходной выборки позволить очистить модель формирования регионального экспорта от влияния маргинальных экспортёров.
Группа 3 - самая большая по численности из оставшихся групп (почти в 1,5 раза больше суммарной численности групп 4 - 6), но её доля в региональном экспорте составляет только 2,9 %. Вместе с тем, показатели экспортной выручки от 10 тыс. $ до 100 тыс. % являются достаточно значимыми для представителей малого бизнеса и могут свидетельствовать об из достаточно высоком экспортном потенциале. Возможно существует достаточно высокая вероятность того, что составляющие эту группу предприятия при получении государственной поддержки смогут резко нарастить экспорт.
Группа 4 - объединяет почти 9 % экспортёров, покрывающих 13,4 % регионального экспорта. Потенциал экспортного роста участников группы вероятно в значительной степени обеспечивается их собственными ресурсами и может иметь достаточно умеренную зависимость от государственной экспортной поддержки, ориентированной на МСП. Численность группы может увеличиваться за счёт трансфера участников группы 3 и, соответственно, использоваться в качестве целевого показателя в региональной программе развития экспорта.
Группы 5 и 6 - являются маргинальными по численности участников, но при этом обеспечивают 83 % регионального экспорта. Участники групп как правило не являются субъектами МСП и не зависят от экспортной поддержки, ориентированной на малый бизнес. Тем не менее, удаление этих групп из исходной выборки не оказывает заметного влияния медианное значение логнормального распределения экспортной выручки, но может заметно исказить общую картину регионального экспорта.
Таким образом, после удаления групп 1 и 2 очищенная выборка будет иметь следующие параметры описательной статистики:
## vars n mean sd median trimmed mad min max ## X1 1 198 734350.8 3338597 66448.11 169044.9 75170.88 10195.12 40022208 ## range skew kurtosis se ## X1 40012013 9.24 98.15 237263.8
Интерпретация: Очищенная выборка сохранила особенности исходной выборки.
Параметры описательной статистики очищенной выборки экспортной выручки после логарифмирования:
## vars n mean sd median trimmed mad min max range skew kurtosis se ## X1 1 198 11.51 1.69 11.1 11.34 1.56 9.23 17.5 8.28 0.91 0.49 0.12
На основании указанных параметров сгенерирована референтная выборка R с заданными параметрами логнормального распределения N=198, μ (ln cleared_df1$Export)=11.51 и SD(ln cleared_df1$Export) = 1.69), которая может рассматриваться в качестве модели. Параметры описательной статистики выборки R:
## vars n mean sd median trimmed mad min max range ## X1 1 198 402337.2 885642.8 122063.7 203818.4 152360.9 303.84 8504742 8504438 ## skew kurtosis se ## X1 5.35 38.3 62939.89
Параметры описательной статистики выборки ln(R):
## vars n mean sd median trimmed mad min max range skew kurtosis se ## X1 1 198 11.58 1.78 11.71 11.63 1.68 5.72 15.96 10.24 -0.32 0.1 0.13
Проверка выборок референтной (R) и очищенной (cleared_df1$Export) выборок показателей экспортной выручки по двухвыборочному критерию Уэлча показала следующие результаты:
## ## Welch Two Sample t-test ## ## data: log(r) and log(cleared_df1$Export) ## t = 0.37853, df = 392.75, p-value = 0.7052 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## -0.2769790 0.4090692 ## sample estimates: ## mean of x mean of y ## 11.57892 11.51288
Нет оснований отклонить гипотезу об отсутствии статистически значимых различий между выборками.
Исходная выборка показателей экспортной выручки экспортёров ЧР за 2023 год имеет функцию распределения с сильной асимметрией и признаками логнормального распределения. В этом случае робастной центральной тенденцией для показателя экспортной выручки является медианное значение, которое также может использоваться для установления ключевых показателей эффективности экспортной поддержки МСП. Использование среднего значения для установления ключевых показателей или определения тенденций регионального экспорта может привести к снижению их объективности, так как средний показатель характеризуется высокой нестабильностью и сильной зависимостью от длинного хвоста выборки, в котором находятся экстремально высокие показатели экспорта нескольких крупных предприятий;
Нет оснований полагать, что средний объём экспорта для одного поддержанного экспортёра (Е̄KPI= 420 тыс.$), заложенный в основу установленного для АНО “ЦЭП” ключевого показателя эффективности, является показателем центральной тенденции экспортной выручки предприятий ЧР;
В качестве центральной тенденции экспортной выручки для установления ключевого показателя эффективности рекомендуется использовать медианное значение 98 тыс. $. Для создания модели формирования объёма регионального экспорта целесообразно использовать логнормальную функцию распределения со следующими параметрами: N=198, μ (ln cleared_df1$Export)=11.51 и SD(ln cleared_df1$Export) = 1.69. Предложенная модель является приблизительной и требует дальнейших уточнений, но может применяться на практике до проведения дополнительных исследований с использованием баз данных за несколько лет и методов машинного обучения.
(Нассим Талеб)