Команда Відкритої влади зробила свій скоринг корупційного ризику, базуючись на даних електронних декларацій. Втім інколи складні проблеми можна вирішити простим способом. Ця стаття саме про це.
База електронних декларацій - хороше рішення. Однак вона не має змісту, яккщо не робити аналіз електронних декларацій для виявлення потенційних корупціонарів. Тут є три шляхи:
Саме третім шляхом йде команда Відкритої влади. Ми взяли дані з реєстру корупційних розслідувань та реєстру корупційних правопорушень і зробили класичну модель машинного навчання з учителем, яка намагалася на основі більш ніж сотні показників спрогнозувати “корупційність” чиновника.
Однак використовувати дані цих реєстрів як основу для моделі ризиковано, оскільки ми підозрюємо, що у них інформація неповна. Отже, є сенс дивитися у сторону методів навчання без учителя, для яких не потрібно давати прикладів корупціонерів і не корупціонерів.
І такий метод ми знайшли.
Корупційна діяльність - це завжди джерело аномалій. У когось ці аномалії виявляються у виграшах у лотерею, у когось - у 20 авто чи промислових запасах готівки. Для нас важливо ці аномалії фіксувати.
Грубо кажучи, статистична аномалія - це суттєве відхилення від середнього (типового) значення за якімось показником.
Наприклад, нижче графік ілюструє розподіл доходів декларантів за 2019 рік:
У абсолютної більшості декларантів не більше 3-х автівок. В середньому у декларантів 1 авто. При цьому стандартне відхилення (міра варіації) - 1.55 авто. Зазвичай “нормальним” вважається відхилення від середнього не більше ніж на 3 стандартних відхилення, більше чи менше цього показника - аномалія. Тобто у випадку з авто нормально володіти 0-5 авто. 6 і більше - аномалія.
Ми пройшлися по всіх доступних показниках делкарацій і порахували для кожного декларанта кількість змінних, де у нього є такі аномалії і зробили на основі цього скоринг аномалій.
Топ 20 за скором вийшов наступним:
| Топ чиновників за статистичними аномаліями в деклараціях | ||
|---|---|---|
| Станом на 2019 рік | ||
| ПІП | % аномалій | Присутність в реєстрі антикорупційних рослідувань |
| Івахів Степан Петрович | 60.34% | так |
| Єфімов Максим Вікторович | 58.62% | так |
| Бойко Юрій Анатолійович | 58.62% | так |
| Андріїв Богдан Євстафійович | 56.90% | так |
| Кришин Олег Юрійович | 56.90% | так |
| Кононенко Ігор Віталійович | 55.17% | так |
| Дубневич Богдан Васильович | 55.17% | так |
| Загорій Гліб Володимирович | 55.17% | так |
| Молоток Ігор Федорович | 55.17% | так |
| Фельдман Олександр Борисович | 55.17% | так |
| Андріїв Богдан Євстафійович | 55.17% | так |
| Лівік Олександр Петрович | 53.45% | так |
| Котвіцький Ігор Олександрович | 53.45% | так |
| Омельянович Денис Сергійович | 53.45% | так |
| Микитась Максим Вікторович | 53.45% | так |
| Маркарова Оксана Сергіївна | 53.45% | ні |
| Хомутиннік Віталій Юрійович | 51.72% | так |
| Білозір Оксана Володимирівна | 51.72% | так |
| Борисов Андрій Михайлович | 51.72% | ні |
| Бандуров Володимир Володимирович | 51.72% | так |
Переважно знайомі прізвища! Більшість із них є фігурантами антикорупційних розслідувань (3-тя колонка вказує на це).
Тепер подивимось загалом, як цей показник “вгадує” фігурантів антикорупційних розслідувань.
Графік вище показує, що чим вище наш скор аномалій, тим частіше чиновники з таким скором є фігурантами антикорупційних розслідувань! Більше того, ті, у кого наш скор 0 - ніколи ними не були, а це найбільше кількість декларантів! Отже, така евристика працює!
Ми порівняли її точність з комплексними моделями з учителем - їх точність є дещо вищою, але і для їх побудови затрачено було значно більше ресурсів і часу. Цей приклад демонструє, як проста статистична евристика може допомогти у складній задачі аналізу електронних декларацій.