Команда Відкритої влади зробила свій скоринг корупційного ризику, базуючись на даних електронних декларацій. Втім інколи складні проблеми можна вирішити простим способом. Ця стаття саме про це.

Проблема

База електронних декларацій - хороше рішення. Однак вона не має змісту, яккщо не робити аналіз електронних декларацій для виявлення потенційних корупціонарів. Тут є три шляхи:

  1. шлях антикорупційних розслідувань - шукати невідповідності в деклараціях і реальному житті;
  2. шлях правил - НАБУ пропонує свій перелік правил, за якими декларація позначається як “підозріла” і починається перевіркка деккларанта;
  3. шлях статистичний - будуємо математичні моделі, які допомагають виявити декларантів з високим корупційним ризиком.

Саме третім шляхом йде команда Відкритої влади. Ми взяли дані з реєстру корупційних розслідувань та реєстру корупційних правопорушень і зробили класичну модель машинного навчання з учителем, яка намагалася на основі більш ніж сотні показників спрогнозувати “корупційність” чиновника.

Однак використовувати дані цих реєстрів як основу для моделі ризиковано, оскільки ми підозрюємо, що у них інформація неповна. Отже, є сенс дивитися у сторону методів навчання без учителя, для яких не потрібно давати прикладів корупціонерів і не корупціонерів.

І такий метод ми знайшли.

Підхід

Корупційна діяльність - це завжди джерело аномалій. У когось ці аномалії виявляються у виграшах у лотерею, у когось - у 20 авто чи промислових запасах готівки. Для нас важливо ці аномалії фіксувати.

Грубо кажучи, статистична аномалія - це суттєве відхилення від середнього (типового) значення за якімось показником.

Наприклад, нижче графік ілюструє розподіл доходів декларантів за 2019 рік:

У абсолютної більшості декларантів не більше 3-х автівок. В середньому у декларантів 1 авто. При цьому стандартне відхилення (міра варіації) - 1.55 авто. Зазвичай “нормальним” вважається відхилення від середнього не більше ніж на 3 стандартних відхилення, більше чи менше цього показника - аномалія. Тобто у випадку з авто нормально володіти 0-5 авто. 6 і більше - аномалія.

Результати

Ми пройшлися по всіх доступних показниках делкарацій і порахували для кожного декларанта кількість змінних, де у нього є такі аномалії і зробили на основі цього скоринг аномалій.

Топ 20 за скором вийшов наступним:

Топ чиновників за статистичними аномаліями в деклараціях
Станом на 2019 рік
ПІП % аномалій Присутність в реєстрі антикорупційних рослідувань
Івахів Степан Петрович 60.34% так
Єфімов Максим Вікторович 58.62% так
Бойко Юрій Анатолійович 58.62% так
Андріїв Богдан Євстафійович 56.90% так
Кришин Олег Юрійович 56.90% так
Кононенко Ігор Віталійович 55.17% так
Дубневич Богдан Васильович 55.17% так
Загорій Гліб Володимирович 55.17% так
Молоток Ігор Федорович 55.17% так
Фельдман Олександр Борисович 55.17% так
Андріїв Богдан Євстафійович 55.17% так
Лівік Олександр Петрович 53.45% так
Котвіцький Ігор Олександрович 53.45% так
Омельянович Денис Сергійович 53.45% так
Микитась Максим Вікторович 53.45% так
Маркарова Оксана Сергіївна 53.45% ні
Хомутиннік Віталій Юрійович 51.72% так
Білозір Оксана Володимирівна 51.72% так
Борисов Андрій Михайлович 51.72% ні
Бандуров Володимир Володимирович 51.72% так

Переважно знайомі прізвища! Більшість із них є фігурантами антикорупційних розслідувань (3-тя колонка вказує на це).

Тепер подивимось загалом, як цей показник “вгадує” фігурантів антикорупційних розслідувань.

Графік вище показує, що чим вище наш скор аномалій, тим частіше чиновники з таким скором є фігурантами антикорупційних розслідувань! Більше того, ті, у кого наш скор 0 - ніколи ними не були, а це найбільше кількість декларантів! Отже, така евристика працює!

Ми порівняли її точність з комплексними моделями з учителем - їх точність є дещо вищою, але і для їх побудови затрачено було значно більше ресурсів і часу. Цей приклад демонструє, як проста статистична евристика може допомогти у складній задачі аналізу електронних декларацій.