1. В первую очередь выясним, в каких категориях доля проектов, которые достигли поставленной цели наибольшая:
В топ-3 Танцы, Театр и лидер - Комиксы. Стоит отметить, что это довольно-таки малочисленные категории (в них не так много проектов). Проверим с помощью стат. тестов, есть ли связь между категорией проекта и его “успехом”.
Наша 0-гипотеза - связи нет. Альтернативная - связь есть.
Тест перестановок
##
## Asymptotic General Independence Test
##
## data: state by
## main_category (Art, Comics, Crafts, Dance, Design, Fashion, Film & Video, Food, Games, Journalism, Music, Photography, Publishing, Technology, Theater)
## maxT = 26.003, p-value < 2.2e-16
## alternative hypothesis: two.sided
Тест хи-квадрат
##
## Pearson's Chi-squared test
##
## data: kick$state and kick$main_category
## X-squared = 2331, df = 14, p-value < 2.2e-16
Вывод: оба теста покаывают, что между категорией проекта и его успехом есть статистическая связь.
2. Посторим дерево, которое поможет предсказать успех/неудачу сбора средств:
Точность предсказания на тестовой выборке составила ~90%
3. От чего еще может зависить успех сбора средств. Логично, что от запрашиваемой суммы. Проверим с помощью теста перестановок, есть ли подобная зависимость:
##
## Asymptotic General Independence Test
##
## data: state by usd_goal_real
## Z = 4.3109, p-value = 1.626e-05
## alternative hypothesis: two.sided
Можно ли подобрать оптимальную сумму, которую стоит запрашивать? Проверим, как распределены запросы для успешных и неуспешных проектов:
В группе failed есть слишком большие запрашиваемы суммы (и что логично, сбор средств провалился. Уберем их, чтобы увидеть нормальную картину)
Распределены примерно одинаково.
Попробуем совместить цель и продолжительность сбора средств. Посчитаем, сколько в среднем в день нужно было собирать проектам, чтобы достигнуть цели:
Снова похожее распределение. Проверим, есть ли вообще связь, разбив наблюдения на 2 группы: “необходимое среднее количество usd в день больше медианного значения” и “необходимое среднее количество usd в день меньше медианного значения”
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: kick_tree$state and kick_tree$mpdmedian
## X-squared = 79.22, df = 1, p-value < 2.2e-16
Исходя из результатов теста хи-квадрат, отмечаем, что связь есть.
Выясним, сколько в среднем usd в день нужно было собирать успешно закончившимся проектам. Примем его за оптимальный запрос.
~140 usd/день