1. В первую очередь выясним, в каких категориях доля проектов, которые достигли поставленной цели наибольшая:

В топ-3 Танцы, Театр и лидер - Комиксы. Стоит отметить, что это довольно-таки малочисленные категории (в них не так много проектов). Проверим с помощью стат. тестов, есть ли связь между категорией проекта и его “успехом”.

Наша 0-гипотеза - связи нет. Альтернативная - связь есть.

Тест перестановок

## 
##  Asymptotic General Independence Test
## 
## data:  state by
##   main_category (Art, Comics, Crafts, Dance, Design, Fashion, Film & Video, Food, Games, Journalism, Music, Photography, Publishing, Technology, Theater)
## maxT = 26.003, p-value < 2.2e-16
## alternative hypothesis: two.sided

Тест хи-квадрат

## 
##  Pearson's Chi-squared test
## 
## data:  kick$state and kick$main_category
## X-squared = 2331, df = 14, p-value < 2.2e-16

Вывод: оба теста покаывают, что между категорией проекта и его успехом есть статистическая связь.

2. Посторим дерево, которое поможет предсказать успех/неудачу сбора средств:

Точность предсказания на тестовой выборке составила ~90%

3. От чего еще может зависить успех сбора средств. Логично, что от запрашиваемой суммы. Проверим с помощью теста перестановок, есть ли подобная зависимость:

## 
##  Asymptotic General Independence Test
## 
## data:  state by usd_goal_real
## Z = 4.3109, p-value = 1.626e-05
## alternative hypothesis: two.sided

Можно ли подобрать оптимальную сумму, которую стоит запрашивать? Проверим, как распределены запросы для успешных и неуспешных проектов:

В группе failed есть слишком большие запрашиваемы суммы (и что логично, сбор средств провалился. Уберем их, чтобы увидеть нормальную картину)

Распределены примерно одинаково.

Попробуем совместить цель и продолжительность сбора средств. Посчитаем, сколько в среднем в день нужно было собирать проектам, чтобы достигнуть цели:

Снова похожее распределение. Проверим, есть ли вообще связь, разбив наблюдения на 2 группы: “необходимое среднее количество usd в день больше медианного значения” и “необходимое среднее количество usd в день меньше медианного значения”

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  kick_tree$state and kick_tree$mpdmedian
## X-squared = 79.22, df = 1, p-value < 2.2e-16

Исходя из результатов теста хи-квадрат, отмечаем, что связь есть.

Выясним, сколько в среднем usd в день нужно было собирать успешно закончившимся проектам. Примем его за оптимальный запрос.

~140 usd/день