## Warning in read.table(file = file, header = header, sep = sep, quote =
## quote, : line 2 appears to contain embedded nulls

Несколько недель назад среди украинцев в Дании мы провели зарплатный опрос.

В анкете были четыре простых вопроса: зарплата до и после налогов, пол и живет ли респондент в Копенгагене, или нет. Все поля были обязательными для заполнения. В поля зарплат можно вводить только числа, а пол и место жительства сделаны как радио кнопки с двумя вариантами. Анкету можно было заполнить только один раз, порядок вариантов в полях выбора был случаен. Конечно, все ответы анонимные, никакой дополнительной информации не фиксировалось.

Из-за того, что вопросник был максимально простой и короткий, явно некорректных данных практически не было. Некоторые указали зарплату в тысячах крон (52 вместо 52 000, например). В таких случаях я просто добавил три нолика. Кроме того, в части анкет указаны одинаковые зарплаты до и после налогов. Я решил их оставить.

Hачнем с резюме выборки. Из 92 анкет, мужчин и женщин почти поровну: 47 мужчин, 45 женщин. Почти две трети из Копенгагена: 60 человек. Средняя зарплата в выборке: 35 184.41 крон в месяц до налогов и 22 081.96 после налогов.

Гистограмма зарплат до и после налогов выглядит так:

## Using  as id variables
## 
## Attaching package: 'plyr'
## 
## The following objects are masked from 'package:reshape':
## 
##     rename, round_any
Распределение зарплат до и после налогов

Распределение зарплат до и после налогов

Распределение зарплат до налогов более или менее равномерное, большого перекоса в результатах опроса нет. С чистыми зарплатами картина другая: выделяется диапазон 15–20 тыcяч крон в меcяц, в который попадают большинство указанных в анкетах чистых зарплат.

Теперь посмотрим на соотношение чистых и грязных зарплат, и попробуем выяснить, как же расчитывается сумма налогов с зарплаты.

Зарплата диаспорян до и после налогов

Зарплата диаспорян до и после налогов

Тут начинаются неожиданности. Во-первых мы видим линейную зависимость между грязной и чистой зарплатами, никакой убывающей отдачи от каждой дополнительной заработанной кроны нет. И во-вторых эта зависимость явно выраженная, шума и случайных отклонений очень мало.

Воспользовавшись инструментами математики, мы можем получить формулу, по которой можно оценить сколько живых денег мы получим. Кроме того мы можем оценить насколько эта формула точна в оценке чистой зарплаты.

Параметры зависимости между зарплатой до и после налогов
Параметр Значение
Коэффициент: грязная зарплата 0.53
Постоянная 3,475.81
Медианная ошибка -402.17
Коэффициент R-squared 0.84

Наша гипотеза о сильной линейной зависимости подтвердилась: найденная формула объясняет 84.2% колебаний чистой зарплаты. Формула, по которой можно оценить ваш чистый доход такова:

Чистая ЗП = 0.5288 × Грязная ЗП + 3475,81

Исходя из данных опроса, из каждой дополнительно заработанной кроны 47 эре уходит на налоги.

Теперь давайте посмотрим на разницу в зарплатах между разными группами.

## Warning in `[<-.factor`(`*tmp*`, ri, value = "По всем анкетам"): invalid
## factor level, NA generated
Средняя зарплата до налогов в разных группах
Группа Средняя зарплата,
DKK
По всем анкетам 35,184
Женщины 33,178
Мужчины 37,106
Не в столице 29,082
В столице 38,439

В столице получают больше чем в провинции, а мужчины получают больше, чем женщины. При более пристальном рассмотрении, разница между зарплатами женщин и мужчин сравнительно небольшая, и гораздо меньше разницы между провинцией и столицей.

Имеет смысл определить, насколько статистически значима эта разница. Другими словами, какова вероятность того, что эта разница возникла из-за погрешности, ошибок сбора анкет, и т.д.

Здесь мы воспользуемся t-критерием Стьюдентa (t-test). Нашей основной гипотезой будет “Настоящая разница между зарплатами мужчин и женщин среди диаспорян в Дании равна нулю”. Альтернативная гипотеза: “Зарплаты женщин среди диаспорян в Дании меньше, чем у мужчин”. Мы будет использовать односторонний двувыборочный критерий Стьюдента (one-tailed non-paired t-test). Его параметры таковы:

Параметры критерия Стьюдента для средних зарплат мужчин и женщин
параметр значение
Коэффициент Стьюдента (t-score) -1.4
Критический коэффициент Стьюдента -1.7
Р-значение 0.085
Доверительный интервал, 95% -∞ — 792

Такми образом разница в зарплатах мужчин и женщин в датской диаспоре статистически незначительная, и му можем утверждать, что украинские мужчины и женщины в Дании получают равную зарплату.

Теперь посмотрим на то, как зарплаты диаспоры относятся к зарплатам по всей Дании. Данные по всей стране я взял с сайта датского статистичесого бюро, http://www.statistikbanken.dk/LONS30

Зарплата до налогов по группам, в целом в Дании и в диаспоре.
Группа Средняя по Дании Средняя в диаспоре
Всего 38,958 35,184
Женщины 35,915 33,178
Мужчины 41,802 37,106
Копенгаген 42,724 38,439
## Using type as id variables
Средняя зарплата по группам

Средняя зарплата по группам

Картина красноречивая: по всем группам зарплаты приезжих из Украины меньше, чем в целом. Но является ли эта разница статистически значимой?

Мы воспользуемся критерием Стьюдента еще раз, чтобы это выяснить. Здесь мы воспользуемся одновыборочным t-критерием, будем сравнивать среднюю зарплату в группе диаспоры с соответствующим значением из статистического бюро. Основная гипотеза: “зарплаты диаспоры равны”, альтернативная: “Зарплаты диаспоры меньше”, доверительный уровень 95%.

Статистическая значимость разницы зарплат диаспоры со средним по Дании.
Группа Шанс, что разница случайна,
p-value
Всего в опросе 0.47%
Мужчины 0.79%
Женщины 10.31%
Копенгаген 0.76%

Тут ситуация противоречивая. Только у женщин разница в зарплатах со средней в своей группе незначительна, мужчины и жители Копенгагена получают существенно меньше, чем среднестатистический житель Дании. Интерпретацию этих данных мы предоставим читателю.