## Warning in read.table(file = file, header = header, sep = sep, quote =
## quote, : line 2 appears to contain embedded nulls
Несколько недель назад среди украинцев в Дании мы провели зарплатный опрос.
В анкете были четыре простых вопроса: зарплата до и после налогов, пол и живет ли респондент в Копенгагене, или нет. Все поля были обязательными для заполнения. В поля зарплат можно вводить только числа, а пол и место жительства сделаны как радио кнопки с двумя вариантами. Анкету можно было заполнить только один раз, порядок вариантов в полях выбора был случаен. Конечно, все ответы анонимные, никакой дополнительной информации не фиксировалось.
Из-за того, что вопросник был максимально простой и короткий, явно некорректных данных практически не было. Некоторые указали зарплату в тысячах крон (52 вместо 52 000, например). В таких случаях я просто добавил три нолика. Кроме того, в части анкет указаны одинаковые зарплаты до и после налогов. Я решил их оставить.
Hачнем с резюме выборки. Из 92 анкет, мужчин и женщин почти поровну: 47 мужчин, 45 женщин. Почти две трети из Копенгагена: 60 человек. Средняя зарплата в выборке: 35 184.41 крон в месяц до налогов и 22 081.96 после налогов.
Гистограмма зарплат до и после налогов выглядит так:
## Using as id variables
##
## Attaching package: 'plyr'
##
## The following objects are masked from 'package:reshape':
##
## rename, round_any
Распределение зарплат до и после налогов
Распределение зарплат до налогов более или менее равномерное, большого перекоса в результатах опроса нет. С чистыми зарплатами картина другая: выделяется диапазон 15–20 тыcяч крон в меcяц, в который попадают большинство указанных в анкетах чистых зарплат.
Теперь посмотрим на соотношение чистых и грязных зарплат, и попробуем выяснить, как же расчитывается сумма налогов с зарплаты.
Зарплата диаспорян до и после налогов
Тут начинаются неожиданности. Во-первых мы видим линейную зависимость между грязной и чистой зарплатами, никакой убывающей отдачи от каждой дополнительной заработанной кроны нет. И во-вторых эта зависимость явно выраженная, шума и случайных отклонений очень мало.
Воспользовавшись инструментами математики, мы можем получить формулу, по которой можно оценить сколько живых денег мы получим. Кроме того мы можем оценить насколько эта формула точна в оценке чистой зарплаты.
| Параметр | Значение |
|---|---|
| Коэффициент: грязная зарплата | 0.53 |
| Постоянная | 3,475.81 |
| Медианная ошибка | -402.17 |
| Коэффициент R-squared | 0.84 |
Наша гипотеза о сильной линейной зависимости подтвердилась: найденная формула объясняет 84.2% колебаний чистой зарплаты. Формула, по которой можно оценить ваш чистый доход такова:
Чистая ЗП = 0.5288 × Грязная ЗП + 3475,81
Исходя из данных опроса, из каждой дополнительно заработанной кроны 47 эре уходит на налоги.
Теперь давайте посмотрим на разницу в зарплатах между разными группами.
## Warning in `[<-.factor`(`*tmp*`, ri, value = "По всем анкетам"): invalid
## factor level, NA generated
| Группа | Средняя зарплата, DKK |
|---|---|
| По всем анкетам | 35,184 |
| Женщины | 33,178 |
| Мужчины | 37,106 |
| Не в столице | 29,082 |
| В столице | 38,439 |
В столице получают больше чем в провинции, а мужчины получают больше, чем женщины. При более пристальном рассмотрении, разница между зарплатами женщин и мужчин сравнительно небольшая, и гораздо меньше разницы между провинцией и столицей.
Имеет смысл определить, насколько статистически значима эта разница. Другими словами, какова вероятность того, что эта разница возникла из-за погрешности, ошибок сбора анкет, и т.д.
Здесь мы воспользуемся t-критерием Стьюдентa (t-test). Нашей основной гипотезой будет “Настоящая разница между зарплатами мужчин и женщин среди диаспорян в Дании равна нулю”. Альтернативная гипотеза: “Зарплаты женщин среди диаспорян в Дании меньше, чем у мужчин”. Мы будет использовать односторонний двувыборочный критерий Стьюдента (one-tailed non-paired t-test). Его параметры таковы:
| параметр | значение |
|---|---|
| Коэффициент Стьюдента (t-score) | -1.4 |
| Критический коэффициент Стьюдента | -1.7 |
| Р-значение | 0.085 |
| Доверительный интервал, 95% | -∞ — 792 |
Такми образом разница в зарплатах мужчин и женщин в датской диаспоре статистически незначительная, и му можем утверждать, что украинские мужчины и женщины в Дании получают равную зарплату.
Теперь посмотрим на то, как зарплаты диаспоры относятся к зарплатам по всей Дании. Данные по всей стране я взял с сайта датского статистичесого бюро, http://www.statistikbanken.dk/LONS30
| Группа | Средняя по Дании | Средняя в диаспоре |
|---|---|---|
| Всего | 38,958 | 35,184 |
| Женщины | 35,915 | 33,178 |
| Мужчины | 41,802 | 37,106 |
| Копенгаген | 42,724 | 38,439 |
## Using type as id variables
Средняя зарплата по группам
Картина красноречивая: по всем группам зарплаты приезжих из Украины меньше, чем в целом. Но является ли эта разница статистически значимой?
Мы воспользуемся критерием Стьюдента еще раз, чтобы это выяснить. Здесь мы воспользуемся одновыборочным t-критерием, будем сравнивать среднюю зарплату в группе диаспоры с соответствующим значением из статистического бюро. Основная гипотеза: “зарплаты диаспоры равны”, альтернативная: “Зарплаты диаспоры меньше”, доверительный уровень 95%.
| Группа | Шанс, что разница случайна, p-value |
|---|---|
| Всего в опросе | 0.47% |
| Мужчины | 0.79% |
| Женщины | 10.31% |
| Копенгаген | 0.76% |
Тут ситуация противоречивая. Только у женщин разница в зарплатах со средней в своей группе незначительна, мужчины и жители Копенгагена получают существенно меньше, чем среднестатистический житель Дании. Интерпретацию этих данных мы предоставим читателю.