| ФИО исследователя | Номер группы |
|---|---|
| Жучков Дмитрий Алексеевич | 194 |
| Алексеев Антон Дмитриевич | 194 |
| Гладун Алена Дмитриевна | 194 |
| Рогожкина Анастасия Дмитриевна | 194 |
| Семенова Анастасия Дмитриевна | 194 |
| Мукаева Сангира Витальевна | 194 |
После перехода к рыночной экономике, по мере того как занятость становится менее гарантированной как для мужчин, так и для женщин, искореняется существование модели семьи, в которой доминирует мужчина-кормилец, также появляется возможность самозанятости и предпринимательской деятельности, что немаловажно для совмещения семейной жизни и работы.
По данным Росстата, в наше время женщины занимают почти половину рынка труда (\(48.6\%\)). Уже только этот факт делает необходимыми исследования различных фактов участия женщин в экономической сфере. Предлагаем подробнее рассмотреть причины, по которым тема влияния различных факторов, в том числе семейного положения, на заработную плату женщин может быть актуальна как в долгосрочной перспективе, так и на сегодняшний день.
Во-первых, присутствие женщин на рынке труда является источником экономической независимости женщин, дает им право на социальное и пенсионное обеспечение, на соответствующие услуги здравоохранения, а также возможности для улучшения общественного положения и развития личности.
Во-вторых, что касается работающих женщин, имеющих семью: они не только вносят непосредственный вклад в бюджет семьи, но и зарабатывают определенный авторитет для выработки и принятия семейных решений и налаживания связей и контактов вне семьи.
В-третьих, демографическая ситуация и развитие института семьи играют важную роль для государства в целом. Принимая решение о вступлении в брак, женщина учитывает в числе других и экономические аспекты, которые могут смещать фокус ее внимания на карьеру. Это ведет к необходимости государством обеспечить возможность совмещения.
Итак, в более глобальной и долгосрочной перспективе, повышение эффективности трудоустройства женщин, создание необходимых условий труда может значительно повлиять на экономическое развитие страны, демографическую и благосостояние общества в целом. Если же рассматривать с точки зрения общества, то работа — это один из основных социальных лифтов и каналов интеграции. Более узко, в контексте семьи, трудоустройство женщины, в том числе ее заработная плата, участвует в формирование бюджета семьи. Удовлетворенность экономическим положением, в свою очередь, безусловно важна для развития личности, психологического равновесия.
Анализируя все эти аспекты: экономический, социальный и духовный на разных уровнях организации жизни можно сделать вывод, что необходимо выяснять, в какой мере женщины участвуют в рынке труда, выявлять факторы, которые влияют на их заработную плату и прочие условия и результаты труда. Это важно не только для регулирования государством политики, но и для частных компаний, которые стремятся обеспечить лучшие условия труда, эффективность рабочей силы и кадровой политики, авторитет.
Один из вышеупомянутых факторов, который, по нашему мнению, может оказывать влияние на экономическое положение женщины (в нашем случае непосредственно на ее заработную плату) - семейное положение. Цель нашего исследования - опираясь на данные РМЭЗ, выяснить, существует ли зависимость между семейным статусом и зарплатой женщин, оценить, насколько сильна эта взаимосвязь и выявить, какие факторы могут на нее влиять.
С тех пор, как женщины стали активными участниками рынка труда, тема влияния семейного статуса женщины на ее заработную плату стала одним из основных направлений исследований в области женского труда. Новаторской работой в этой области стала статья Дж. Минсера “Участие замужних женщин в рабочей силе”, в которой впервые семья рассматривалась в сочетании с поведением на рынке труда. Используя аналогичный подход, в статье “Семейные инвестиции в человеческий капитал: заработки женщин” (1974) он защищает позицию, что уменьшение заработной платы связано не с дискриминацией со стороны работодателей, а с семейными факторами, которые снижают практический опыт работы (женщины в 1960-х тратили 8 лет от своего стажа на уход за детьми).
В своей теории брака Беккер (1974) утверждал, что разделение бытовых обязанностей между супругами влияет на соотношение заработных плат между ними. Исходя из его концепции “специализации” в браке, мужчина является “кормильцем”, а женщина - домохозяйкой, поэтому уменьшение разницы в их заработных платах (перераспределение домашних обязанностей) снижает стремление к браку.
Так как брак тесно связан с материнством и женщины зачастую берут на себя большую часть родительских обязанностей, большинство исследовательских работ посвящено влиянию детей на заработную плату женщин. Доходы женщин варьируются в связи с количеством детей (Мур; Уилсон, 1982). М. Хилл (1979) выявляет отрицательную зависимость между количеством детей и размером заработной платы женщин и отрицает наличие свидетельств негативного влияния супружества на их заработок. Исследование Вальдфогеля (1977) подтверждает наличие “штрафа за семейный статус”, только в случае наличия у женщины детей.
Р. Моффит (1984) в своей работе выявляет комплексную взаимосвязь между браком, материнством и предложением труда. Он приходит к выводу, что, в то время как коэффициент рождаемости возрастает в первые три года брака, уровень занятости женщин снижается в первые 6 лет брака.
Регина Мадалоззо (2008) проводит регрессионный анализ для таких переменных, как семейное положение, уровень образования, возраст женщин. Это позволяет выявить, что для репрезентативности результатов пары групп замужние-одинокие и замужние-сожительствующие необходимо сравнивать раздельно. Выявлено, что одинокие женщины имеют более высокую заработную плату, чем те, кто состоит в браке, в т.ч. гражданском. При этом, доля одиноких женщин, окончивших колледж или вуз (38%), выше, чем доля женщин с таким же уровнем образования в браке. Также сожительствующие и одинокие женщины моложе замужних и имеют меньше детей.
Таким образом, в рассмотренных исследованиях мы можем выделить два преобладающих мнения: 1) не прослеживается прямой зависимости заработной платы от семейного положения (М. Хилл, Вальдфогель); 2) прослеживается взаимосвязь между семейным положением и такими факторами, как наличие и количество детей, уровень образования, стаж, и, как следствие, их комплексное влияние на заработную плату (Беккер, Мур, Уилсон, Р. Моффит, Р. Мадалоззо).
Так как результаты зарубежных исследований на эту тему противоречивы и основываются на более ранних данных, мы решили изучить более поздние отечественные экономические статьи и статистические данные современных изданий. В своем исследовании Л. А. Родионова (2013), используя данные РМЭЗ 2000-2009, подтверждает гипотезу о том, что вступление в брак негативно влияет на заработную плату ранее незамужних женщин. Однако социологический опрос исследовательского центра портала Superjob.ru показывает, что 63% замужних женщин считают доход мужа недостаточным для содержания семьи. Это противоречит предположению некоторых рассмотренных выше авторов о том, что в браке женщины теряют мотивацию к увеличению заработка.
В своем исследовании мы хотим выяснить, существует ли зависимость между семейным статусом и заработной платой женщины в современной России, используя актуальные данные РМЭЗ. Основываясь на работах, проанализированных выше, мы также хотим исследовать влияние таких факторов, как наличие детей, уровень образования, возраст, на заработную плату женщин с разным семейным положением.
Опираясь на эмпирический анализ статей и теоретические предпосылки, сформулируем гипотезы нашего исследования. Мы предполагаем, что:
# функции
# создаем функцию для расчета моды, т.к. встроенной функции в R нет
for_moda <- function(x) {
uni = unique(x)
uni[which(tabulate(match(na.omit(x), uni)) == max(tabulate(match(na.omit(x), uni))))[1]]
}
# na.omit удаляет строки с NA, они мешают, т.к. есть шанс, что NA станет модой
# match расставляет порядковые номера из уникального списка элементам "большого" списка
# tabulate считает, сколько раз повторялось каждое число в списке, получается массив
# "сколько раз повторялось каждое число из уникального списка"
# which находит позицию элемента в списке, заданную логическим выражением
# max ищем числ с наибольшим количеством повторений
# uni[] получаем моду
o_chislah = function(x){
mini = min(x, na.rm = T) # аргумент na.rm убирает NA из расчетов
perv_kvart = summary(x)["1st Qu."][[1]]
mediiana = median(x, na.rm = T)
srednee = mean(x, na.rm = T)
moda = for_moda(x)
tret_kvart = quantile(x, p = 0.75, na.rm = T)[[1]]
maksi = max(x, na.rm = T)
stand_otkl = sd(x, na.rm = T)
r = maksi - mini
assim = skewness(x, na.rm = T)
curtozis = kurtosis(x, na.rm = T)
kolvo = sum(!is.na(x))
list_character = c(mini, perv_kvart, mediiana, srednee, moda, tret_kvart, maksi, stand_otkl, r, assim, curtozis, kolvo)
return(list_character)
}
names_chisla = c("Минимум", "Первый квартиль", "Медиана", "Среднее", "Мода", "Третий квартиль", "Максимум", "Стандартное отклонение", 'Размах', "Коэф. асимметрии", "Куртозис", "Количество данных")
Для обоснования полученных результатов, подтверждения или опровержения гипотез были использованы и проанализированы данные Российского мониторинга экономического положения и здоровья населения НИУ ВШЭ (RLMS HSE) за 2019 г. (28 волна). Преимуществом выборки РМЭЗ является то, что она репрезентативна для Российской Федерации в целом: это позволяет обобщить результаты исследования на генеральную совокупность. Другое достоинство данных состоит в наличии достаточного количества наблюдений (порядка 18 тыс.) для создания выборки для исследования. Также выборка позволяет произвести анализ влияния комплекса факторов, таких как количество детей, уровень образования, возраст, на заработную плату отдельных категорий по семейному статусу, благодаря наличию соответствующих переменных.
Однако при работе с данными РМЭЗ возникли следующие трудности. Во-первых, одна из категорий семейного статуса (замужние) численно превосходит остальные, в то время как для объективного анализа необходимы примерно равные по количеству наблюдений категории. Во-вторых, многие вопросы предусматривают уклонение от однозначного ответа, что сокращает количество наблюдений для анализа. В-третьих, не исключено наличие человеческого фактора при заполнении и обработке анкет, что могло искажать результаты. Также анализ осложняло отклонение числовых данных (в частности, размер заработной платы) от нормального распределения. Все это потребовало тщательной обработки данных и сократило количество релевантных наблюдений.
Для анализа были выбраны работающие женщины в возрасте 16-54 лет (согласно определению трудоспособного возраста в Конституции РФ по состоянию на 2019 год). Отметим, что допустимый возраст вступления в брак также составляет 16 лет (при наличии особых обстоятельств). В исследовании мы использовали следующие переменные: семейный статус, ряд вспомогательных переменных для подсчета заработной платы, наличие и количество детей, уровень образования, возраст.
| Номинальные данные | Числовые данные |
|---|---|
| Семейное положение (marst) | Возраст (age) |
| Пол (h5) | Сколько часов фактически отработали по основному месту работы в течение последних 30 дней (j8) |
| Самый высокий уровень образования (j72_18a) | Доход на основной работе в течение последних 30 дней после вычета налогов (j10) |
| Основное занятие в настоящее время (j1) | Сколько часов фактически отработали на второй работе в течение последних 30 дней (j38) |
| Есть ли дети (родные или официально усыновленные) (j72_171) | Доход на второй работе в течение последних 30 дней после вычета налогов (j40) |
| — | Количество несовершеннолетних детей (j72_173) |
Далее мы подготовили данные для дальнейшего анализа. В первую очередь, мы удалили нерелевантные ответы: “ЗАТРУДНЯЮСЬ ОТВЕТИТЬ”, “ОТКАЗ ОТ ОТВЕТА”, “НЕТ ОТВЕТА”. Затем были удалены ответы респондентов, в которых отсутствовала информация о доходах с основной и второй работах одновременно. Заключительной частью первичной обработки данных стало присвоение переменной “Количество детей до 18 лет” значения 0 у тех ответов, у которых в переменной “Есть ли дети” находился отрицательный ответ, тем самым исключив случайную ошибку в ответе.
Для ответа на вопрос о семейном положении респондентам были предложены следующие варианты ответов:
clear_df = df %>% select(marst, h5, age, j72_18a, j1, j8, j10, j38, j40, j72_171, j72_173) # создаем дф с нужными переменными
# все значения, похожие на набор девяток и являющиеся некачественными данными, удаляем
clear_df$marst = replace(clear_df$marst, clear_df$marst > 99999996, NA)
clear_df = filter(clear_df, !is.na(clear_df$marst))
clear_df$j72_18a = replace(clear_df$j72_18a, clear_df$j72_18a > 99999996, NA)
clear_df$j1 = replace(clear_df$j1, clear_df$j1 > 99999996, NA)
clear_df$j8 = replace(clear_df$j8, clear_df$j8 > 99999996, NA)
clear_df$j10 = replace(clear_df$j10, clear_df$j10 > 99999996, NA)
clear_df$j38 = replace(clear_df$j38, clear_df$j38 > 99999996, NA)
clear_df$j40 = replace(clear_df$j40, clear_df$j40 > 99999996, NA)
clear_df$j72_171 = replace(clear_df$j72_171, clear_df$j72_171 > 99999996, NA)
clear_df = filter(clear_df, !is.na(clear_df$j72_171))
clear_df$j72_173 = replace(clear_df$j72_173, clear_df$j72_173 > 99999996, NA)
clear_df = filter(clear_df, !is.na(clear_df$j72_173))
clear_df = clear_df %>% filter(h5 == 2) # оставили женщин
# берем 16-54 лет //трудоспособный возраст
clear_df = clear_df %>% filter(age >= 16 & age < 55) # возраст
# если в обеих переменных про зарплату NA или 0, то удаляем
clear_df = clear_df %>% filter(!(is.na(j10) & is.na(j40))) %>% filter(!(j10 == 0 & j40 == 0))
# если ответили, что детей нет, значит детей 0
clear_df$j72_173 = clear_df$j72_173 %>% as.numeric()
clear_df$j72_171 = clear_df$j72_171 %>% as.numeric()
clear_df$j72_173 = case_when(clear_df$j72_171 == 2 ~ 0, T ~ clear_df$j72_173)
# переименовываем переменные в понятные термины
clear_df = clear_df %>% rename("money1" = "j10") %>% rename("money2" = "j40") %>% rename("family_status" = "marst") %>% rename("children_under18" = "j72_173") %>% rename("hours1" = "j8") %>% rename("hours2" = "j38") %>% rename("education" = "j72_18a") %>% rename("if_have_children" = "j72_171")
# График по категориям
clear_df_auf = clear_df %>% group_by(family_status) %>% summarise(summa = sum(family_status)) %>% filter(!is.na(summa)) %>% mutate(share = summa/sum(summa))
clear_df_auf= clear_df_auf %>% arrange(desc(share))
clear_df_auf$family_status = c(6, 5, 4, 3, 2, 1)
ggplot(clear_df_auf)+
geom_bar(aes(x = as.factor(family_status), y = share), stat = "identity", fill = "#FF7373", color = "#4B0082", alpha = 1)+
ggtitle("Доля количества женщин каждого статуса")+
xlab("Семейный статус") +
ylab("Доля")+
scale_y_continuous(breaks = seq(0, 0.6, by=0.1), labels = percent)+
scale_x_discrete(labels = c("В браке, но раздельно живут", "Никогда не были в браке", "Вдовы", "Сожительствуют", "Разведены, но не в браке", "В браке"))+
theme_update()+
coord_flip()
График показывает процент женщин, принадлежащих тем или иным категориям. С позиции института брака, семейное положение женщины может быть описано в категориях “замужем” и “не замужем”. Гражданский (незарегистрированный) брак невозможно однозначно отнести ни к одной из этих категорий, а между тем доля женщин, состоящих в незарегистрированном браке сравнительно велика (16%). Поэтому для нашего исследования мы выделили три типа семейного статуса женщин: “замужем”, “не состоит в браке”, “сожители”.
Из графика видно, что подавляющее большинство выборки составляют женщины, состоящие в зарегистрированном браке (23%). Вариант ответа “официально зарегистрированы, но вместе не проживаем” выбрало меньше всего респондентов (1%): это может влиять на репрезентативность результатов по данной категории. Поэтому мы отнесли женщин из этой категории к категории замужних, предполагая, что наличие “штампа” в большей мере, чем сожительство, учитывается на рынке рынке труда. Вдов и женщин, которые на момент опроса разведены, мы отнесли к категории “не замужем”, т.к. данные категории не предполагают наличия зарегистрированного или гражданского браков.
Для определения заработной платы мы учитывали доходы женщин на основной работе и втором месте работы за последние 30 дней. Базируясь на проанализированных нами статьях, мы использовали значения почасовой заработной платы. Это позволяет соизмерить величину абсолютной заработной платы с количеством отработанных часов.
# логическая переменная "замужем / не замужем"
clear_df = clear_df %>% mutate(if_married = case_when(family_status == 2 ~ 1, T ~ 0))
# меняем тип
clear_df$family_status = clear_df$family_status %>% as.numeric()
clear_df$hours1 = clear_df$hours1 %>% as.numeric()
clear_df$hours2 = clear_df$hours2 %>% as.numeric()
clear_df$money1 = clear_df$money1 %>% as.numeric()
clear_df$money2 = clear_df$money2 %>% as.numeric()
# 3+ детей в одну категорию как многодетные
clear_df$children_under18 = clear_df$children_under18 %>% as.numeric()
clear_df$children_cat = clear_df$children_under18 %>% as.character()
clear_df$children_cat = case_when(clear_df$children_cat == "3" | clear_df$children_cat == "4" | clear_df$children_cat == "5" | clear_df$children_cat == "6" | clear_df$children_cat == "7"~ "3+", T ~ clear_df$children_cat) %>% as.factor()
# ЗАРПЛАТА
clear_df = clear_df %>% mutate(wage1 = clear_df$money1 / clear_df$hours1)
# почасовая зп осн
clear_df = clear_df %>% mutate(wage2 = clear_df$money2 / clear_df$hours2)
# почасовая зп вторая
#наны в 0, чтобы выполнялись математич.операции
clear_df$wage1 = na_replace(clear_df$wage1, 0)
clear_df$wage2 = na_replace(clear_df$wage2, 0)
# складываем 2 зп
clear_df = clear_df %>% mutate(hour_wage = wage1 + wage2)
clear_df$wage2 = case_when(clear_df$wage2 > 0 ~ clear_df$wage2)
clear_df = clear_df %>% filter(clear_df$hour_wage >0)
clear_df$hours1 = case_when(clear_df$hours1 > 0 ~ clear_df$hours1)
clear_df$hours2 = case_when(clear_df$hours2 > 0 ~ clear_df$hours2)
clear_df$money1 = na_replace(clear_df$money1, 0) #наны в 0, чтобы выполнялись математич.операции
clear_df$money2 = na_replace(clear_df$money2, 0)
clear_df = clear_df %>% mutate(general_wage = money1 + money2)
# весь абсолютный размер зп
# Таблица описательных характеристик до чистки данных
li1 = list()
clear_df_num1 = clear_df %>% select(c(age, children_under18, hours1, money1, money2, hour_wage))
num_list = c("age", "children_under18", "hours1", "money1", "money2", "hour_wage")
# Смысл цикла: к каждому числовому столбцу применяется вышеизложенная функция и помещает полученный массив чисел в список, затем из списков характеристик каждого столбца формируется список списков для удобства создания таблицы.
for (i in num_list){
stolb_list = list(o_chislah(clear_df_num1[[i]]))
li1 = append(li1, stolb_list)
}
lbls = c("Возраст", "Кол-во детей до 18 лет", "Кол-во часов на основной работе", "Доход на основной работе, руб.", "Доход на второй работе, руб.", "Общая почасовая зарплата, руб/ч")
chisla_df1 = data.frame(li1, row.names = names_chisla)
colnames(chisla_df1) = lbls
rm(stolb_list, i, li1) # удаляем переменные за ненадобностью
| Возраст | Кол-во детей до 18 лет | Кол-во часов на основной работе | Доход на основной работе, руб. | Доход на второй работе, руб. | Общая почасовая зарплата, руб/ч | |
|---|---|---|---|---|---|---|
| Минимум | 18.000 | 0.000 | 6.000 | 0.00 | 0.00 | 6.82 |
| Первый квартиль | 35.000 | 0.000 | 156.000 | 15000.00 | 0.00 | 93.75 |
| Медиана | 41.000 | 1.000 | 172.000 | 21000.00 | 0.00 | 133.64 |
| Среднее | 40.884 | 0.994 | 169.342 | 25974.46 | 642.57 | 184.84 |
| Мода | 40.000 | 1.000 | 176.000 | 20000.00 | 0.00 | 125.00 |
| Третий квартиль | 47.000 | 2.000 | 184.000 | 30000.00 | 0.00 | 207.03 |
| Максимум | 54.000 | 7.000 | 600.000 | 350000.00 | 50000.00 | 5000.00 |
| Стандартное отклонение | 7.644 | 0.894 | 44.976 | 18743.10 | 3440.08 | 211.51 |
| Размах | 36.000 | 7.000 | 594.000 | 350000.00 | 50000.00 | 4993.18 |
| Коэф. асимметрии | -0.141 | 0.775 | 0.652 | 4.69 | 7.37 | 9.01 |
| Куртозис | 2.203 | 4.184 | 10.946 | 54.01 | 68.71 | 149.45 |
| Количество данных | 2244.000 | 2244.000 | 2234.000 | 2244.00 | 2244.00 | 2244.00 |
Обратимся к описательным статистикам первичных данных, представленным в таблице выше. Стандартное отклонение почасовой заработной платы от ее среднего значения составляет 211.51. Размах значений данной переменной 4993.18 при медиане 133.64. Это свидетельствует о наличии в данных значений, искажающих репрезентативность выборки.
Далее мы проверили предпосылки линейности с помощью графика распределения.
График отображает логнормальное распределение почасовой заработной платы. Следовательно, для получения распределения, приближенного к нормальному, требуется логарифмировать почасовую заработную плату.
По графику видно, что после логарифмирования и удаления выбросов значения переменной “Почасовая заработная плата” формируют распределение, похожее на нормальное.
# удаление выбросов
outliers = boxplot.stats(clear_df$l_wage)$out
df3 <- data.frame(a = outliers)
clear_df = clear_df %>% filter(!(l_wage %in% df3$a))
Используя ящик размаха по переменной логарифма почасовой заработной платы, мы удаляем выбросы.
| Возраст | Кол-во детей до 18 лет | Кол-во часов на основной работе | Доход на основной работе, руб. | Доход на второй работе, руб. | Общая почасовая зарплата, руб/ч | Логарифм почасовой зарплаты | |
|---|---|---|---|---|---|---|---|
| Минимум | 18.000 | 0.000 | 10.000 | 0.00 | 0.00 | 28.89 | 3.363 |
| Первый квартиль | 35.000 | 0.000 | 157.000 | 15000.00 | 0.00 | 92.86 | 4.531 |
| Медиана | 41.000 | 1.000 | 172.000 | 20639.00 | 0.00 | 131.87 | 4.882 |
| Среднее | 40.862 | 0.993 | 170.028 | 25181.93 | 488.29 | 164.10 | 4.930 |
| Мода | 40.000 | 1.000 | 176.000 | 20000.00 | 0.00 | 125.00 | 4.828 |
| Третий квартиль | 47.000 | 2.000 | 184.000 | 30000.00 | 0.00 | 198.86 | 5.293 |
| Максимум | 54.000 | 7.000 | 600.000 | 160000.00 | 40000.00 | 670.73 | 6.508 |
| Стандартное отклонение | 7.664 | 0.894 | 43.342 | 15245.23 | 2868.39 | 106.56 | 0.571 |
| Размах | 36.000 | 7.000 | 590.000 | 160000.00 | 40000.00 | 641.84 | 3.145 |
| Коэф. асимметрии | -0.134 | 0.783 | 0.679 | 2.11 | 8.11 | 1.80 | 0.299 |
| Куртозис | 2.192 | 4.230 | 11.188 | 10.64 | 82.15 | 6.62 | 2.795 |
| Количество данных | 2193.000 | 2193.000 | 2187.000 | 2193.00 | 2193.00 | 2193.00 | 2193.000 |
После удаления выбросов таблица описательных характеристик изменилась: стандартное отклонение почасовой зарплаты уменьшилось более чем в 2 раза (106.55), а размах - почти в 8 раз (641.84). Куртозис распределения логарифма почасовой заработной платы составляет (2.79), что свидетельствует о приближении к нормальному по сравнению с распределением данных до удаления выбросов.
Мы начинаем исследование влияния семейного статуса на заработную плату с анализа средних почасовых заработных плат по категориям.
#переназначение категорий
clear_df$family_status = case_when(clear_df$family_status == 4 | clear_df$family_status == 5 ~ 1, clear_df$family_status == 6 ~ 2, T ~ clear_df$family_status)
# {1 никогда не в браке, 4 вдовы, 5 в разводе}, [2 в браке, 6 в браке, но не вместе], {3 вместе живут}
df_status = clear_df %>% group_by(family_status) %>% summarise(av = mean(hour_wage), kolvo = n())
График показывает, что средняя почасовая заработная плата одиноких женщин выше, чем у двух других статусов. Отметим, что наименьшее значение средней почасовой оплаты труда наблюдается у женщин, которые состоят в незарегистрированном браке.
Исследуем замеченную нами разницу в заработных платах различных категорий с помощью статистических инструментов.
Нулевая гипотеза: семейное положение не влияет на заработную плату женщин.
Альтернативная гипотеза: заработная плата женщин зависит от их семейного статуса.
Проведем тестирование различий в среднем с помощью тестов Стьюдента и одностороннего дисперсионного анализа (ANOVA).
Проведем попарное сравнение значимости различия зарплаты в трех категориях.
P-value в тесте между одинокими и замужними составил \(0.036\), между одинокими и сожительствующими - \(0.008\), что указывает на статистическую значимость зависимости переменных на уровне значимости \(0.05\).
P-value между замужними и сожительствующими составил \(0.18\). Для данной пары переменных нулевая гипотеза отвергнута быть не может.
Для подтверждения результатов t-теста проведем F-тест, включая все категории. Значение p-value составило \(0.02\), что указывает на статистическую значимость теста. Таким образом, мы можем отвергнуть нулевую гипотезу для пар “одинокие - замужние” и “одинокие - сожительствующие”, для которых результаты t-теста и F-теста совпадают.
Категория женщин “не в браке” была выбрана нами за базовый уровень, потому что корреляция между замужними женщинами и находящимися в гражданском браке оказалась незначимой.
Регрессия логарифма заработной платы по семейному статусу
Поскольку независимая переменная - почасовая заработная плата - является логарифмированной, то коффициент регрессии будет означать примерное изменение в процентах этой переменной. При этом точное значение рассчитывается по формуле: \((e^{coef}-1)\cdot100\%\), где \(coef\) — коэффициент регрессии.
Коэффициент регрессии при переходе от одиноких женщин к замужним оказался равен \(-0.0609\). Это означает изменение заработной платы в меньшую сторону на \(5.9\%\). В это же время при переходе от одиноких женщин к совместно проживающим коэффициент регрессии составил \(-0.1106\), что соответствует изменению в \(-10.47\%\).
После проверки и подтверждения нами первой гипотезы исследования о том, что незамужние женщины зарабатывают больше, чем женщины из других групп, мы переходим к тестированию влияния других факторов на заработную плату женщин из разных категорий. Основываясь на статьях, которые мы рассмотрели в обзоре литературы, мы выделили для проверки следующие переменные: количество детей до 18 лет, уровень образования, возраст.
Для теста между количеством детей до 18 лет и логарифмом почасовой заработной платы значение p-value составило \(0.009\); между уровнем образования и логарифмом почасовой заработной платы – \(<0.001\); между возрастом и логарифмом почасовой заработной платы p-value оказался равен \(0.549\), следовательно, мы не можем говорить о статистической значимости влияния возраста женщин на их почасовую заработную плату.
Таким образом, по результатам ANOVA-тестов для регрессионного анализа могут быть использованы переменные “Количество детей до 18 лет” и “Уровень образования”.
За базовый уровень также была выбрана категория женщин, не состоящих в браке. Регрессия между заработной платой и количеством детей оказалось незначимой(p-value = \(0.658\)), вследствие чего мы не можем использовать перекрестную регрессию.
Перекрестная регрессия по семейному статусу и количеству детей в возрасте до 18 лет
Значимой оказалась только регрессия влияния каждого дополнительного года образования при переходе от статуса “незамужние” к замужним. Изменение составило \(-9\%\).
Перекрестная регрессия по семейному статусу и уровню образования
Таким образом, с помощью регрессионного анализа была подтверждена гипотеза о влиянии семейного статуса на заработную плату женщин: изменение семейного положения от “незамужние” к “в браке” ведет к снижению почасовой заработной платы на \(5.9\%\); изменение семейного статуса от “незамужние” к “сожители” снижает почасовую зарплату на \(10.47\%\). Это может быть связано с рядом причин.
Возможно, наличие партнера позволяет добиться выгодного распределения трудовых и бытовых обязанностей, в связи с чем мотивация для работы ради заработка у этих женщин может ослабевать. Также при наличии у женщины партнера ее приоритеты могут сместиться с развития карьеры на личную жизнь. Опасаясь этого, работодатели могут предпочитать определенные категории при найме сотрудников.
Используя статистические тесты, мы установили, что возраст и количество детей не оказывают статистически значимого для данной выборки влияния на почасовую заработную плату женщин. Перекрестный регрессионный анализ показал, что отдача каждого дополнительного уровня образования у замужних на \(9\%\) меньше, чем у незамужних. Статистические тесты показывают, что в среднем уровень образования у замужних и сожителей ниже, чем у тех, кто не состоит в браке. Это может объяснять сооответствующие различия в заработке, на который образование оказывает положительное влияние. Согласно несмещенному коэффициенту детерминации (adj.\(R^{2}\)), приблизительно \(11\%\) заработной платы объясняется уравнением перекрестной регрессии семейного статуса и уровня образования.
Мы полагаем, что наше исследование позволяет проследить зависимость между семейным статусом и заработной платой на основе наиболее современных данных по стране. Его результаты отвечают на вопрос о существовании влияния семейного положения на заработок женщин. Кроме того, исследование устанавливает влияние различий в уровне образования категорий женщин на их заработок. Выявленные нами закономерности могут быть более детально исследованы в будущих работах по данной теме и дополнены последующими данными для анализа в динамике.
Mincer J. Labor force participation of married women: A study of labor supply //Aspects of labor economics. – Princeton University Press, 1962. – С. 63-105.
Mincer J., Polachek S. Family investments in human capital: Earnings of women //Journal of political Economy. – 1974. – Т. 82. – №. 2, Part 2. – С. S76-S108.
Becker G. S. A theory of marriage: Part II //Journal of political Economy. – 1974. – Т. 82. – №. 2, Part 2. – С. S11-S26.
Moore W. J., Wilson R. M. The influence of children on the wage rates of married women //Eastern Economic Journal. – 1982. – Т. 8. – №. 3. – С. 197-210.
Hill M. S. The wage effects of marital status and children //Journal of Human Resources. – 1979. – С. 579-594.
Waldfogel J. The effect of children on women’s wages //American sociological review. – 1997. – С. 209-217.
Moffitt R. Profiles of fertility, labour supply and wages of married women: A complete life-cycle model //The Review of Economic Studies. – 1984. – Т. 51. – №. 2. – С. 263-278.
Madalozzo R. An analysis of income differentials by marital status //Estudos Econômicos (São Paulo). – 2008. – Т. 38. – №. 2. – С. 267-292.
Родионова Л. А. Эконометрический анализ влияния смены семейного статуса на заработную плату в России //Прикладная эконометрика. – 2013. – №. 3 (31).
Даже при наличии у мужа высокой зарплаты российские женщины не хотят становиться домохозяйками // SuperJob.ru URL: https://www.superjob.ru/research/articles/112538/… (дата обращения: 05.03.2021).
Трудовые ресурсы // Федеральная служба государственной статистики URL: https://rosstat.gov.ru/labour_force (дата обращения: 05.03.2021).