Необходимые ссылки на источники (литературу или данные)
Ссылки на необходимые онлайн-приложения (наборы данных, неформатные таблицы или графики и т.п.)
Позднее материнство является набирающей популярность тенденцией в современном мире. Согласно данным Министерства труда РФ средний возраст рождения первенца в России ежегодно “сдвигается в более старшую возрастную когорту”, сейчас он составляет в среднем 28 лет, к 2030 году прогнозируют появление первого ребенка у женщин 30-летнего возраста. Считается, что отложенное материнство связано с расширением карьерных возможностей для женщин. Действительно, в развитых странах все чаще проблемой становится выбор между деторождением с одной стороны и реализацией в профессиональной деятельности и стремлением к высокому заработку - с другой. Можно предположить, что молодые люди нацелены на, чтобы обеспечить достойное существование себе и своим детям, а для того, чтобы претворить “мечты” в жизнь, необходим соответствующий уровень дохода.
В данной работе мы хотим выяснить, влияет ли устойчивое материальное положение, в частности размер заработной платы, на количество детей. Наш вопрос основан на следующей логике: с одной стороны, чем больше доход человека, тем больше детей в своей семье он может обеспечить материально, и в таком случае, зависимость количества детей от заработной платы должна быть положительной; с другой стороны, люди, которые много зарабатывают, больше времени и внимания уделяют своему карьерному развитию, следовательно, для них рождение детей будет не в приоритете.
Таким образом, изучение влияние размера заработной платы на количество детей в современных реалиях требует должного внимания.
Для изучения поставленного исследовательского вопроса мы использовали данные 29-й волны (2020 год) ежегодного Российского мониторинга экономического положения и здоровья населения (РМЭЗ) НИУ ВШЭ. В качестве выборочной совокупности мы рассматривали индивидов женского пола от 18 до 49 лет и индивидов мужского пола от 18 до 55 лет (общепризнанный репродуктивный возраст для мужчин и женщин), проживающих в крупных городах России (с населением более 250 000 человек).
Зависимой переменной в данной работе является количество детей. В качестве основного регрессора выступает средняя заработная плата за 5 лет. Важно отметить, что для вычисления значений данной переменной мы обращались к результатам 25-й, 26-й, 27-й, 28-й и 29-й волн, что соответствует опросам, проводимым с 2016 по 2020 годы.
Ссылка на диск с таблицей изначальных данных и список переменных:
В процессе работы с данными мы проделали следующие действия:
После окончательной корректировки были получены данные:
На данном этапе мы вычислили описательные статистики всех переменных (минимальное и максимальное значение, среднее по выборке и стандартное отклонение для количественных переменных, также определили процентное и количественное распределение ответов по категориальным переменным) и визуализировали результаты в виде графиков (гистограмм, графиков плотности распределения и boxplot). Мы начали анализ данных с нашей зависимой переменной -количества детей.
Количество детей является зависимой переменной. Сделав описательную таблицу по данной переменной,мы выяснили,что среднее значение переменной “количество детей” равняется 1. В таблице указано значение 1,65. Принимая во внимание,что значение количества детей является целым числом, мы берем значение 1.
Далее мы рассмотрели главный регрессор заработную плату. Сперва нам надо было удалить выбросы,что мы сделали благодаря графику boxplot для наглядности и формуле МКР для удаления выбросов. В итоге мы получили среднюю заработную плату за последние 5 лет,медиана которой равна 28 333 рублей. Минимальная ЗП равна 1200 рублей, а максимальная 62 150 рублей.
Затем мы обратились к переменной возраст. Средний возраст составил 35,36 лет. Также мы проанализировали средний возраст среди мужчин и женщин. В нашей выборке средний возраст среди мужчин 36,39 лет, в то время как у женщин - 34,34 года.
Изначальные данные показывают,что максимальное значение площади 170 кв. метров. Построив график boxplot, мы увидели выбросы такие,например,как жилая площадь в 170 кв.метров. Мы применили формулу МКР для удаления выбросов и получения распределения близкому к нормальному, после чего получили максимальное значение - 71, минимальное - 8. И среднюю площадь - 32 кв.метра.
Также важно проанализировать количество рабочих часов в неделю. Проанализировав изначальные данные, мы заметили,что есть такие значения рабочих часов в неделю как 96,120,196. Мы применили формулу МКР для удаления выбросов.После очистки данных мы получили распределение близкому к нормальному. Далее мы сделали описательную статистику и получили следующие результаты. Среднее значение равно 41,6 час, что отражает адекватное количество рабочих часов в неделю у респондентов, так как продолжительность рабочей недели обычно составляет 40 часов.
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| X1 | 1 | 943 | 40.25769 | NA | 40 | 40.03179 | 0 | 36 | 47 | 11 | 1.232102 | 5.409294 | 0.0509326 |
Мы проводим анализ только в крупных регионах, таким образом минимальное значение населения равно 326 900 человек. А максимальное значение в городе Москва- 12 325 400 человек.
Большая часть респондентов работает не удаленно (85.3%) и только примерно 1/7 всей выборки работает удаленно(14.7%). Есть смысл полагать, что в в общем анализе данная переменная не будет оказывать существенного влияния на зависимую переменную из-за смещенности выборки.
Очень малая часть респондентов (около 7 %) не оформлены официально. Такая разница в распределении впоследствии может сделать менее значимыми результаты анализа с использованием данной переменной. В соответствии с этой переменной также можно предположить что переменная “Переживание о потери работы” также будет со неравномерно распределена, т.к. официальное трудоустройство обычно предполагает большее доверие работника компании.
Распределение ответов об удовлетворённости жизнью близко к нормальному: чаще всего респонденты “скорее удовлетворены своей жизнью” (47,9%), и редко удовлетворённость доходит до крайностей: совсем не удовлетворены жизнью всего 3,9% респондентов, а полностью удовлетворены- 6,7%.
| Var1 | Freq | percentage |
|---|---|---|
| 1 | 531 | 25.7 |
| 2 | 761 | 36.8 |
| 3 | 428 | 20.7 |
| 4 | 327 | 15.8 |
| 5 | 21 | 1.0 |
| Категория(номер) | Значение |
|---|---|
| 1 | Совсем не удовлетворены |
| 2 | Не очень удовлетворены |
| 3 | И да, и нет |
| 4 | Скорее удовлетворены |
| 5 | Полностью удовлетворены |
Переменная показывает, проживает ли индивид вместе с партнером/партнершей, не регистрируя свои отношения. 72,3% опрашиваемых не живут с партнером/партнершей, 24% проживают вместе со своим партнёром и считают себя мужем и женой, и 3,7% людей живут вместе, но не считают себя супругами. Для удобства при анализе мы решили объединить два последних ответа в один - Да, индивид проживает вместе с партнёром/партнёршей. В данном случае мы можем игнорировать различия в этих переменных, так как у нас есть отдельная переменная описывающая брачный статус.
Чаще всего респонденты состоят в первом зарегистрированном браке или никогда не состояли в браке. Очень редко респонденты зарегистрированы, но не живут вместе, и всего 1,5% составляют вдовы и вдовцы.
По данному распределению видно, что в большинство респондентов имеют законченное среднее или высшее образование. Очень малая доля имеет незаконченное среднее образование или только 6 классов. Будет наиболее эффективно использовать данную переменную для сравнения индивидов с законченным высшим или средним образованием.
| Var1 | Freq | percentage |
|---|---|---|
| законченное высшее образование и выше | 827 | 39.9 |
| законченное среднее образование | 498 | 24.0 |
| законченное среднее специальное образование | 573 | 27.7 |
| незаконченное среднее образование (7 - 8 кл) | 16 | 0.8 |
| незаконченное среднее образование (7 - 8 кл) + что-то еще | 155 | 7.5 |
| окончил 0 - 6 классов | 2 | 0.1 |
91.1% всех респондентов по национальности относят себя к русским. Остальные национальности представлены в значительно меньшем количестве. Можно предположить, что данная переменная не принесет значимых результатов при анализе.
Большинство респондентов (72.6%) на момент опроса работают. Мы считаем, что для анализа будет наиболее эффективно использовать ответы “Вы находитесь в отпуске - декретном или по уходу за ребенком до 3-х лет”, “Вы сейчас работаете”, “Или у Вас сейчас нет работы”, так как оставшиеся категории представлены лишь 2-мя респондентами.
Данная переменная демонстрирует процентное распределение индивидов по областям, в которых они работают. Самое большое количество респондентов работает а торговле (29,9%). В области транспорта и связи работает 10,7%. На остальные области приходится от 0,1 до 7,9 % респондентов .
| Var1 | Freq | percentage |
|---|---|---|
| IT, ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ | 15 | 1.0 |
| АРМИЯ, МВД, ОРГАНЫ БЕЗОПАСНОСТИ | 75 | 4.8 |
| ВОЕННО-ПРОМЫШЛЕННЫЙ КОМПЛЕКС | 26 | 1.7 |
| ГРАЖДАНСКОЕ МАШИНОСТРОЕНИЕ | 48 | 3.1 |
| ДЕРЕВООБРАБАТЫВАЮЩАЯ ПРОМЫШЛЕННОСТЬ, ЛЕСНОЕ ХОЗЯЙСТВО | 3 | 0.2 |
| ДРУГАЯ ОТРАСЛЬ ТЯЖЕЛОЙ ПРОМЫШЛЕННОСТИ | 61 | 3.9 |
| ЖИЛИЩНО-КОММУНАЛЬНОЕ ХОЗЯЙСТВО | 49 | 3.1 |
| ЗДРАВООХРАНЕНИЕ | 79 | 5.0 |
| ЛЕГКАЯ, ПИЩЕВАЯ ПРОМЫШЛЕННОСТЬ | 73 | 4.7 |
| НАУКА, КУЛЬТУРА | 40 | 2.6 |
| НЕФТЕГАЗОВАЯ ПРОМЫШЛЕННОСТЬ | 32 | 2.0 |
| ОБРАЗОВАНИЕ | 123 | 7.9 |
| ОПЕРАЦИИ С НЕДВИЖИМОСТЬЮ | 8 | 0.5 |
| ОРГАНЫ УПРАВЛЕНИЯ | 22 | 1.4 |
| РЕКЛАМА, МАРКЕТИНГ | 12 | 0.8 |
| СЕЛЬСКОЕ ХОЗЯЙСТВО | 7 | 0.4 |
| СМИ, ИЗДАТЕЛЬСТВО, ПЕЧАТЬ, ТЕЛЕКОММУНИКАЦИИ | 14 | 0.9 |
| СОЦИАЛЬНОЕ ОБСЛУЖИВАНИЕ | 5 | 0.3 |
| СПОРТ, ТУРИЗМ, РАЗВЛЕЧЕНИЯ | 14 | 0.9 |
| СТРОИТЕЛЬСТВО | 111 | 7.1 |
| ТОРГОВЛЯ, БЫТОВОЕ ОБСЛУЖИВАНИЕ | 468 | 29.9 |
| ТРАНСПОРТ, СВЯЗЬ | 168 | 10.7 |
| УСЛУГИ НАСЕЛЕНИЮ | 18 | 1.1 |
| ФИНАНСЫ | 56 | 3.6 |
| ХИМИЧЕСКАЯ ПРОМЫШЛЕННОСТЬ | 2 | 0.1 |
| ЭКОЛОГИЯ, ЗАЩИТА ОКРУЖАЮЩЕЙ СРЕДЫ | 1 | 0.1 |
| ЭНЕРГЕТИЧЕСКАЯ ПРОМЫШЛЕННОСТЬ | 25 | 1.6 |
| ЮРИСПРУДЕНЦИЯ | 11 | 0.7 |
Данная переменная даст объективные результаты при анализе, так как распределение респондентов по регионам относительно равномерное. Каждый регион включает в себя от 4 до 9,6% респондентов, за исключением Москвы. Число опрошенных, проживающих в Москве, составляет 18,1%.
| Var1 | Freq | percentage |
|---|---|---|
| Владивосток | 135 | 6.5 |
| Казань | 125 | 6.0 |
| Краснодар | 160 | 7.7 |
| Красноярск | 122 | 5.9 |
| Курган | 91 | 4.4 |
| Липецк | 156 | 7.5 |
| Москва | 376 | 18.1 |
| Нижний Новгород | 152 | 7.3 |
| Санкт-Петербург | 199 | 9.6 |
| Саратов | 118 | 5.7 |
| Смоленск | 83 | 4.0 |
| Томск | 96 | 4.6 |
| Тула | 132 | 6.4 |
| Челябинск | 130 | 6.3 |
Доля респондентов, относящих себя к определенной конфессии, составляет 70.8%. Также стоит отметить, что 81.3% индивидов исповедуют “Православие”, 12.2% являются атеистами и 5.2% исповедуют “Мусульманство”.
Доля женщин и мужчин в рассматриваемой выборке одинакова
Мы сделали Классификацию заболеваний на три категории :
Стоит отметить, что категории 2 и 3 относятся только к женщинам.
Также добавлены отдельно заболевания, которые могут оказать сильное влияние на решение о беременности отдельно:
С помощью научных статей и информации из сети мы распределили все наши данные по заболеваниям среди вышеуказанных категорий.Сделали описательную статистику.
По итогам нашей описательной статистики мы получили следующие выводы.
Мы получили, что 8% женщин подвержены подобным заболеваниям.
Всего 0,6% женщин и мужчин болеют онкологией в нашей выборке.
У 0,5% мужчин и женщин был сердечный приступ.
0,3% людей перенесли инсульт.
0,3% женщин и мужчин болели туберкулезом.
7,7% людей подвержены нервным расстройствам и депрессиям в нашей выборке.
45,1% людей имеют болезни, которые передаются по наследству будущим детям. То есть все-таки большая часть респондентов не имеет заболеваний, которые передаются по наследству.
36,5% женщин имеют заболевания, которые оказывают влияние на беременность.
31,6% женщин имеют болезни, которые могут стать причиной для прерывания беременности.
Переменная отражает, как часто индивид посещает врача в течение года. Один раз в месяц, или же несколько раз в месяц посещают врача лишь 6% респондентов, 1-3 раза в год обращаются к врачу 66,1% индивидов, остальные 27,9% посещают врача реже 1 раза в год.
Переменная является оценкой собственного здоровья индивида, где 1 - очень плохое, а 5 - очень хорошее состояние здоровья. Данные показывают, что 54,9% оценивают свое состояние как хорошее и очень хорошее, 41,6% - как удовлетворительное и лишь 3,5% респондентов расценивают свое здоровье как плохое и совсем плохое.
Переменная является оценкой собственного здоровья индивида, где 1 - очень плохое, а 5 - очень хорошее состояние здоровья. Данные показывают, что 54,9% оценивают свое состояние как хорошее и очень хорошее, 41,6% - как удовлетворительное и лишь 3,5% респондентов расценивают свое здоровье как плохое и совсем плохое.
Наиболее интересными являются зависимости между переменными, такие как категория основной работы и заработная плата, или наличие работы и возраст индивида. Данных зависимостей достаточно много в данных, поэтому представим наиболее интересные из них:
Данные соответствуют вопросу, потому что данные в зависимой переменной (количество детей) распределены относительно равномерно. Отобрано достаточно критических переменных для объяснения влияния различных характеристик индивида на количество имеющихся у него детей. Влияющая переменная(предиктор)- размер заработной платы также распределена равномерно. Выбросы во всех переменных были изменены на “NA” данные и определено, какие переменные наиболее значимы для предстоящего анализа.
На основании разведывательного анализа данных выделили ключевые группы факторов, которые могут повлиять на количество детей и соответственно должны быть включены в модель множественной регрессии:
пол, возраст, регион проживания и религия
характеристики образования индивида
характеристики работы индивида
характеристики семейного статуса
характеристики жилья
субъективная удовлетворенность от жизни и материального положения
самооценка здоровья и наличие болезней
Мы предполагаем, что:
Индивиды, состоящие в браке, больше склонны заводить детей, чем те, кто не обладает брачным статусом.
Сфера работы индивида практически не влияет на количество детей.
Наличие хронических болезней значимо влияет на желание индивидов заводить детей.
Размер заработной платы положительно коррелирует с количеством детей, но только до определенного уровня.
Женщины предпочитают заводить детей после 30 лет.
Наличие работы существенно влияет на наличие детей.