Необходимые ссылки на источники (литературу или данные)
Ссылки на необходимые онлайн-приложения (наборы данных, неформатные таблицы или графики и т.п.)
Позднее материнство является набирающей популярность тенденцией в современном мире. Согласно данным Министерства труда РФ средний возраст рождения первенца в России ежегодно “сдвигается в более старшую возрастную когорту”, сейчас он составляет в среднем 28 лет, к 2030 году прогнозируют появление первого ребенка у женщин 30-летнего возраста. Считается, что отложенное материнство связано с расширением карьерных возможностей для женщин. Действительно, в развитых странах все чаще проблемой становится выбор между деторождением с одной стороны и реализацией в профессиональной деятельности и стремлением к высокому заработку - с другой. Можно предположить, что молодые люди нацелены на, чтобы обеспечить достойное существование себе и своим детям, а для того, чтобы претворить “мечты” в жизнь, необходим соответствующий уровень дохода.
В данной работе мы хотим выяснить, влияет ли устойчивое материальное положение, в частности размер заработной платы, на количество детей. Наш вопрос основан на следующей логике: с одной стороны, чем больше доход человека, тем больше детей в своей семье он может обеспечить материально, и в таком случае, зависимость количества детей от заработной платы должна быть положительной; с другой стороны, люди, которые много зарабатывают, больше времени и внимания уделяют своему карьерному развитию, следовательно, для них рождение детей будет не в приоритете.
Таким образом, изучение влияние размера заработной платы на количество детей в современных реалиях требует должного внимания.
Для изучения поставленного исследовательского вопроса мы использовали данные 29-й волны (2020 год) ежегодного Российского мониторинга экономического положения и здоровья населения (РМЭЗ) НИУ ВШЭ. В качестве выборочной совокупности мы рассматривали индивидов женского пола от 18 до 49 лет и индивидов мужского пола от 18 до 55 лет (общепризнанный репродуктивный возраст для мужчин и женщин), проживающих в крупных городах России (с населением более 250 000 человек).
Зависимой переменной в данной работе является количество детей. В качестве основного регрессора выступает средняя заработная плата за 5 лет. Важно отметить, что для вычисления значений данной переменной мы обращались к результатам 25-й, 26-й, 27-й, 28-й и 29-й волн, что соответствует опросам, проводимым с 2016 по 2020 годы.
Ссылка на диск с таблицей изначальных данных и список переменных:
В процессе работы с данными мы проделали следующие действия:
После окончательной корректировки были получены данные:
На данном этапе мы вычислили описательные статистики всех переменных (минимальное и максимальное значение, среднее по выборке и стандартное отклонение для количественных переменных, также определили процентное и количественное распределение ответов по категориальным переменным) и визуализировали результаты в виде графиков (гистограмм, графиков плотности распределения и boxplot). Мы начали анализ данных с нашей зависимой переменной -количества детей.
Количество детей является зависимой переменной. Сделав описательную таблицу по данной переменной,мы выяснили,что среднее значение переменной “количество детей” равняется 1. В таблице указано значение 1,65. Принимая во внимание,что значение количества детей является целым числом, мы берем значение 1.
Далее мы рассмотрели главный регрессор заработную плату. Сперва нам надо было удалить выбросы,что мы сделали благодаря графику boxplot для наглядности и формуле МКР для удаления выбросов. В итоге мы получили среднюю заработную плату за последние 5 лет,медиана которой равна 28 333 рублей. Минимальная ЗП равна 1200 рублей, а максимальная 62 150 рублей.
Затем мы обратились к переменной возраст. Средний возраст составил 35,36 лет. Также мы проанализировали средний возраст среди мужчин и женщин. В нашей выборке средний возраст среди мужчин 36,39 лет, в то время как у женщин - 34,34 года.
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| X1 | 1 | 1443 | 43.57658 | NA | 40 | 42.31429 | 0 | 3 | 168 | 165 | 2.247337 | 16.01844 | 0.3009003 |
Очень малая часть респондентов (около 7 %) не оформлены официально. Такая разница в распределении впоследствии может сделать менее значимыми результаты анализа с использованием данной переменной.
| Var1 | Freq | percentage |
|---|---|---|
| И да, и нет | 428 | 20.7 |
| Не очень удовлетворены | 761 | 36.8 |
| Полностью удовлетворены | 21 | 1.0 |
| Скорее удовлетворены | 327 | 15.8 |
| Совсем не удовлетворены | 531 | 25.7 |
| Категория(номер) | Значение |
|---|---|
| 1 | Совсем не удовлетворены |
| 2 | Не очень удовлетворены |
| 3 | И да, и нет |
| 4 | Скорее удовлетворены |
| 5 | Полностью удовлетворены |
Переменная показывает, проживает ли индивид вместе с партнером/партнершей, не регистрируя свои отношения. 72,3% опрашиваемых не живут с партнером/партнершей, 24% проживают вместе со своим партнёром и считают себя мужем и женой, и 3,7% людей живут вместе, но не считают себя супругами. Для удобства при анализе мы решили объединить два последних ответа в один - Да, индивид проживает вместе с партнёром/партнёршей. В данном случае мы можем игнорировать различия в этих переменных, так как у нас есть отдельная переменная описывающая брачный статус.
По данному распределению видно, что в большинство респондентов имеют законченное среднее или высшее образование. Очень малая доля имеет незаконченное среднее образование или только 6 классов. Будет наиболее эффективно использовать данную переменную для сравнения индивидов с законченным высшим или средним образованием.
| Var1 | Freq | percentage |
|---|---|---|
| законченное высшее образование и выше | 827 | 39.9 |
| законченное среднее образование | 498 | 24.0 |
| законченное среднее специальное образование | 573 | 27.7 |
| незаконченное среднее образование (7 - 8 кл) | 16 | 0.8 |
| незаконченное среднее образование (7 - 8 кл) + что-то еще | 155 | 7.5 |
| окончил 0 - 6 классов | 2 | 0.1 |
91.1% всех респондентов по национальности относят себя к русским. Остальные национальности представлены в значительно меньшем количестве. Можно предположить, что данная переменная не принесет значимых результатов при анализе.
Большинство респондентов (72.6%) на момент опроса работают. Мы считаем, что для анализа будет наиболее эффективно использовать ответы “Вы находитесь в отпуске - декретном или по уходу за ребенком до 3-х лет”, “Вы сейчас работаете”, “Или у Вас сейчас нет работы”, так как оставшиеся категории представлены лишь 2-мя респондентами.
Данная переменная демонстрирует процентное распределение индивидов по областям, в которых они работают. Самое большое количество респондентов работает а торговле (29,9%). В области транспорта и связи работает 10,7%. На остальные области приходится от 0,1 до 7,9 % респондентов .
| Var1 | Freq | percentage |
|---|---|---|
| IT, ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ | 15 | 1.0 |
| АРМИЯ, МВД, ОРГАНЫ БЕЗОПАСНОСТИ | 75 | 4.8 |
| ВОЕННО-ПРОМЫШЛЕННЫЙ КОМПЛЕКС | 26 | 1.7 |
| ГРАЖДАНСКОЕ МАШИНОСТРОЕНИЕ | 48 | 3.1 |
| ДЕРЕВООБРАБАТЫВАЮЩАЯ ПРОМЫШЛЕННОСТЬ, ЛЕСНОЕ ХОЗЯЙСТВО | 3 | 0.2 |
| ДРУГАЯ ОТРАСЛЬ ТЯЖЕЛОЙ ПРОМЫШЛЕННОСТИ | 61 | 3.9 |
| ЖИЛИЩНО-КОММУНАЛЬНОЕ ХОЗЯЙСТВО | 49 | 3.1 |
| ЗДРАВООХРАНЕНИЕ | 79 | 5.0 |
| ЛЕГКАЯ, ПИЩЕВАЯ ПРОМЫШЛЕННОСТЬ | 73 | 4.7 |
| НАУКА, КУЛЬТУРА | 40 | 2.6 |
| НЕФТЕГАЗОВАЯ ПРОМЫШЛЕННОСТЬ | 32 | 2.0 |
| ОБРАЗОВАНИЕ | 123 | 7.9 |
| ОПЕРАЦИИ С НЕДВИЖИМОСТЬЮ | 8 | 0.5 |
| ОРГАНЫ УПРАВЛЕНИЯ | 22 | 1.4 |
| РЕКЛАМА, МАРКЕТИНГ | 12 | 0.8 |
| СЕЛЬСКОЕ ХОЗЯЙСТВО | 7 | 0.4 |
| СМИ, ИЗДАТЕЛЬСТВО, ПЕЧАТЬ, ТЕЛЕКОММУНИКАЦИИ | 14 | 0.9 |
| СОЦИАЛЬНОЕ ОБСЛУЖИВАНИЕ | 5 | 0.3 |
| СПОРТ, ТУРИЗМ, РАЗВЛЕЧЕНИЯ | 14 | 0.9 |
| СТРОИТЕЛЬСТВО | 111 | 7.1 |
| ТОРГОВЛЯ, БЫТОВОЕ ОБСЛУЖИВАНИЕ | 468 | 29.9 |
| ТРАНСПОРТ, СВЯЗЬ | 168 | 10.7 |
| УСЛУГИ НАСЕЛЕНИЮ | 18 | 1.1 |
| ФИНАНСЫ | 56 | 3.6 |
| ХИМИЧЕСКАЯ ПРОМЫШЛЕННОСТЬ | 2 | 0.1 |
| ЭКОЛОГИЯ, ЗАЩИТА ОКРУЖАЮЩЕЙ СРЕДЫ | 1 | 0.1 |
| ЭНЕРГЕТИЧЕСКАЯ ПРОМЫШЛЕННОСТЬ | 25 | 1.6 |
| ЮРИСПРУДЕНЦИЯ | 11 | 0.7 |
Данная переменная даст объективные результаты при анализе, так как распределение респондентов по регионам относительно равномерное. Каждый регион включает в себя от 4 до 9,6% респондентов, за исключением Москвы. Число опрошенных, проживающих в Москве, составляет 18,1%.
| Var1 | Freq | percentage |
|---|---|---|
| Владивосток | 135 | 6.5 |
| Казань | 125 | 6.0 |
| Краснодар | 160 | 7.7 |
| Красноярск | 122 | 5.9 |
| Курган | 91 | 4.4 |
| Липецк | 156 | 7.5 |
| Москва | 376 | 18.1 |
| Нижний Новгород | 152 | 7.3 |
| Санкт-Петербург | 199 | 9.6 |
| Саратов | 118 | 5.7 |
| Смоленск | 83 | 4.0 |
| Томск | 96 | 4.6 |
| Тула | 132 | 6.4 |
| Челябинск | 130 | 6.3 |
Доля респондентов, относящих себя к определенной конфессии, составляет 70.8%. Также стоит отметить, что 81.3% индивидов исповедуют “Православие”, 12.2% являются атеистами и 5.2% исповедуют “Мусульманство”.
Доля женщин и мужчин в рассматриваемой выборке одинакова
Мы сделали Классификацию заболеваний на три категории :
Стоит отметить, что категории 2 и 3 относятся только к женщинам.
Также некоторые значимые заболевания были включены в перменные, перечисленные выше:
Добавлена переменная психологические заболевания.
С помощью научных статей и информации из сети мы распределили все наши данные по заболеваниям среди вышеуказанных категорий.Сделали описательную статистику.
По итогам нашей описательной статистики мы получили следующие выводы.
Мы получили, что 8% женщин подвержены подобным заболеваниям.
7,7% людей подвержены нервным расстройствам и депрессиям в нашей выборке.
45,1% людей имеют болезни, которые передаются по наследству будущим детям. То есть все-таки большая часть респондентов не имеет заболеваний, которые передаются по наследству.
31,6% женщин имеют болезни, которые могут стать причиной для прерывания беременности.
Переменная отражает, как часто индивид посещает врача в течение года. Один раз в месяц, или же несколько раз в месяц посещают врача лишь 6% респондентов, 1-3 раза в год обращаются к врачу 66,1% индивидов, остальные 27,9% посещают врача реже 1 раза в год.
Данные соответствуют вопросу, потому что данные в зависимой переменной (количество детей) распределены относительно равномерно. Отобрано достаточно критических переменных для объяснения влияния различных характеристик индивида на количество имеющихся у него детей. Влияющая переменная(предиктор)- размер заработной платы также распределена равномерно. Выбросы во всех переменных были изменены на “NA” данные и определено, какие переменные наиболее значимы для предстоящего анализа.
На основании разведывательного анализа данных выделили ключевые группы факторов, которые могут повлиять на количество детей и соответственно должны быть включены в модель множественной регрессии:
пол, возраст, регион проживания и религия
характеристики образования индивида
характеристики работы индивида
характеристики семейного статуса
характеристики жилья
субъективная удовлетворенность от жизни и материального положения
самооценка здоровья и наличие болезней
Мы предполагаем, что:
Индивиды, состоящие в браке, больше склонны заводить детей, чем те, кто не обладает брачным статусом.
Сфера работы индивида практически не влияет на количество детей.
Наличие хронических болезней значимо влияет на желание индивидов заводить детей.
Размер заработной платы положительно коррелирует с количеством детей, но только до определенного уровня.
Женщины предпочитают заводить детей после 30 лет.
Наличие работы существенно влияет на наличие детей.