Команда №4
Наталья Добрецова БЭК-196
Ольга Коробанова БЭК-195
Eлизавета Богданова БЭК-196
Полина Лобач БЭК-196
Ксения Ковылёва БЭК-196
Анастасия Кошевых БЭК-196




Санкт-Петербург, 2021




Содержание

  1. Вводная часть, описывающая постановку и обоснование вопроса
  2. Описание данных, разведанализ данных
  1. Формулировка и обоснование модели или моделей
  2. Ожидаемые результаты
  3. Результаты регрессионного анализа
  4. Анализ результатов, включая результаты проведения статистических тестов или других необходимых процедур
  5. Ответ на содержательный вопрос в рамках проведенного анализа, при необходимости сопровождаемый уместной визуализацией результатов или аналитическими выкладками на основе проведенного анализа
  6. Критический анализ полученных результатов, анализ ограничений исследования
  7. Дискуссионная часть с предложениями по возможному расширению исследования
  8. Заключение
  9. Оценка вкладов членов команды в групповую работу
  10. Литературные источники и данные

Приложение с кодами

Необходимые приложения с техническими результатами



1.Вводная часть, описывающая постановку и обоснование вопроса


Позднее материнство является набирающей популярность тенденцией в современном мире. Согласно данным Министерства труда РФ средний возраст рождения первенца в России ежегодно “сдвигается в более старшую возрастную когорту”, сейчас он составляет в среднем 28 лет, к 2030 году прогнозируют появление первого ребенка у женщин 30-летнего возраста. Считается, что отложенное материнство связано с расширением карьерных возможностей. Действительно, в развитых странах все чаще проблемой становится выбор между деторождением с одной стороны и реализацией в профессиональной деятельности и стремлением к высокому заработку - с другой. Можно предположить, что молодые люди нацелены на то, чтобы обеспечить достойное существование себе и своим детям, а для этого необходим соответствующий уровень дохода, поэтому, рождение детей откладывается на поздний период и может не произойти.


Действительно, с 2015 года в России наблюдается стабильное сокращение рождаемости [1] : согласно данным Счетной палаты, суммарный коэффициент рождаемости в 2020 году в России снизился до 1,489 против 1,78 в 2015 году. По оценке экспертов для сохранения численности населения на одном уровне нужен суммарный коэффициент рождаемости около 2,1 рождений на женщину в течение жизни, но рождаемость в России не достигает этого уровня [2].


Также мы решили обратиться к научным публикациям, чтобы выяснить как данная тема исследовалась ранее. В своей работе «Анализ факторов рождаемости: что говорят данные РМЭЗ НИУ ВШЭ?» Журавлева Т.Л. и Гаврилова Я.А. [3], анализируя данные за 1994-2014 года, приходят к выводу, что семейные ценности в российском обществе претерпевают изменения и приближаются к европейским, количество детей в семьях сокращается, женщины склонны уделять большее внимание формированию своей карьеры и откладывают рождение детей на более позднее время. Выводы работы говорят о том, что на рождаемость оказывают влияние такие социальные факторы, как: наличие партнера, отсутствие детей, проживание в сельской местности и проживание с другими родственниками. Экономические же факторы не играют важной роли при принятии решения о зачатии. Также стоит отметить, что работающие женщины с высшим образованием реализуют свои репродуктивные планы в меньшей степени, и если государство стремится увеличить рождаемость, то ему следует сделать условия труда для женщин более гибкими, а не пытаться воздействовать на фертильность финансовыми мерами.


Так как в статье рассматривались данные за 1994-2014 года, на данный момент вопрос о факторах, влияющих на рождаемость может считаться актуальным, анализ новых данных покажет нынешнее положение в России, его изменение или же сохранение прежних тенденций.


В нашей работе мы хотим выяснить, влияет ли в настоящее время устойчивое материальное положение, в частности размер заработной платы, на количество детей. Наш вопрос основан на следующей логике: с одной стороны, чем больше доход человека, тем больше детей в своей семье он может обеспечить материально, и в таком случае, зависимость количества детей от заработной платы должна быть положительной; с другой стороны, люди, которые много зарабатывают, больше времени и внимания уделяют своему карьерному развитию, следовательно, для них рождение детей будет не в приоритете.


Результаты нашей работы позволят определить, каким образом можно повлиять на изменение демографической ситуации в стране. Таким образом, изучение влияние размера заработной платы на количество детей в современных реалиях требует должного внимания.





2. Описание данных, разведанализ данных


Для изучения поставленного исследовательского вопроса мы использовали данные 29-й волны (2020 год) ежегодного Российского мониторинга экономического положения и здоровья населения (РМЭЗ) НИУ ВШЭ. В качестве выборочной совокупности мы рассматривали индивидов женского пола от 18 до 49 лет и индивидов мужского пола от 18 до 55 лет (общепризнанный репродуктивный возраст для мужчин и женщин), проживающих в крупных городах России (с населением более 250 000 человек).


Зависимой переменной в данной работе является количество детей. В качестве основного регрессора выступает средняя заработная плата за 5 лет. Важно отметить, что для вычисления значений данной переменной мы обращались к результатам 25-й, 26-й, 27-й, 28-й и 29-й волн, что соответствует опросам, проводимым с 2016 по 2020 годы.


Ссылка на диск с таблицей изначальных данных и список переменных:

Ссылка на данные


В процессе работы с данными мы проделали следующие действия:

После окончательной корректировки были получены данные:

Ссылка на данные

Описательные характеристики данных предоставлены в приложении: 1



2.1. Разведывательный анализ данных

На данном этапе мы вычислили описательные статистики всех переменных (минимальное и максимальное значение, среднее по выборке и стандартное отклонение для количественных переменных, также определили процентное и количественное распределение ответов по категориальным переменным) и визуализировали результаты в виде графиков (гистограмм, графиков плотности распределения и boxplot). Мы начали анализ данных с нашей зависимой переменной -количества детей.


Количество детей (children_number)

Количество детей является зависимой переменной. Сделав описательную таблицу по данной переменной,мы выяснили,что среднее значение переменной “количество детей” равняется 1. В таблице указано значение 1,65. Принимая во внимание,что значение количества детей является целым числом, мы берем значение 1.

Таблица: 2 График: 3


Средняя заработная плата (salary_avg5)

Далее мы рассмотрели главный регрессор заработную плату. Сперва нам надо было удалить выбросы,что мы сделали благодаря графику boxplot для наглядности и формуле МКР для удаления выбросов. В итоге мы получили среднюю заработную плату за последние 5 лет,медиана которой равна 27 500 рублей. Минимальная ЗП равна 1200 рублей, а максимальная 69 500 рублей.

Таблица: 4


Возраст (age)

Затем мы обратились к переменной возраст. Средний возраст составил 35,36 лет. Также мы проанализировали средний возраст среди мужчин и женщин. В нашей выборке средний возраст среди мужчин 36,39 лет, в то время как у женщин - 34,34 года.

Таблицы стастистики: 5

График: 6


Работает ли официально, кол-во и процентное распределение ответов (workContract)

Очень малая часть респондентов (около 7 %) не оформлены официально. Такая разница в распределении впоследствии может сделать менее значимыми результаты анализа с использованием данной переменной.

Таблица:7


Насколько удовлетворён материальным положением, по возрастанию,кол-во и процентное распределение ответов (incomeSatisfaction)

Ситуация с удовлетворённостью материальным положением значительно отличается от распределения ответов об удовлетворённости жизнью. Всего 1% респондентов полностью удовлетворены материальным положением, однако 1/4 часть опрошенных совсем не удовлетворены материальным положением.

Относительное и абсолютное распределение индивидов по критерию удовлетворенности доходом
Var1 Freq percentage
1 531 25.7
2 761 36.8
3 428 20.7
4 327 15.8
5 21 1.0
Категория(номер) Значение
1 Совсем не удовлетворены
2 Не очень удовлетворены
3 И да, и нет
4 Скорее удовлетворены
5 Полностью удовлетворены

Общее описание данных о проживании с партнером (patnership)

Переменная показывает, проживает ли индивид вместе с партнером/партнершей, не регистрируя свои отношения. 72,3% опрашиваемых не живут с партнером/партнершей, 24% проживают вместе со своим партнёром и считают себя мужем и женой, и 3,7% людей живут вместе, но не считают себя супругами. Для удобства при анализе мы решили объединить два последних ответа в один - Да, индивид проживает вместе с партнёром/партнёршей. В данном случае мы можем игнорировать различия в этих переменных, так как у нас есть отдельная переменная описывающая брачный статус.

Таблица:8


Общее описание распределения респондентов по уровню образования (completed_education)

По данному распределению видно, что большинство респондентов имеют законченное среднее или высшее образование. Очень малая доля имеет незаконченное среднее образование или только 6 классов. Будет наиболее эффективно использовать данную переменную для сравнения индивидов с законченным высшим или средним образованием.

Относительное и абсолютное распределение индивидов по критерию “уровень образования”
Var1 Freq percentage
законченное высшее образование и выше 827 39.9
законченное среднее образование 498 24.0
законченное среднее специальное образование 573 27.7
незаконченное среднее образование (7 - 8 кл) 16 0.8
незаконченное среднее образование (7 - 8 кл) + что-то еще 155 7.5
окончил 0 - 6 классов 2 0.1

Общее описание распределения респондентов по принадлежности к определенной национальности (nationality )

91.1% всех респондентов по национальности относят себя к русским. Остальные национальности представлены в значительно меньшем количестве. Можно предположить, что данная переменная не принесет значимых результатов при анализе.

Таблица:9


Общее описание распределения респондентов по роду основной деятельности (main_activity)

Большинство респондентов (72.6%) на момент опроса работают. Мы считаем, что для анализа будет наиболее эффективно использовать ответы “Вы находитесь в отпуске - декретном или по уходу за ребенком до 3-х лет”, “Вы сейчас работаете”, “Или у Вас сейчас нет работы”, так как оставшиеся категории представлены лишь 2-мя респондентами. Таблица:10


Общее описание распределения респондентов по региону проживания (region)

Данная переменная даст объективные результаты при анализе, так как распределение респондентов по регионам относительно равномерное. Каждый регион включает в себя от 4 до 9,6% респондентов, за исключением Москвы. Число опрошенных, проживающих в Москве, составляет 18,1%.

Относительное и абсолютное распределение индивидов по критерию “Регион проживания”
Var1 Freq percentage
Владивосток 135 6.5
Казань 125 6.0
Краснодар 160 7.7
Красноярск 122 5.9
Курган 91 4.4
Липецк 156 7.5
Москва 376 18.1
Нижний Новгород 152 7.3
Санкт-Петербург 199 9.6
Саратов 118 5.7
Смоленск 83 4.0
Томск 96 4.6
Тула 132 6.4
Челябинск 130 6.3

Общее описание распределения респондентов по принадлежности к религии (religion)

81.3% индивидов исповедуют “Православие”, 12.2% являются атеистами и 5.2% исповедуют “Мусульманство”.

Таблица:11


Общее описание распределения респондентов по полу (gender)

Доля женщин и мужчин в рассматриваемой выборке одинакова

Таблица:12


Болезни

Мы сделали Классификацию заболеваний на три категории :

  • Заболевания, которые передаются по наследству и соответственно могут повлиять на принятие решения о ребенке;
  • Заболевания, которые могут существенно повлиять на течение беременности, соответственно вызвать патологии и сильно влияют на принятие решения;
  • Заболевания, которые могут стать причиной прерывания беременности.

Стоит отметить, что категории 2 и 3 относятся только к женщинам.

Также некоторые значимые заболевания были включены в перменные, перечисленные выше:

  • онкология,
  • гинекологические заболевания,
  • инсульт,
  • инфаркт,
  • туберкулез,

Добавлена переменная психологические заболевания.

С помощью научных статей и информации из сети мы распределили все наши данные по заболеваниям среди вышеуказанных категорий.Сделали описательную статистику.

По итогам нашей описательной статистики мы получили следующие выводы.


Заболевания, которые могут повлиять на репродуктивную системы только женщин (reproductive_diseases)

Мы получили, что 8% женщин подвержены подобным заболеваниям.

Таблица:13


Серьезные нервные расстройства, депрессии (mental_diseases)

7,7% людей подвержены нервным расстройствам и депрессиям в нашей выборке.

Таблица:14


Болезни передающиеся по наследству (hereditary)

45,1% людей имеют болезни, которые передаются по наследству будущим детям. То есть все-таки большая часть респондентов не имеет заболеваний, которые передаются по наследству.

Таблица:15


Болезни, которые могут стать причиной прерывания беременности (termination_pregnancy)

31,6% женщин имеют болезни, которые могут стать причиной для прерывания беременности.

Таблица:16


Общее описание распределения респондентов по частоте проверки здоровья (health_monitoring)

Переменная отражает, как часто индивид посещает врача в течение года. Один раз в месяц, или же несколько раз в месяц посещают врача лишь 6% респондентов, 1-3 раза в год обращаются к врачу 66,1% индивидов, остальные 27,9% посещают врача реже 1 раза в год.

Таблица:17




2.2. Основные зависимости между данными

1. По данному графику можно сделать предварительные выводы о влиянии заработной платы индивида на количество у него детей.


У людей с самой низкой заработной платой (до 5 тыс. руб/мес.) чаще чем у других есть 4 или 5 детей (в 25% случаев), а в остальных случаях они имеют только 1 ребёнка. Здесь также стоит отметить, что 4 и 5 детей встречается также у людей с заработными платами выше 10тыс. руб/мес, но уже реже.


Поскольку на данном графике мы не делили индивидов по половому признаку, и не объединяли в домохозяйства, можно сделать вывод, что такое разделение в зарплатах у людей с большим количеством детей происходит из-за того, что один родитель уделяет большую часть времени воспитанию детей, а второй - материальному обеспечению семьи.


Можно отметить что с увеличением зарплаты с 10 до 25 и с 30 до 50 тыс. руб/мес. люди всё чаще имеют одного ребёнка, вместо двух. А с последующим увеличение зарплаты с 25 до 35 и с 50 тыс. руб/мес. частота наличия двух детей у индивида возрастает по отношению к частоте наличия одного ребёнка. 3 ребёнка чаще всего встречается у индивидов с заработной платой от 5 000 до 10 000 руб/мес. , от 25 до 35 000 руб/мес., от 50 000 до 55 000 руб/мес. или от 60 000 руб/мес.


По данным этого графика сложно сделать однозначные выводы о зависимости количества детей от заработной платы индивида.




  1. По данному графику можно проследить зависимость количества детей у индивида от его брачного статуса.


Во-первых, с увеличением количества детей от 1 до 3-х увеличивается относительная частота индивидов, состоящих в зарегистрированном браке (примерно с 63 до 80%). Для индивидов с 4-мя детьми эта частота резко снижается примерно до 65%.


Во-вторых, индивиды имеющие 5 и более детей в 100% случаев состоят в зарегистрированном браке.




3. На данном графике мы проверили зависимость между наличием наследственного заболевания у родителей и количеством рожденных детей.


Если у респондента 1-4 ребенка, наследственное заболевание не оказывает влияния, так как примерно одинаковое соотношение людей с таким количеством детей имеют/не имеют заболевания, передающиеся по наследству. Также мы можем видеть интересную зависимость: у людей, у которых 5 и 7 детей, нет наличия наследственного заболевания, а люди с 6 детьми все имеют наследственные заболевания. Это объясняется тем, что в нашей выборке маленькое количество респондентов, имеющих 5-7 детей(всего 8 респондентов).

Таблица распределения индивидов по количеству детей:18





3. Формулировка и обоснование модели

Предварительная формулировка модели

Для тестирования выдвинутых гипотез и проверки влияния заработной платы на количество детей мы построили следующую регрессионную модель:

\(children \_number^{1/2} = β_0+β_1*region+β_2*marital\_status+β_3*age+β_4*age^{2}+β_5*completed\_education+β_6*gender+\)

\(β_7*mainactivity+β_8*incomeSatisfaction+β_9*health\_monitoring+β_{10}*termination\_pregnancy+β_{11}*salary\_avg5+β_{12}*salary\_avg5^{2}\)

Мы включили в модель 8 категориальных переменных:

  • город проживания

  • брачный статус

  • уровень образования

  • пол

  • наличие работы

  • удовлетворенность материальным положением

  • частота посещения врача

  • наличие болезней, прерывающих беременность

А также 2 количественные переменные:

  • возраст

  • заработная плата


Важно отметить, что для упрощения интерпретации оценок коэффициентов мы разбили переменную region, которая включает в себя 14 крупных городов, на три группы " dummy переменных" : города с высоким качеством жизни (Москва, Санкт-Петербург, Казань, Краснодар, Липецк), города со средним качеством жизни (Владивосток, Нижний Новгород, Смоленск, Тула, Челябинск) и города с низким качеством жизни (Красноярск, Курган, Саратов, Томск).


Кроме того, мы включили в модель нелинейные эффекты переменных “Возраст” и “Заработная плата”. Попробуем описать наши рассуждения и объяснить, почему мы решили построить квадратичную регрессию.


С точки зрения интуиции разумно предположить, что люди склонны заводить детей только до определенного возраста, так называемого пика, например 45 лет, затем репродуктивные функции организма угасают, соответственно, количество детей у индивидов тоже снижается. Как правило, женщина средних лет рожает лишь одного ребенка, либо вообще не задумывается о рождении малыша, так как становится слишком поздно.


Что касается заработной платы, то зависимость аналогичная. Когда доход индивида достигает определенного уровня, который позволяет содержать ребенка, семья задумывается о рождении первенца. Если заработная плата увеличивается, то индивиды могут позволить обеспечить уже двоих детей всем необходимым. Но положительная зависимость прослеживается только до определенного уровня заработной платы, после которого доход человека уже не влияет на принятие решения о ребенке.


Теперь обратимся к целочисленной зависимой переменной “Количество детей”. Чтобы избежать трудностей при интерпретации влияния объясняющих переменных, мы подвергли зависимую переменную нелинейному преобразованию: взяли квадратный корень, который позволяет проследить относительные изменения.


Ссылка на данные для построения модели

Рассмотрим взаимосвязь между количественными переменными с помощью теста корреляции Пирсона.

Коэффициенты корреляции для числовых переменных
X. Возраст Количество.детей Средняя.заработная.плата
Возраст 1.000 0.1160 0.1060
Количество детей 0.116 1.0000 0.0067
Средняя зработная плата 0.106 0.0067 1.0000

Коэффициент корреляции для переменных “Количество детей” и “Средняя заработная плата за 5 лет” равен всего 0,05, что практически не отличается от нуля, поэтому можно говорить о крайне слабой взаимосвязи связи между зависимой переменной и регрессором. Коэффициент корреляции для переменных “Количество детей” и “Возраст” равен 0,12, что также говорит о довольно слабой взаимосвязи между зависимой переменной и регрессором.





4. Ожидаемые результаты исследования

На основе предварительного анализа данных мы можем построить основное предположение:


Размер заработной платы положительно коррелирует с интенсивностью деторождения, но только до определённого уровня.


Кроме того, мы полагаем, что:




5. Результаты регрессионного анализа



Результаты регрессии
======================================================
                             Dependent variable:      
                       -------------------------------
                         Количество детей под корнем  
------------------------------------------------------
region3                 -0.0222638300 (0.0244996400)  
region2                -0.0437244300** (0.0215043000) 
marital_status1        0.1158670000*** (0.0215970000) 
age                    0.0563773100*** (0.0124854600) 
I(age2)                -0.0006357754*** (0.0001554683)
completed_education2   -0.0795621900** (0.0372868400) 
completed_education3   -0.0831028200** (0.0382656200) 
gender1                 -0.0008947622 (0.0221488200)  
main_activity1         -0.0849548900** (0.0356333800) 
incomeSatisfaction2      0.0136531400 (0.0241568300)  
incomeSatisfaction3      0.0158389200 (0.0284625500)  
incomeSatisfaction4      0.0284101700 (0.0320393600)  
incomeSatisfaction5     0.2529951000** (0.1092559000) 
health_monitoring2      -0.0788460900 (0.0541994800)  
health_monitoring3      -0.0200818400 (0.0245681200)  
health_monitoring4       0.0067123990 (0.0248451500)  
health_monitoring5      -0.0957211400 (0.0775488400)  
termination_pregnancy1  -0.0008171031 (0.0207082500)  
salary_avg5             -0.0000051365* (0.0000028259) 
I(salary_avg52)         0.0000000001* (0.0000000000)  
Constant                 0.2010034000 (0.2472703000)  
------------------------------------------------------
Observations                         940              
R2                              0.0853631000          
Adjusted R2                     0.0654580500          
Residual Std. Error        0.2815076000 (df = 919)    
F Statistic            4.2885150000*** (df = 20; 919) 
======================================================
Note:                      *p<0.1; **p<0.05; ***p<0.01

В данной таблице приведены результаты регрессионного анализа с использованием модели, описанной ранее. В таблице приведены коэффициенты при переменных и указана их значимость. Также приведены значения коэффициента детерминации и скорректированного коэффициента детерминации, по которым видно, что примерно 8,5% дисперсии объясняется влиянием независимых переменных.

Были произведены также рассчеты оценки стандартных ошибок: Таблица (оценка стандартных ошибок):19

6. Анализ результатов, включая результаты проведения статистических тестов или других необходимых процедур

Обратимся к основной объясняющей переменной нашей модели - заработной плате. Формула для нахождения расчета предельного эффекта выглядит следующим образом:

\[ ME = \frac{σ \sqrt{(children\_number)}}{ σ (salary\_avg5)} = β_{11} +2* β_{12}* salary\_avg5 \]

Здесь стоит отметить, что сначала предельный эффект мы рассчитываем для зависимой переменной (количества детей) под корнем . Это необходимо для построение доверительного интервала, зависящего только от средней заработной платы индивида за 5 лет (salary_avg5).


Для того чтобы определить на каком промежутке предельный эффект заработной платы для корня из детей значим, мы построили график с 80% доверительным интервалом. Можно увидеть, что предельный эффект для корня из детей значим при заработной плате меньше примерно 27000 рублей, при этом он является отрицательным. На отрезке от 27 000 до 50 000 рублей предельный эффект для корня из детей незначим, на данном промежутке происходит смена знака. При заработной плате более 50 000 рублей предельный эффект для корня из детей снова становится значимым, при этом он является положительным.


Далее нам необходимо рассчитать предельный эффект для зависимой переменной до преобразования - children_number. После преобразований мы получаем следующую формулу:

\[ ME = \frac{σ (children\_number)}{ σ (salary\_avg5)} = 2*β_{11}*\sqrt{(children\_number)} +4* β_{12}* salary\_avg5*\sqrt{(children\_number)} \]


Подставив значения коэффициентов, полученных при регрессионном анализе, получим следующее уравнение:

\[ ME = \frac{σ (children\_number)}{ σ (salary\_avg5)} = -0.000 010 273*\sqrt{(children\_number)} +0.0000000002742169* salary\_avg5*\sqrt{(children\_number)} \]


В этом случае предельный эффект от увеличения заработной платы зависит от количества детей, которое уже есть в семье на момент увеличения заработной платы. И логично предположить, что для человека с одном ребёнком и человека с тремя детьми увеличение заработной платы на одну и ту же величину в разной степени повлияет на вероятность рождения следующего ребёнка.




В нашей выборке есть данные об индивидах, имеющих от 1 до 7 детей. Зная это, мы рассчитываем предельные эффекты для каждого из семи вариантов количества детей в семье. Для индивидов, имеющих 1-го ребёнка, в уравнение предельного эффекта подставляем children_number=1 и получаем:

\[ ME = \frac{σ (children\_number)}{ σ (salary\_avg5)} = -0.000 010 273*\sqrt{(1)} +0.0000000002742169* salary\_avg5*\sqrt{(1)} \]


Для данной категории респондентов минимальной средней заработной платой является 1440 руб, а максимальной - 69500 руб.

По данному графику видно, как меняется предельный эффект от изменения заработной платы для индивидов, у которых уже есть 1 ребёнок. При росте заработной платы с 1440 рублей до 34 000 рублей изменение интенсивности деторождения для таких индивидов снижается. Далее при изменениях заработной платы с 34 000 рублей до 42 000 рублей данные индивиды не чувствительны к изменениям, и их решение о рождении детей никак не изменяется. А рост заработной платы с 42 000 рублей до 69 500 рублей уже положительно влияет на изменение интенсивности деторождения индивидов с одним ребёнком.




Аналогично для индивидов, имеющих 2-х детей, в уравнение предельного эффекта подставляем children_number=2 и получаем:

\[ ME = \frac{σ (children\_number)}{ σ (salary\_avg5)} = -0.000 010 273*\sqrt{(2)} +0.0000000002742169* salary\_avg5*\sqrt{(2)} \]


Для данной категории респондентов минимальной средней заработной платой является 5383 руб, а максимальной - 69400 руб.




Для индивидов, имеющих 3-х детей, получаем:

\[ ME = \frac{σ (children\_number)}{ σ (salary\_avg5)} = -0.000 010 273*\sqrt{(3)} +0.0000000002742169* salary\_avg5*\sqrt{(3)} \]


Для данной категории респондентов минимальной средней заработной платой является 6112 руб, а максимальной - 68250 руб.

По данному графику видно, как меняется предельный эффект от изменения заработной платы для индивидов, у которых уже есть трое детей. При росте заработной платы с 6 112 рублей до 35 000 рублей изменение интенсивности деторождения для таких индивидов снижается. Далее при изменениях заработной платы с 35 000 рублей до 39 000 рублей данные индивиды не чувствительны к изменениям, и их решение о рождении детей никак не изменяется. А рост заработной платы с 39 000 рублей до 68 250 рублей уже положительно влияет на интенсивность деторождения индивидов с тремя детьми.




Для индивидов, имеющих 4-х детей, получаем:


\[ ME = \frac{σ (children\_number)}{ σ (salary\_avg5)} = -0.000 010 273*\sqrt{(4)} +0.0000000002742169* salary\_avg5*\sqrt{(4)} \]


Для данной категории респондентов минимальной средней заработной платой является 2950 руб, а максимальной - 57500 руб.




Для индивидов, имеющих 5-х детей, получаем:

\[ ME = \frac{σ (children\_number)}{ σ (salary\_avg5)} = -0.000 010 273*\sqrt{(5)} +0.0000000002742169* salary\_avg5*\sqrt{(5)} \]


Для данной категории респондентов минимальной средней заработной платой является 4500 руб, а максимальной - 65800 руб.

По данному графику видно, как меняется предельный эффект от изменения заработной платы для индивидов, у которых уже есть пятеро детей. При росте заработной платы с 4 500 рублей до 36 000 рублей изменение интенсивности деторождения для таких индивидов снижается. Далее при увеличении заработной платы с 36 000 рублей до 38 000 рублей данные индивиды не чувствительны к изменениям, и их решение о рождении детей никак не изменяется. А рост заработной платы с 38 000 рублей до 65 800 рублей уже положительно влияет на интенсивность деторождения индивидов с пятью детьми.




Для индивидов, имеющих 6-х детей, получаем:

\[ ME = \frac{σ (children\_number)}{ σ (salary\_avg5)} = -0.000 010 273*\sqrt{(6)} +0.0000000002742169* salary\_avg5*\sqrt{(6)} \]


Для данной категории респондентов минимальной средней заработной платой является 10750 руб, а максимальной - 40000 руб.




Для индивидов, имеющих 7-х детей, получаем:

\[ ME = \frac{σ (children\_number)}{ σ (salary\_avg5)} = -0.000 010 273*\sqrt{(7)} +0.0000000002742169* salary\_avg5*\sqrt{(7)}\]


Для данной категории респондентов минимальной средней заработной платой является 20000 руб, а максимальной - 45000 руб.


Итак, сначала мы построили график предельного эффекта от изменении заработной платы для переменной children_number и проследили основную зависимость. Затем мы вычислили ряд предельных эффектов, чтобы узнать, как изменение заработной платы влияет на изменение интенсивности деторождения у индивидов, уже имеющих разное количество детей в семье. Общая тенденция такова: при увеличении заработной платы примерно до 37 000 руб. склонность людей заводить следующего ребёнка снижается, а при последующем росте заработной платы, эта склонность увеличивается. Причём чем дальше заработная плата индивида от значения 37 000 рублей, тем слабее предельный эффект, как положительный так и отрицательный. Кроме того, в районе 37 000 р. есть интервал, в котором изменение заработной платы не влияет на изменение интенсивности деторождения, то есть люди никак не изменят своё решение о рождении ребёнка при росте или падении заработной платы в этом диапазоне. И мы получили, что чем больше у индивида детей на момент изменения заработной платы, тем меньше этот интервал безразличия и, соответственно, больше чувствительность.



А теперь обратимся к описанию остальных регрессоров и их значимости. Такие факторы, как брачный статус, возраст, образование и наличие работы оказывают определенное влияние на количество детей.


Например, у людей, состоящих в браке интенсивность деторождения на 12% выше, чем у незамужних/неженатых (в среднем и при прочих равных условиях). Действительно, наличие мужа/супруги говорит об устойчивом социальном статусе и способности заботиться о другом человеке. Кроме того, наличие брака свидетельствует о желании людей создать подноценную семью, что предполает в будущем наличие как минимум одного ребенка.


Наличие работы отрицательно влияет на деторождение: у занятых индивидов данный показатель на 8% ниже (в среднем и при прочих равных условиях). Логично предположить, что работа лишает индивида большого количества свободного времени, которое, безусловно, требуется уделять будущему малышу.


У людей со средним и высшим образованием интенсивность деторождения примерно на 8% ниже, чем у людей с незаконченным средним образованием (в среднем и при прочих равных условиях). В данном случае также существенную роль играет время, которое необходимо уделять дальнейшей учебе. Данный факт препятствует рождению детей, которые требуют постоянного внимания.


Что касается удовлетворенности материальным положением, то коэффициент оказался значимым только в случае, если человек полностью удовлетворен своим достатком. Интенсивность деторождения у данных индивидов на 25% выше, чем у людей, которые совсем не удовлетворены материальным положением.


Коэффициенты же при болезнях, которые могут прервать беременность, оказались незначимы, хотя мы предполагали, что подобного рода болезни должны отрицательно влиять на интенсивность деторождения. Это могло произойти из-за того, что, во-первых, такие болезни относятся исключительно к женщинам, а значит, наша выборка сократилась в 2 раза, что могло повлиять на коэффициент. Во-вторых, в наших данных был ряд заболеваний различных органов, которые мы распределили на группы, в частности, на группу “болезни, которые влияют на прерывание беременности” (распределяли в соответствии с прочитанными медицинскими статьями). Однако, в наших данных не было определенных названий серьезных заболеваний, которые бы 100% прерывали беременность. Поэтому женщины из выборки могли иметь несерьезные заболевания, которые оказывали влияние на беременность, но не поддавались лечению и позволяли сохранить ребенка. Подводя итог, наше предположение о влиянии подобного рода заболеваний не подтвердилось результатами регрессии. Однако, теоретически, влияние должно было быть.


Коэффициенты при частоте обращения к врачу и городах проживания также оказались незначимыми. То есть по результатам регрессионного анализа данные факторы не влияют на интенсивность деторождения. Возможно, наши предположения об их влиянии не подтвердились из-за малочисленной выборки или других проблем.

7. Ответ на содержательный вопрос в рамках проведенного анализа

Таким образом, проведя регрессионный анализ, мы выяснили, что заработная плата, которая выступает в качестве главного регрессора, оказывает определенное влияние на интенсивность деторождения. При этом стоит отметить, что эффект изменения заработной платы неодинаков в зависимости от количества детей, которое уже есть у индивидов, и существующего уровня заработной платы.

Также в ходе исследования мы получили, что наиболее влиятельными оказались такие факторы, как брачный статус, возраст и уровень образования индивида.




8. Критический анализ полученных результатов, анализ ограничений исследования

Существует пять основных проблем, из-за которых может нарушаться внутренняя обоснованность исследования, основанного на оценке множественной регрессии:


  1. Пропущенные переменные.

Мы предполагаем, что на количество детей могут оказать влияния дополнительные факторы, которые сложно измерить и невозможно включить в модель. Например, пропаганда деторождения от правительства или личные установки и убеждения человека. Но, как нам кажется, все количественные и категориальные переменные, которые нам удалось найти по данным, и которые могут оказать влияние на наши результаты, включены в нашу модель.



  1. Неправильная спецификация функциональной формы.

Можно предположить, что в модель нужно было включить другие нелинейные эффекты, которые бы более точно отражали зависимость между объясняющими переменными и количеством детей.



  1. Ошибки измерения переменных (регрессоров).

Маловероятно, но все же ошибки или скорее неточности могли возникнуть в переменных заработная плата и брачный статус. К примеру, если некоторые респонденты указывали заработную плату, получаемую на официальном месте работы, имея при этом дополнительные доходы из других источников. Или же брачный статус как переменная в данном исследовании тоже могла иметь неточности, ведь респондент мог не состоять в браке на момент опроса, но иметь годы супружеской жизни до, в которой собственно и были рождены дети.



  1. Отбор наблюдений.

Что касается отбора наблюдений: несмотря на то, что выборка у нас случайная, на результаты исследования негативным образом могло повлиять малое число респондентов, имеющих более 2-3 детей.



  1. Одновременная причинность

Мы полагаем, что данная проблема практически не может влиять на валидность нашего исследования, так как количество детей не может оказать сильного влияния на заработную плату. Одновременная причинность отсутствует, МНК-оценка является несмещенной и состоятельной. Гипотетически, в отдельных случаях количество детей может являться причиной заработной платы, но будем считать данное влияние незначительным в нашей выборке.


Также мы предполагаем, что в нашем исследовании может возникнуть проблема с эндогенностью регрессоров. Например, в ошибке может быть переменная, которая связана с доходом(жилье, условия проживания). В данном случае нам нужно подобрать инструмент, который связан с доходом, но не связан с условиями проживания. В качестве такого инструмента мог бы выступить опыт работы человека. Мы считаем, что опыт работы имеет нелинейное влияние на доход индивида: до определённого количество лет, он имеет положительный эффект на доход, но с определённого момента начинает оказывать отрицательное влияние.



9. Дискуссионная часть с предложениями по возможному расширению исследования

Мы считаем, что в дальнейшем наше исследование можно расширить в нескольких направлениях.






10. Заключение

В ходе проведенного исследования было выявлено, что основными факторами, влияющими на интенсивность деторождения, являются брачный статус, возраст, наличие работы и уровень образования. Заработная плата в рассматриваемой выборке оказывает различное, при этом незначительное, влияние на интенсивность деторождения в зависимости от того, сколько детей уже есть у индивидов. Следовательно, материальное положение не играет существенной роли при принятии решения о том, чтобы завести ребенка.

Таким образом, если говорить о мерах государственной политики, то они должны быть направлены на популяризацию семейных ценностей, увеличение общего уровня жизни, а не на повышение материального положения граждан.

11. Оценка вкладов членов команды в групповую работу



В ходе работы над проектом мы на каждом этапе старались разделять обязанности между шестью участниками поровну, а над затруднительными вопросами работать совместно. Поэтому мы оцениваем вклад всех участников как одинаковый, равный 16,67% для каждого.



12.Литературные источники и данные

  1. Уровень рождаемости в России 2000-2019 г. Электронный ресурс URL:https://data.worldbank.org/indicator/SP.DYN.TFRT.IN?end=2019&locations=RU&start=2000&view=chart(Дата обращения 15.10.2021)

  1. Демография России: факторы влияния 2021 г. Электронный ресурс.URL: https://www.vedomosti.ru/press_releases/2021/06/23/demografiya-rossii-faktori-vliyaniya (Дата обращения 15.10.2021)

  1. Журавлева Т.Л., Гаврилова Я.А,Анализ факторов рождаемости в России: что говорят данные РМЭЗ НИУ ВШЭ? Монография. - Экономический журнал ВШЭ 2017. Т. 21 №1 С. 145-187

Приложение кода


Ссылка на файл кода в формате rmd


Приложение технических результатов



  1. Таблица описательных характеристик данных:
    Общее описаниее переменных данных
    popul region marital_status age completed_education gender nationality main_activity industry_of_work working_hours_per_week workHome workContract lifeSatisfaction incomeSatisfaction haveJob patnership children_number religion_ health_monitoring health_estimation salary_avg5 area loan reproductive_diseases oncology heart_attack stroke tuberculosis mental_diseases hereditary impact_pregnancy termination_pregnancy
    Min. : 326900 Length:2075 Length:2075 Min. :18.00 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Min. : 3.00 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Min. :1.000 Length:2075 Length:2075 Length:2075 Min. : 1200 Min. : 8.00 Min. : 300 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Min. :0.0000 Min. :0.0000 Min. :0.0000
    1st Qu.: 524700 Class :character Class :character 1st Qu.:28.00 Class :character Class :character Class :character Class :character Class :character 1st Qu.: 40.00 Class :character Class :character Class :character Class :character Class :character Class :character 1st Qu.:1.000 Class :character Class :character Class :character 1st Qu.:20000 1st Qu.:22.00 1st Qu.: 6000 Class :character Class :character Class :character Class :character Class :character Class :character 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000
    Median : 973800 Mode :character Mode :character Median :35.00 Mode :character Mode :character Mode :character Mode :character Mode :character Median : 40.00 Mode :character Mode :character Mode :character Mode :character Mode :character Mode :character Median :1.000 Mode :character Mode :character Mode :character Median :27500 Median :32.00 Median :10500 Mode :character Mode :character Mode :character Mode :character Mode :character Mode :character Median :0.0000 Median :0.0000 Median :0.0000
    Mean : 3255878 NA NA Mean :35.37 NA NA NA NA NA Mean : 43.58 NA NA NA NA NA NA Mean :1.652 NA NA NA Mean :29667 Mean :32.99 Mean :13670 NA NA NA NA NA NA Mean :0.4506 Mean :0.3663 Mean :0.3161
    3rd Qu.: 4879600 NA NA 3rd Qu.:43.00 NA NA NA NA NA 3rd Qu.: 48.00 NA NA NA NA NA NA 3rd Qu.:2.000 NA NA NA 3rd Qu.:37000 3rd Qu.:41.77 3rd Qu.:20000 NA NA NA NA NA NA 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.:1.0000
    Max. :12325400 NA NA Max. :55.00 NA NA NA NA NA Max. :168.00 NA NA NA NA NA NA Max. :7.000 NA NA NA Max. :69500 Max. :71.00 Max. :40000 NA NA NA NA NA NA Max. :1.0000 Max. :1.0000 Max. :1.0000
    NA NA NA NA NA NA NA NA NA NA’s :632 NA NA NA NA NA NA NA’s :849 NA NA NA NA’s :582 NA’s :101 NA’s :1546 NA NA NA NA NA NA NA NA NA
    ↩︎
  2. Таблица описательной статистики по количеству детей
    Общая описательная статистика по переменной “Количество детей”
    vars n mean sd median trimmed mad min max range skew kurtosis se
    X1 1 1226 1.651713 0.8252551 1 1.517312 0 1 7 6 1.687096 5.014261 0.0235691
    ↩︎
  3. График распределения индивидов по количеству детей ↩︎

  4. Таблица описательной статистики по средней заработной плате
    Общая описательная статистика по переменной “Средняя заработная плата за 5 лет”
    vars n mean sd median trimmed mad min max range skew kurtosis se
    X1 1 1493 29666.65 13550.37 27500 28555.51 12231.45 1200 69500 68300 0.7263096 0.1601587 350.6882
    ↩︎
  5. Таблица описательной статистики по возрасту
    Общая описательная статистика по переменной “Возраст”
    vars n mean sd median trimmed mad min max range skew kurtosis se
    X1 1 2075 35.36964 9.663616 35 35.40277 11.8608 18 55 37 -0.0186473 -0.9121067 0.2121439
    ↩︎
  6. График распределения индивидов по возрасту ↩︎

  7. Таблица описательной статистики по переменной “официальная работа”
    Относительное и абсолютное распределение индивидов по критерию официальной работы(1-работает официально,0-работает не официально)
    Var1 Freq percentage
    0 100 6.9
    1 1339 93.1
    ↩︎
  8. Таблица описательной статистики по переменной “Проживание с партнером”
    Относительное и абсолютное распределение индивидов по критерию “Проживание с партнером”
    Var1 Freq percentage
    Да, проживание с партнером 291 27.7
    Нет, проживание без партнера 760 72.3
    ↩︎
  9. Таблица описательной статистики по переменной “Национальность”
    Относительное и абсолютное распределение индивидов по национальности
    Var1 Freq percentage
    НЕ РУССКИЙ 182 8.9
    РУССКИМ(РУССКОЙ) 1853 91.1
    ↩︎
  10. Таблица описательной статистики по переменной “Основная деятельность”
    Относительное и абсолютное распределение индивидов по критерию “Основная деятельность”
    Var1 Freq percentage
    Вы находитесь в любом другом оплачиваемом отпуске 1 0.0
    Вы находитесь в неоплачиваемом отпуске 1 0.0
    Вы находитесь в отпуске - декретном или по уходу за ребенком до 3-х лет 64 3.1
    Вы сейчас работаете 1506 72.6
    Или у Вас сейчас нет работы 502 24.2
    ↩︎
  11. Таблица описательной статистики по переменной “Религия”
    Относительное и абсолютное распределение индивидов по религии
    Var1 Freq percentage
    АРМЯНО-ГРИГОРИАНСКАЯ, ГРИГОРИАНСТВО 1 0.0
    БАХАИ, БАХАИЗМ 1 0.0
    БУДДИЗМ, ЛАМАИЗМ 7 0.3
    ИСЛАМ 1 0.0
    ИУДАИЗМ 2 0.1
    КАТОЛИЦИЗМ 2 0.1
    КРИШНАИЗМ 1 0.0
    МУСУЛЬМАНСТВО 106 5.2
    НИ К КАКОЙ РЕЛИГИИ 250 12.2
    ПАСТАФАРИАНСТВО 1 0.0
    ПРАВОСЛАВИЕ 1660 81.3
    СВИДЕТЕЛИ ИЕГОВЫ 1 0.0
    СТАРОВЕРЫ 1 0.0
    ХРИСТИАНСТВО 3 0.1
    ЯЗЫЧЕСТВО 4 0.2
    ↩︎
  12. Таблица описательной статистики по переменной “Гендер”
    Относительное и абсолютное распределение индивидов по критерию “пол респондента”(1-женщина,0-мужчина
    Var1 Freq percentage
    0 1038 50
    1 1037 50
    ↩︎
  13. Таблица описательной статистики по переменной “Заболевания, влияющие на репродуктивную систему женщин”
    Относительное и абсолютное распределение индивидов по заболеваниям, влияющим на репродуктивную систему женщин
    Var1 Freq percentage
    0 941 92
    1 82 8
    ↩︎
  14. Таблица описательной статистики по переменной “Наличие деперссии или серьезных нервных расстройств”
    Относительное и абсолютное распределение индивидов по наличию серьезных нервных расстройств, депрессии
    Var1 Freq percentage
    0 1906 92.3
    1 159 7.7
    ↩︎
  15. Таблица описательной статистики по переменной “Наличие наследственных заболеваний”
    Относительное и абсолютное распределение индивидов по наличию заболеваний, передающихся по наследству
    Var1 Freq percentage
    0 1140 54.9
    1 935 45.1
    ↩︎
  16. Таблица описательной статистики по переменной “Заболевания, которые могут стать причиной прерывания беременности”
    Относительное и абсолютное распределение индивидов по наличию заболеваний, которые могут стать причиной прерывания беременности
    Var1 Freq percentage
    0 1419 68.4
    1 656 31.6
    ↩︎
  17. Таблица описательной статистики по переменной “Частоты проверки здоровья”
    Относительное и абсолютное распределение индивидов по критерию частоты проверки здоровья
    Var1 Freq percentage
    2-3 раза в течение года 723 35.2
    Несколько раз в месяц 28 1.4
    Один раз в месяц 95 4.6
    Один раз в течение года 634 30.9
    Реже одного раза в год 573 27.9
    ↩︎
  18. Результаты регрессионного анализа(оценка стандартных ошибок)
    Распределение респондентов пол количеству детей
    finished$children_number count
    1 632
    2 436
    3 127
    4 23
    5 2
    6 4
    7 2
    NA 849
    ↩︎
  19. Результаты регрессионного анализа(оценка стандартных ошибок)
    Результаты регрессионного анализа
    Z value Pr(>|z|)
    (Intercept) 0.8648399 0.3871267
    region3 -0.9062951 0.3647797
    region2 -2.0612277 0.0392813
    marital_status1 5.7549720 0.0000000
    age 4.7578840 0.0000020
    I(age^2) -4.2114944 0.0000254
    completed_education2 -1.8174441 0.0691491
    completed_education3 -1.8191299 0.0688916
    gender1 -0.0400612 0.9680443
    main_activity1 -2.3541861 0.0185633
    incomeSatisfaction2 0.5901694 0.5550771
    incomeSatisfaction3 0.5821724 0.5604506
    incomeSatisfaction4 0.8465268 0.3972589
    incomeSatisfaction5 1.4688842 0.1418642
    health_monitoring2 -1.6458001 0.0998049
    health_monitoring3 -0.8182680 0.4132042
    health_monitoring4 0.2597550 0.7950528
    health_monitoring5 -1.2971784 0.1945698
    termination_pregnancy1 -0.0377455 0.9698906
    salary_avg5 -1.6997327 0.0891812
    I(salary_avg5^2) 1.6962795 0.0898330
    ↩︎