Команда №4
Наталья Добрецова БЭК-196
Ольга Коробанова БЭК-195
Eлизавета Богданова БЭК-196
Полина Лобач БЭК-196
Ксения Ковылёва БЭК-196
Анастасия Кошевых БЭК-196




Санкт-Петербург, 2021




Содержание

  1. Вводная часть, описывающая постановку и обоснование вопроса
  2. Описание данных, разведанализ данных
  1. Формулировка и обоснование модели или моделей
  2. Ожидаемые результаты
  3. Результаты регрессионного анализа
  4. Анализ результатов, включая результаты проведения статистических тестов или других необходимых процедур
  5. Ответ на содержательный вопрос в рамках проведенного анализа, при необходимости сопровождаемый уместной визуализацией результатов или аналитическими выкладками на основе проведенного анализа
  6. Критический анализ полученных результатов, анализ ограничений исследования
  7. Дискуссионная часть с предложениями по возможному расширению исследования
  8. Заключение
  9. Оценка вкладов членов команды в групповую работу

Приложение с кодами

Необходимые приложения с техническими результатами



1.Вводная часть, описывающая постановку и обоснование вопроса


Позднее материнство является набирающей популярность тенденцией в современном мире. Согласно данным Министерства труда РФ средний возраст рождения первенца в России ежегодно “сдвигается в более старшую возрастную когорту”, сейчас он составляет в среднем 28 лет, к 2030 году прогнозируют появление первого ребенка у женщин 30-летнего возраста. Считается, что отложенное материнство связано с расширением карьерных возможностей для женщин. Действительно, в развитых странах все чаще проблемой становится выбор между деторождением с одной стороны и реализацией в профессиональной деятельности и стремлением к высокому заработку - с другой. Можно предположить, что молодые люди нацелены на то, чтобы обеспечить достойное существование себе и своим детям, а для того, чтобы претворить “мечты” в жизнь, необходим соответствующий уровень дохода.


В данной работе мы хотим выяснить, влияет ли устойчивое материальное положение, в частности размер заработной платы, на количество детей. Наш вопрос основан на следующей логике: с одной стороны, чем больше доход человека, тем больше детей в своей семье он может обеспечить материально, и в таком случае, зависимость количества детей от заработной платы должна быть положительной; с другой стороны, люди, которые много зарабатывают, больше времени и внимания уделяют своему карьерному развитию, следовательно, для них рождение детей будет не в приоритете.


Таким образом, изучение влияние размера заработной платы на количество детей в современных реалиях требует должного внимания.





2. Описание данных, разведанализ данных


Для изучения поставленного исследовательского вопроса мы использовали данные 29-й волны (2020 год) ежегодного Российского мониторинга экономического положения и здоровья населения (РМЭЗ) НИУ ВШЭ. В качестве выборочной совокупности мы рассматривали индивидов женского пола от 18 до 49 лет и индивидов мужского пола от 18 до 55 лет (общепризнанный репродуктивный возраст для мужчин и женщин), проживающих в крупных городах России (с населением более 250 000 человек).


Зависимой переменной в данной работе является количество детей. В качестве основного регрессора выступает средняя заработная плата за 5 лет. Важно отметить, что для вычисления значений данной переменной мы обращались к результатам 25-й, 26-й, 27-й, 28-й и 29-й волн, что соответствует опросам, проводимым с 2016 по 2020 годы.


Ссылка на диск с таблицей изначальных данных и список переменных:

Ссылка на данные


В процессе работы с данными мы проделали следующие действия:

После окончательной корректировки были получены данные:

Ссылка на данные

Описательные характеристики данных предоставлены в приложении: 1



2.1. Разведывательный анализ данных

На данном этапе мы вычислили описательные статистики всех переменных (минимальное и максимальное значение, среднее по выборке и стандартное отклонение для количественных переменных, также определили процентное и количественное распределение ответов по категориальным переменным) и визуализировали результаты в виде графиков (гистограмм, графиков плотности распределения и boxplot). Мы начали анализ данных с нашей зависимой переменной -количества детей.


Количество детей (children_number)

Количество детей является зависимой переменной. Сделав описательную таблицу по данной переменной,мы выяснили,что среднее значение переменной “количество детей” равняется 1. В таблице указано значение 1,65. Принимая во внимание,что значение количества детей является целым числом, мы берем значение 1.

Таблица: 2 График: 3


Средняя заработная плата (salary_avg5)

Далее мы рассмотрели главный регрессор заработную плату. Сперва нам надо было удалить выбросы,что мы сделали благодаря графику boxplot для наглядности и формуле МКР для удаления выбросов. В итоге мы получили среднюю заработную плату за последние 5 лет,медиана которой равна 28 333 рублей. Минимальная ЗП равна 1200 рублей, а максимальная 62 150 рублей.

Таблица: 4


Возраст (age)

Затем мы обратились к переменной возраст. Средний возраст составил 35,36 лет. Также мы проанализировали средний возраст среди мужчин и женщин. В нашей выборке средний возраст среди мужчин 36,39 лет, в то время как у женщин - 34,34 года.

Таблицы стастистики: 5

График: 6


Работает ли официально, кол-во и процентное распределение ответов (workContract)

Очень малая часть респондентов (около 7 %) не оформлены официально. Такая разница в распределении впоследствии может сделать менее значимыми результаты анализа с использованием данной переменной.

Таблица:7


Насколько удовлетворён материальным положением, по возрастанию,кол-во и процентное распределение ответов (incomeSatisfaction)

Ситуация с удовлетворённостью материальным положением значительно отличается от распределения ответов об удовлетворённости жизнью. Всего 1% респондентов полностью удовлетворены материальным положением, однако 1/4 часть опрошенных совсем не удовлетворены материальным положением.

Относительное и абсолютное распределение индивидов по критерию удовлетворенности доходом
Var1 Freq percentage
1 531 25.7
2 761 36.8
3 428 20.7
4 327 15.8
5 21 1.0
Категория(номер) Значение
1 Совсем не удовлетворены
2 Не очень удовлетворены
3 И да, и нет
4 Скорее удовлетворены
5 Полностью удовлетворены

Общее описание данных о проживании с партнером (patnership)

Переменная показывает, проживает ли индивид вместе с партнером/партнершей, не регистрируя свои отношения. 72,3% опрашиваемых не живут с партнером/партнершей, 24% проживают вместе со своим партнёром и считают себя мужем и женой, и 3,7% людей живут вместе, но не считают себя супругами. Для удобства при анализе мы решили объединить два последних ответа в один - Да, индивид проживает вместе с партнёром/партнёршей. В данном случае мы можем игнорировать различия в этих переменных, так как у нас есть отдельная переменная описывающая брачный статус.

Таблица:8


Общее описание распределения респондентов по уровню образования (completed_education)

По данному распределению видно, что большинство респондентов имеют законченное среднее или высшее образование. Очень малая доля имеет незаконченное среднее образование или только 6 классов. Будет наиболее эффективно использовать данную переменную для сравнения индивидов с законченным высшим или средним образованием.

Относительное и абсолютное распределение индивидов по критерию “уровень образования”
Var1 Freq percentage
законченное высшее образование и выше 827 39.9
законченное среднее образование 498 24.0
законченное среднее специальное образование 573 27.7
незаконченное среднее образование (7 - 8 кл) 16 0.8
незаконченное среднее образование (7 - 8 кл) + что-то еще 155 7.5
окончил 0 - 6 классов 2 0.1

Общее описание распределения респондентов по принадлежности к определенной национальности (nationality )

91.1% всех респондентов по национальности относят себя к русским. Остальные национальности представлены в значительно меньшем количестве. Можно предположить, что данная переменная не принесет значимых результатов при анализе.

Таблица:9


Общее описание распределения респондентов по роду основной деятельности (main_activity)

Большинство респондентов (72.6%) на момент опроса работают. Мы считаем, что для анализа будет наиболее эффективно использовать ответы “Вы находитесь в отпуске - декретном или по уходу за ребенком до 3-х лет”, “Вы сейчас работаете”, “Или у Вас сейчас нет работы”, так как оставшиеся категории представлены лишь 2-мя респондентами. Таблица:10


Общее описание распределения респондентов по основной работе (industry_of_work)

Данная переменная демонстрирует процентное распределение индивидов по областям, в которых они работают. Самое большое количество респондентов работает а торговле (29,9%). В области транспорта и связи работает 10,7%. На остальные области приходится от 0,1 до 7,9 % респондентов .

Относительное и абсолютное распределение индивидов по критерию “Сфера работы”
Var1 Freq percentage
IT, ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ 15 1.0
АРМИЯ, МВД, ОРГАНЫ БЕЗОПАСНОСТИ 75 4.8
ВОЕННО-ПРОМЫШЛЕННЫЙ КОМПЛЕКС 26 1.7
ГРАЖДАНСКОЕ МАШИНОСТРОЕНИЕ 48 3.1
ДЕРЕВООБРАБАТЫВАЮЩАЯ ПРОМЫШЛЕННОСТЬ, ЛЕСНОЕ ХОЗЯЙСТВО 3 0.2
ДРУГАЯ ОТРАСЛЬ ТЯЖЕЛОЙ ПРОМЫШЛЕННОСТИ 61 3.9
ЖИЛИЩНО-КОММУНАЛЬНОЕ ХОЗЯЙСТВО 49 3.1
ЗДРАВООХРАНЕНИЕ 79 5.0
ЛЕГКАЯ, ПИЩЕВАЯ ПРОМЫШЛЕННОСТЬ 73 4.7
НАУКА, КУЛЬТУРА 40 2.6
НЕФТЕГАЗОВАЯ ПРОМЫШЛЕННОСТЬ 32 2.0
ОБРАЗОВАНИЕ 123 7.9
ОПЕРАЦИИ С НЕДВИЖИМОСТЬЮ 8 0.5
ОРГАНЫ УПРАВЛЕНИЯ 22 1.4
РЕКЛАМА, МАРКЕТИНГ 12 0.8
СЕЛЬСКОЕ ХОЗЯЙСТВО 7 0.4
СМИ, ИЗДАТЕЛЬСТВО, ПЕЧАТЬ, ТЕЛЕКОММУНИКАЦИИ 14 0.9
СОЦИАЛЬНОЕ ОБСЛУЖИВАНИЕ 5 0.3
СПОРТ, ТУРИЗМ, РАЗВЛЕЧЕНИЯ 14 0.9
СТРОИТЕЛЬСТВО 111 7.1
ТОРГОВЛЯ, БЫТОВОЕ ОБСЛУЖИВАНИЕ 468 29.9
ТРАНСПОРТ, СВЯЗЬ 168 10.7
УСЛУГИ НАСЕЛЕНИЮ 18 1.1
ФИНАНСЫ 56 3.6
ХИМИЧЕСКАЯ ПРОМЫШЛЕННОСТЬ 2 0.1
ЭКОЛОГИЯ, ЗАЩИТА ОКРУЖАЮЩЕЙ СРЕДЫ 1 0.1
ЭНЕРГЕТИЧЕСКАЯ ПРОМЫШЛЕННОСТЬ 25 1.6
ЮРИСПРУДЕНЦИЯ 11 0.7

Общее описание распределения респондентов по региону проживания (region)

Данная переменная даст объективные результаты при анализе, так как распределение респондентов по регионам относительно равномерное. Каждый регион включает в себя от 4 до 9,6% респондентов, за исключением Москвы. Число опрошенных, проживающих в Москве, составляет 18,1%.

Относительное и абсолютное распределение индивидов по критерию “Регион проживания”
Var1 Freq percentage
Владивосток 135 6.5
Казань 125 6.0
Краснодар 160 7.7
Красноярск 122 5.9
Курган 91 4.4
Липецк 156 7.5
Москва 376 18.1
Нижний Новгород 152 7.3
Санкт-Петербург 199 9.6
Саратов 118 5.7
Смоленск 83 4.0
Томск 96 4.6
Тула 132 6.4
Челябинск 130 6.3

Общее описание распределения респондентов по принадлежности к религии (religion)

81.3% индивидов исповедуют “Православие”, 12.2% являются атеистами и 5.2% исповедуют “Мусульманство”.

Таблица:11


Общее описание распределения респондентов по полу (gender)

Доля женщин и мужчин в рассматриваемой выборке одинакова

Таблица:12


Болезни

Мы сделали Классификацию заболеваний на три категории :

  • 1)Заболевания, которые передаются по наследству и соответственно могут повлиять на принятие решения о ребенке;
  • 2)Заболевания, которые могут существенно повлиять на течение беременности, соответственно вызвать патологии и сильно влияют на принятие решения;
  • 3)Заболевания, которые могут стать причиной прерывания беременности.

Стоит отметить, что категории 2 и 3 относятся только к женщинам.

Также некоторые значимые заболевания были включены в перменные, перечисленные выше:

  • 1)онкология,
  • 2)гинекологические заболевания,
  • 3)инсульт,
  • 4)инфаркт,
  • 5)туберкулез,

Добавлена переменная психологические заболевания.

С помощью научных статей и информации из сети мы распределили все наши данные по заболеваниям среди вышеуказанных категорий.Сделали описательную статистику.

По итогам нашей описательной статистики мы получили следующие выводы.


Заболевания, которые могут повлиять на репродуктивную системы только женщин (reproductive_diseases)

Мы получили, что 8% женщин подвержены подобным заболеваниям.

Таблица:13


Серьезные нервные расстройства, депрессии (mental_diseases)

7,7% людей подвержены нервным расстройствам и депрессиям в нашей выборке.

Таблица:14


Болезни передающиеся по наследству (hereditary)

45,1% людей имеют болезни, которые передаются по наследству будущим детям. То есть все-таки большая часть респондентов не имеет заболеваний, которые передаются по наследству.

Таблица:15


Болезни, которые могут стать причиной прерывания беременности (termination_pregnancy)

31,6% женщин имеют болезни, которые могут стать причиной для прерывания беременности.

Таблица:16


Общее описание распределения респондентов по частоте проверки здоровья (health_monitoring)

Переменная отражает, как часто индивид посещает врача в течение года. Один раз в месяц, или же несколько раз в месяц посещают врача лишь 6% респондентов, 1-3 раза в год обращаются к врачу 66,1% индивидов, остальные 27,9% посещают врача реже 1 раза в год.

Таблица:17




2.2. Основные зависимости между данными

1. По данному графику можно сделать предварительные выводы о влиянии заработной платы индивида на количество у него детей.


У людей с самой низкой заработной платой (до 5 тыс. руб/мес.) чаще чем у других есть 4 или 5 детей (в 25% случаев), а в остальных случаях они имеют только 1 ребёнка. Здесь также стоит отметить, что 4 и 5 детей встречается и у людей с высокими заработными платами (более 55 тыс. руб/мес.).


Поскольку на данном графике мы не делили индивидов по половому признаку, и не объединяли в домохозяйства, можно сделать вывод, что такое разделение в зарплатах у людей с большим количеством детей происходит из-за того, что один родитель уделяет большую часть времени воспитанию детей, а второй - материальному обеспечению семьи.


Можно отметить что с увеличением зарплаты с 10 до 25 и с 30 до 50 тыс. руб/мес. люди всё чаще имеют одного ребёнка, вместо двух. А с последующим увеличение зарплаты с 25 до 35 и с 50 тыс. руб/мес. частота наличия двух детей у индивида возрастает по отношению к частоте наличия одного ребёнка. 3 ребёнка чаще всего встречается у индивидов с заработной платой от 5 000 до 10 000 руб/мес. , от 25 до 35 000 руб/мес., от 50 000 до 55 000 руб/мес. или от 60 000 руб/мес.


По данным этого графика сложно сделать однозначные выводы о зависимости количества детей от заработной платы индивида.




  1. По данному графику можно проследить зависимость количества детей у индивида от его брачного статуса.


Во-первых, с увеличением количества детей от 1 до 3-х увеличивается относительная частота индивидов, состоящих в зарегистрированном браке (примерно с 63 до 80%). Для индивидов с 4-мя детьми эта частота резко снижается примерно до 65%.


Во-вторых, индивиды имеющие 5 и более детей в 100% случаев состоят в зарегистрированном браке.




3. На данном графике мы проверили зависимость между наличием наследственного заболевания у родителей и количеством рожденных детей.


Если у респондента 1-4 ребенка, наследственное заболевание не оказывает влияния, так как примерно одинаковое соотношение людей с таким количеством детей имеют/не имеют заболевания, передающиеся по наследству. Также мы можем видеть интересную зависимость: у людей, у которых 5 и 7 детей, нет наличия наследственного заболевания, а люди с 6 детьми все имеют наследственные заболевания. Это объясняется тем, что в нашей выборке маленькое количество респондентов, имеющих 5-7 детей(всего 8 респондентов).

Таблица распределения индивидов по количеству детей:18





3. Формулировка и обоснование модели

Предварительная формулировка модели

Для тестирования выдвинутых гипотез и проверки влияния заработной платы на количество детей мы построили следующую регрессионную модель:

\(children \_number^{1/2} = β_0+β_1*region+β_2*marital\_status+β_3*age+β_4*age^{2}+β_5*completed\_education+β_6*gender+\)

\(β_7*mainactivity+β_8*incomeSatisfaction+β_9*health\_monitoring+β10*termination\_pregnancy+β11*salary\_avg5+β12*salary\_avg5^{2}\)

Мы включили в модель 8 категориальных переменных:

  • город проживания

  • брачный статус

  • уровень образования

  • пол

  • наличие работы

  • удовлетворенность материальным положением

  • частота посещения врача

  • наличие болезней, прерывающих беременность

А также 2 количественные переменные:

  • возраст

  • заработная плата


Важно отметить, что для упрощения интерпретации оценок коэффициентов мы разбили переменную region, которая включает в себя 14 крупных городов, на три группы " dummy переменных" : города с высоким качеством жизни (Москва, Санкт-Петербург, Казань, Краснодар, Липецк), города со средним качеством жизни (Владивосток, Нижний Новгород, Смоленск, Тула, Челябинск) и города с низким качеством жизни (Красноярск, Курган, Саратов, Томск).


Кроме того, мы включили в модель нелинейные эффекты переменных “Возраст” и “Заработная плата”. Попробуем описать наши рассуждения и объяснить, почему мы решили построить квадратичную регрессию.


С точки зрения интуиции разумно предположить, что люди склонны заводить детей только до определенного возраста, так называемого пика, например 45 лет, затем репродуктивные функции организма угасают, соответственно, количество детей у индивидов тоже снижается. Как правило, женщина средних лет рожает лишь одного ребенка, либо вообще не задумывается о рождении малыша, так как становится слишком поздно.


Что касается заработной платы, то зависимость аналогичная. Когда доход индивида достигает определенного уровня, который позволяет содержать ребенка, семья задумывается о рождении первенца. Если заработная плата увеличивается, то индивиды могут позволить обеспечить уже двоих детей всем необходимым. Но положительная зависимость прослеживается только до определенного уровня заработной платы, после которого доход человека уже не влияет на принятие решения о ребенке.


Теперь обратимся к целочисленной зависимой переменной “Количество детей”. Чтобы избежать трудностей при интерпретации влияния объясняющих переменных, мы подвергли зависимую переменную нелинейному преобразованию: взяли квадратный корень, который позволяет проследить относительные изменения.


Рассмотрим взаимосвязь между количественными переменными с помощью теста корреляции Пирсона.

Коэффициенты корреляции для числовых переменных
X. Возраст Количество.детей Средняя.заработная.плата
Возраст 1.000 0.1160 0.1060
Количество детей 0.116 1.0000 0.0067
Средняя зработная плата 0.106 0.0067 1.0000

Коэффициент корреляции для переменных “Количество детей” и “Возраст” равен 0,12, что говорит о довольно слабой взаимосвязи между зависимой переменной и регрессором. Коэффициент корреляции для переменных “Количество детей” и “Средняя заработная плата за 5 лет” равен всего 0,05, что практически не отличается от нуля, поэтому также можно говорить о крайне слабой взаимосвязи связи между зависимой переменной и регрессором.

График “Зависимость количества детей от возраста” показывает,что количество детей 1 и 2 является наиболее популярным при лююом возрасте человека. Люди в возрасте от 30 до 50 лет имеют более 2 детей.


На данном графике можно проследить тенденцию увеличения количества детей с ростом заработной платы, но лишь до определенного момента, а именно достижения дохода приблизительно в 40 тыс. рублей, что является своего рода пиком, после чего количество детей и заработная плата имеют скорее отрицательную корреляцию.



После описания зависимостей между переменными мы можем построить основное предположение:

Размер заработной платы слабо положительно коррелирует с количеством детей, но только до определенного уровня. То есть сначала с увеличением дохода увеличивается количество детей, однако примерно после 40 тыс. рублей происходит спад.




4. Ожидаемые результаты исследования

На основе предварительного анализа данных мы можем построить основное предположение:


Размер заработной платы слабо положительно коррелирует с количеством детей.


То есть до определенного уровня заработной платы с увеличением дохода увеличивается количество детей, однако примерно после 40 тыс. рублей происходит спад.




5. Результаты регрессионного анализа


Таблица (оценка стандартных ошибок):19


Результаты регрессии
====================================================================================
                                                             Dependent variable:    
                                                         ---------------------------
                                                         Количество детей под корнем
------------------------------------------------------------------------------------
Регионы с низким качеством жизни                                -0.02 (0.02)        
Регионы со средним качеством жизни                             -0.04** (0.02)       
Семейное положение:не замужем/не женат                          0.1*** (0.02)       
Возраст                                                         0.1*** (0.01)       
Возраст в квадрате                                            -0.001*** (0.000)     
Законченное среднее образование                                 -0.1** (0.04)       
Законченное высшее образование                                  -0.1** (0.04)       
Пол женский                                                     -0.001 (0.02)       
Наличие работы                                                  -0.1** (0.04)       
Удовлетворенность доходом ниже среднего                          0.01 (0.02)        
Удовлетворенность доходом ниже среднего                          0.02 (0.03)        
Средняя Удовлетворенность доходом выше среднего                  0.03 (0.03)        
Высокая удовлетворенность доходом                                0.3** (0.1)        
Частота проверки здоровья раз в месяц                            -0.1 (0.1)         
Частота проверки здоровья 2-3 раза в год                        -0.02 (0.02)        
Частота проверки здоровья один раз в год                         0.01 (0.02)        
Частота проверки здоровья несколько раз в месяц                  -0.1 (0.1)         
Наличие заболевния, влияющего на прерывание беременности        -0.001 (0.02)       
Заработная плата                                               -0.000* (0.000)      
Заработная плата в квадрате                                      0.0* (0.0)         
Constant                                                          0.2 (0.2)         
------------------------------------------------------------------------------------
Observations                                                         940            
R2                                                                   0.1            
Adjusted R2                                                          0.1            
Residual Std. Error                                            0.3 (df = 919)       
F Statistic                                                 4.3*** (df = 20; 919)   
====================================================================================
Note:                                                    *p<0.1; **p<0.05; ***p<0.01

6. Анализ результатов, включая результаты проведения статистических тестов или других необходимых процедур

ной объясняющей переменной нашей модели - заработной плате. Формула для нахождения расчета предельного эффекта выглядит следующим образом:


\(ME = σ(children_number)/σ(salary_avg5) = β_{11}+β_{12}*salary_avg5\)


Для того чтобы определить на каком промежутке предельный эффект заработной платы значим, мы построили график с 80% доверительным интервалом.


Можно увидеть, что предельный эффект значим при заработной плате меньше примерно 27000 рублей, при этом он является отрицательным. На отрезке от 27 000 до 50 000 рублей предельный эффект незначим, на данном промежутке происходит смена знака. При заработной плате более 50 000 рублей предельный эффект снова становится значимым, при этом он является положительным.


Наше основное предположение о значительном влиянии дохода на интенсивность деторождения подтвердилось результатами анализа. Мы ожидали, что с увеличением дохода до определенного момента количество детей будет увеличиваться.




Такие факторы, как брачный статус, возраст, образование и наличие работы оказывают определенное влияние на количество детей.


Например, у людей, состоящих в браке интенсивность деторождения на 12% выше, чем у незамужних/неженатых (в среднем и при прочих равных условиях). Действительно, наличие мужа/супруги говорит об устойчивом социальном статусе и способности заботиться о другом человеке. Кроме того, наличие брака свидетельствует о желании людей создать подноценную семью, что предполает в будущем наличие как минимум одного ребенка.


Наличие работы отрицательно влияет на деторождение: у занятых индивидов данный показатель на 8% ниже (в среднем и при прочих равных условиях). Логично предположить, что работа лишает индивида большого количества свободного времени, которое, безусловно, требуется уделять будущему малышу.


У людей со средним и высшим образованием интенсивность деторождения примерно на 8% ниже, чем у людей с незаконченным средним образованием (в среднем и при прочих равных условиях). В данном случае также существенную роль играет время, которое необходимо уделять дальнейшей учебе. Данный факт препятствует рождению детей, которые требуют постоянного внимания.


Что касается удовлетворенности материальным положением, то коэффициент оказался значимым только в случае, если человек полностью удовлетворен своим достатком. Интенсивность деторождения у данных индивидов на 25% выше, чем у людей, которые совсем не удовлетворены материальным положением.


Коэффициенты же при болезнях, которые могут прервать беременность, оказались незначимы, хотя мы предполагали, что подобного рода болезни должны отрицательно влиять на интенсивность деторождения. Это могло произойти из-за того, что, во-первых, такие болезни относятся исключительно к женщинам, а значит, наша выборка сократилась в 2 раза, что могло повлиять на коэффициент. Во-вторых, в наших данных был ряд заболеваний различных органов, которые мы распределили на группы, в частности, на группу “болезни, которые влияют на прерывание беременности” (распределяли в соответствии с прочитанными медицинскими статьями). Однако, в наших данных не было определенных названий серьезных заболеваний, которые бы 100% прерывали беременность. Поэтому женщины из выборки могли иметь несерьезные заболевания, которые оказывали влияние на беременность, но не поддавались лечению и позволяли сохранить ребенка. Подводя итог, наше предположение о влиянии подобного рода заболеваний не подтвердилось результатами регрессии. Однако, теоретически, влияние должно было быть.


Коэффициенты при частоте обращения к врачу и городах проживания также оказались незначимыми. То есть по результатам регрессионного анализа данные факторы не влияют на интенсивность деторождения. Возможно, наши предположения об их влиянии не подтвердились из-за малочисленной выборки или других проблем.

7. Ответ на содержательный вопрос в рамках проведенного анализа

Проведя регрессионный анализ, мы получили, что заработная плата оказывает влияние на количество детей. При уровне доверия для предельного эффекта 80% заработная плата является значимым показателем в пределах от 11 000 до 55 000 рублей.

Также наиболее влиятельными оказались брачный статус, возраст и образование.




8. Критический анализ полученных результатов, анализ ограничений исследовани

Существует пять основных проблем, из-за которых может нарушаться внутренняя обоснованность исследования, основанного на оценке множественной регрессии:


  1. Пропущенные переменные.

Мы предполагаем, что на количество детей могут оказать влияния дополнительные факторы, которые сложно измерить и невозможно включить в модель. Например, пропаганда деторождения от правительства или личные установки и убеждения человека. Но, как нам кажется, все количественные и категориальные переменные, которые нам удалось найти по данным, и которые могут оказать влияние на наши результаты, включены в нашу модель.



  1. Неправильная спецификация функциональной формы.

Можно предположить, что в модель нужно было включить другие нелинейные эффекты, которые бы более точно отражали зависимость между объясняющими переменными и количеством детей.



  1. Ошибки измерения переменных (регрессоров).

Маловероятно, но все же ошибки или скорее неточности могли возникнуть в переменных заработная плата и брачный статус. К примеру, если некоторые респонденты указывали заработную плату, получаемую на официальном месте работы, имея при этом дополнительные доходы из других источников. Или же брачный статус как переменная в данном исследовании тоже могла иметь неточности, ведь респондент мог не состоять в браке на момент опроса, но иметь годы супружеской жизни до, в которой собственно и были рождены дети.



  1. Отбор наблюдений.

Что касается отбора наблюдений: несмотря на то, что выборка у нас случайная, на результаты исследования негативным образом могло повлиять малое число респондентов, имеющих более 2-3 детей.



  1. Одновременная причинность

Мы полагаем, что данная проблема практически не может влиять на валидность нашего исследования, так как количество детей не может оказать сильного влияния на заработную плату. Одновременная причинность отсутствует, МНК-оценка является несмещенной и состоятельной. Гипотетически, в отдельных случаях количество детей может являться причиной заработной платы, но будем считать данное влияние незначительным в нашей выборке.



9. Дискуссионная часть с предложениями по возможному расширению исследования

Мы считаем, что в дальнейшем наше исследование можно расширить в нескольких направлениях.






Кроме того, стоит отдельно исследовать предельные эффекты от заработной платы для индивидов изначально имеющих разное количество детей в семье. Ведь логично предположить, что для людей, имеющих 1-го ребёнка, и для людей, имеющих уже 3-х детей, увеличение заработной платы на одну и ту же величину даст разные эффекты и по разному повлияет на решение о рождении следующего ребёнка.

10. Заключение

В ходе проведенного исследования было выявлено, что основными факторами, влияющими на количество детей, являются заработная плата, брачный статус, возраст, наличие работы и уровень образования. Заработная плата в рассматриваемой выборке оказывает влияние на количество детей, следовательно, материальное положение играет роль при принятии решения о том, чтобы завести ребенка. Действительно, наверное, часто люди задумываются о том, насколько их доход позволит им прокормить и обеспечить всем необходимым будущего малыша.

11. Оценка вкладов членов команды в групповую работу



В ходе работы над проектом мы на каждом этапе старались разделять обязанности между участниками поровну, а над затруднительными вопросами работать совместно. Поэтому мы оцениваем вклад всех участников как одинаковый, равный 16,67%.



Приложение кода


Ссылка на файл кода в формате rmd


Приложение технических результатов



  1. Таблица описательных характеристик данных:
    Общее описаниее переменных данных
    popul region marital_status age completed_education gender nationality main_activity industry_of_work working_hours_per_week workHome workContract lifeSatisfaction incomeSatisfaction haveJob patnership children_number religion_ health_monitoring health_estimation salary_avg5 area loan reproductive_diseases oncology heart_attack stroke tuberculosis mental_diseases hereditary impact_pregnancy termination_pregnancy
    Min. : 326900 Length:2075 Length:2075 Min. :18.00 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Min. : 3.00 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Min. :1.000 Length:2075 Length:2075 Length:2075 Min. : 1200 Min. : 8.00 Min. : 300 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Min. :0.0000 Min. :0.0000 Min. :0.0000
    1st Qu.: 524700 Class :character Class :character 1st Qu.:28.00 Class :character Class :character Class :character Class :character Class :character 1st Qu.: 40.00 Class :character Class :character Class :character Class :character Class :character Class :character 1st Qu.:1.000 Class :character Class :character Class :character 1st Qu.:20000 1st Qu.:22.00 1st Qu.: 6000 Class :character Class :character Class :character Class :character Class :character Class :character 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000
    Median : 973800 Mode :character Mode :character Median :35.00 Mode :character Mode :character Mode :character Mode :character Mode :character Median : 40.00 Mode :character Mode :character Mode :character Mode :character Mode :character Mode :character Median :1.000 Mode :character Mode :character Mode :character Median :27500 Median :32.00 Median :10500 Mode :character Mode :character Mode :character Mode :character Mode :character Mode :character Median :0.0000 Median :0.0000 Median :0.0000
    Mean : 3255878 NA NA Mean :35.37 NA NA NA NA NA Mean : 43.58 NA NA NA NA NA NA Mean :1.652 NA NA NA Mean :29667 Mean :32.99 Mean :13670 NA NA NA NA NA NA Mean :0.4506 Mean :0.3663 Mean :0.3161
    3rd Qu.: 4879600 NA NA 3rd Qu.:43.00 NA NA NA NA NA 3rd Qu.: 48.00 NA NA NA NA NA NA 3rd Qu.:2.000 NA NA NA 3rd Qu.:37000 3rd Qu.:41.77 3rd Qu.:20000 NA NA NA NA NA NA 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.:1.0000
    Max. :12325400 NA NA Max. :55.00 NA NA NA NA NA Max. :168.00 NA NA NA NA NA NA Max. :7.000 NA NA NA Max. :69500 Max. :71.00 Max. :40000 NA NA NA NA NA NA Max. :1.0000 Max. :1.0000 Max. :1.0000
    NA NA NA NA NA NA NA NA NA NA’s :632 NA NA NA NA NA NA NA’s :849 NA NA NA NA’s :582 NA’s :101 NA’s :1546 NA NA NA NA NA NA NA NA NA
    ↩︎
  2. Таблица описательной статистики по количеству детей
    Общая описательная статистика по переменной “Количество детей”
    vars n mean sd median trimmed mad min max range skew kurtosis se
    X1 1 1226 1.651713 0.8252551 1 1.517312 0 1 7 6 1.687096 5.014261 0.0235691
    ↩︎
  3. График распределения индивидов по количеству детей ↩︎

  4. Таблица описательной статистики по средней заработной плате
    Общая описательная статистика по переменной “Средняя заработная плата за 5 лет”
    vars n mean sd median trimmed mad min max range skew kurtosis se
    X1 1 1493 29666.65 13550.37 27500 28555.51 12231.45 1200 69500 68300 0.7263096 0.1601587 350.6882
    ↩︎
  5. Таблица описательной статистики по возрасту
    Общая описательная статистика по переменной “Возраст”
    vars n mean sd median trimmed mad min max range skew kurtosis se
    X1 1 2075 35.36964 9.663616 35 35.40277 11.8608 18 55 37 -0.0186473 -0.9121067 0.2121439
    ↩︎
  6. График распределения индивидов по возрасту ↩︎

  7. Таблица описательной статистики по переменной “официальная работа”
    Относительное и абсолютное распределение индивидов по критерию официальной работы(1-работает официально,0-работает не официально)
    Var1 Freq percentage
    0 100 6.9
    1 1339 93.1
    ↩︎
  8. Таблица описательной статистики по переменной “Проживание с партнером”
    Относительное и абсолютное распределение индивидов по критерию “Проживание с партнером”
    Var1 Freq percentage
    Да, проживание с партнером 291 27.7
    Нет, проживание без партнера 760 72.3
    ↩︎
  9. Таблица описательной статистики по переменной “Национальность”
    Относительное и абсолютное распределение индивидов по национальности
    Var1 Freq percentage
    НЕ РУССКИЙ 182 8.9
    РУССКИМ(РУССКОЙ) 1853 91.1
    ↩︎
  10. Таблица описательной статистики по переменной “Основная деятельность”
    Относительное и абсолютное распределение индивидов по критерию “Основная деятельность”
    Var1 Freq percentage
    Вы находитесь в любом другом оплачиваемом отпуске 1 0.0
    Вы находитесь в неоплачиваемом отпуске 1 0.0
    Вы находитесь в отпуске - декретном или по уходу за ребенком до 3-х лет 64 3.1
    Вы сейчас работаете 1506 72.6
    Или у Вас сейчас нет работы 502 24.2
    ↩︎
  11. Таблица описательной статистики по переменной “Религия”
    Относительное и абсолютное распределение индивидов по религии
    Var1 Freq percentage
    АРМЯНО-ГРИГОРИАНСКАЯ, ГРИГОРИАНСТВО 1 0.0
    БАХАИ, БАХАИЗМ 1 0.0
    БУДДИЗМ, ЛАМАИЗМ 7 0.3
    ИСЛАМ 1 0.0
    ИУДАИЗМ 2 0.1
    КАТОЛИЦИЗМ 2 0.1
    КРИШНАИЗМ 1 0.0
    МУСУЛЬМАНСТВО 106 5.2
    НИ К КАКОЙ РЕЛИГИИ 250 12.2
    ПАСТАФАРИАНСТВО 1 0.0
    ПРАВОСЛАВИЕ 1660 81.3
    СВИДЕТЕЛИ ИЕГОВЫ 1 0.0
    СТАРОВЕРЫ 1 0.0
    ХРИСТИАНСТВО 3 0.1
    ЯЗЫЧЕСТВО 4 0.2
    ↩︎
  12. Таблица описательной статистики по переменной “Гендер”
    Относительное и абсолютное распределение индивидов по критерию “пол респондента”(1-женщина,0-мужчина
    Var1 Freq percentage
    0 1038 50
    1 1037 50
    ↩︎
  13. Таблица описательной статистики по переменной “Заболевания, влияющие на репродуктивную систему женщин”
    Относительное и абсолютное распределение индивидов по заболеваниям, влияющим на репродуктивную систему женщин
    Var1 Freq percentage
    0 941 92
    1 82 8
    ↩︎
  14. Таблица описательной статистики по переменной “Наличие деперссии или серьезных нервных расстройств”
    Относительное и абсолютное распределение индивидов по наличию серьезных нервных расстройств, депрессии
    Var1 Freq percentage
    0 1906 92.3
    1 159 7.7
    ↩︎
  15. Таблица описательной статистики по переменной “Наличие наследственных заболеваний”
    Относительное и абсолютное распределение индивидов по наличию заболеваний, передающихся по наследству
    Var1 Freq percentage
    0 1140 54.9
    1 935 45.1
    ↩︎
  16. Таблица описательной статистики по переменной “Заболевания, которые могут стать причиной прерывания беременности”
    Относительное и абсолютное распределение индивидов по наличию заболеваний, которые могут стать причиной прерывания беременности
    Var1 Freq percentage
    0 1419 68.4
    1 656 31.6
    ↩︎
  17. Таблица описательной статистики по переменной “Частоты проверки здоровья”
    Относительное и абсолютное распределение индивидов по критерию частоты проверки здоровья
    Var1 Freq percentage
    2-3 раза в течение года 723 35.2
    Несколько раз в месяц 28 1.4
    Один раз в месяц 95 4.6
    Один раз в течение года 634 30.9
    Реже одного раза в год 573 27.9
    ↩︎
  18. Результаты регрессионного анализа(оценка стандартных ошибок)
    Распределение респондентов пол количеству детей
    finished$children_number count
    1 632
    2 436
    3 127
    4 23
    5 2
    6 4
    7 2
    NA 849
    ↩︎
  19. Результаты регрессионного анализа(оценка стандартных ошибок)
    Результаты регрессионного анализа
    Z value Pr(>|z|)
    (Intercept) 0.8648399 0.3871267
    region3 -0.9062951 0.3647797
    region2 -2.0612277 0.0392813
    marital_status1 5.7549720 0.0000000
    age 4.7578840 0.0000020
    I(age^2) -4.2114944 0.0000254
    completed_education2 -1.8174441 0.0691491
    completed_education3 -1.8191299 0.0688916
    gender1 -0.0400612 0.9680443
    main_activity1 -2.3541861 0.0185633
    incomeSatisfaction2 0.5901694 0.5550771
    incomeSatisfaction3 0.5821724 0.5604506
    incomeSatisfaction4 0.8465268 0.3972589
    incomeSatisfaction5 1.4688842 0.1418642
    health_monitoring2 -1.6458001 0.0998049
    health_monitoring3 -0.8182680 0.4132042
    health_monitoring4 0.2597550 0.7950528
    health_monitoring5 -1.2971784 0.1945698
    termination_pregnancy1 -0.0377455 0.9698906
    salary_avg5 -1.6997327 0.0891812
    I(salary_avg5^2) 1.6962795 0.0898330
    ↩︎