Команда №4
Наталья Добрецова БЭК-196
Ксения Ковылёва БЭК-196
Eлизавета Богданова БЭК-196
Полина Лобач БЭК-196
Анастасия Кошевых БЭК-196
Ольга Коробанова БЭК-195




Санкт-Петербург, 2021




Содержание

  1. Вводная часть, описывающая постановку и обоснование вопроса
  2. Описание данных, разведанализ данных
  1. Формулировка и обоснование модели или моделей
  2. Ожидаемые результаты
  3. Результаты регрессионного анализа
  4. Анализ результатов, включая результаты проведения статистических тестов или других необходимых процедур
  5. Ответ на содержательный вопрос в рамках проведенного анализа, при необходимости сопровождаемый уместной визуализацией результатов или аналитическими выкладками на основе проведенного анализа
  6. Критический анализ полученных результатов, анализ ограничений исследования
  7. Дискуссионная часть с предложениями по возможному расширению исследования
  8. Заключение
  9. Оценка вкладов членов команды в групповую работу
  10. Необходимые приложения с техническими результатами

Приложение с кодами

Необходимые ссылки на источники (литературу или данные)

Ссылки на необходимые онлайн-приложения (наборы данных, неформатные таблицы или графики и т.п.)



1.Вводная часть, описывающая постановку и обоснование вопроса


Позднее материнство является набирающей популярность тенденцией в современном мире. Согласно данным Министерства труда РФ средний возраст рождения первенца в России ежегодно “сдвигается в более старшую возрастную когорту”, сейчас он составляет в среднем 28 лет, к 2030 году прогнозируют появление первого ребенка у женщин 30-летнего возраста. Считается, что отложенное материнство связано с расширением карьерных возможностей для женщин. Действительно, в развитых странах все чаще проблемой становится выбор между деторождением с одной стороны и реализацией в профессиональной деятельности и стремлением к высокому заработку - с другой. Можно предположить, что молодые люди нацелены на, чтобы обеспечить достойное существование себе и своим детям, а для того, чтобы претворить “мечты” в жизнь, необходим соответствующий уровень дохода.


В данной работе мы хотим выяснить, влияет ли устойчивое материальное положение, в частности размер заработной платы, на количество детей. Наш вопрос основан на следующей логике: с одной стороны, чем больше доход человека, тем больше детей в своей семье он может обеспечить материально, и в таком случае, зависимость количества детей от заработной платы должна быть положительной; с другой стороны, люди, которые много зарабатывают, больше времени и внимания уделяют своему карьерному развитию, следовательно, для них рождение детей будет не в приоритете.


Таким образом, изучение влияние размера заработной платы на количество детей в современных реалиях требует должного внимания.





2. Описание данных, разведанализ данных


Для изучения поставленного исследовательского вопроса мы использовали данные 29-й волны (2020 год) ежегодного Российского мониторинга экономического положения и здоровья населения (РМЭЗ) НИУ ВШЭ. В качестве выборочной совокупности мы рассматривали индивидов женского пола от 18 до 49 лет и индивидов мужского пола от 18 до 55 лет (общепризнанный репродуктивный возраст для мужчин и женщин), проживающих в крупных городах России (с населением более 250 000 человек).


Зависимой переменной в данной работе является количество детей. В качестве основного регрессора выступает средняя заработная плата за 5 лет. Важно отметить, что для вычисления значений данной переменной мы обращались к результатам 25-й, 26-й, 27-й, 28-й и 29-й волн, что соответствует опросам, проводимым с 2016 по 2020 годы.


Ссылка на диск с таблицей изначальных данных и список переменных:

Ссылка на данные


В процессе работы с данными мы проделали следующие действия:

После окончательной корректировки были получены данные:

Ссылка на данные



2.1. Разведывательный анализ данных

На данном этапе мы вычислили описательные статистики всех переменных (минимальное и максимальное значение, среднее по выборке и стандартное отклонение для количественных переменных, также определили процентное и количественное распределение ответов по категориальным переменным) и визуализировали результаты в виде графиков (гистограмм, графиков плотности распределения и boxplot). Мы начали анализ данных с нашей зависимой переменной -количества детей.


Количество детей (children_number)

Количество детей является зависимой переменной. Сделав описательную таблицу по данной переменной,мы выяснили,что среднее значение переменной “количество детей” равняется 1. В таблице указано значение 1,65. Принимая во внимание,что значение количества детей является целым числом, мы берем значение 1.


Средняя заработная плата (salary_avg5)

Далее мы рассмотрели главный регрессор заработную плату. Сперва нам надо было удалить выбросы,что мы сделали благодаря графику boxplot для наглядности и формуле МКР для удаления выбросов. В итоге мы получили среднюю заработную плату за последние 5 лет,медиана которой равна 28 333 рублей. Минимальная ЗП равна 1200 рублей, а максимальная 62 150 рублей.


Возраст (age)

Затем мы обратились к переменной возраст. Средний возраст составил 35,36 лет. Также мы проанализировали средний возраст среди мужчин и женщин. В нашей выборке средний возраст среди мужчин 36,39 лет, в то время как у женщин - 34,34 года.

Общая описательная статистика по среднему количеству рабочих часов в неделю
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 1443 43.57658 NA 40 42.31429 0 3 168 165 2.247337 16.01844 0.3009003

Работает ли официально, кол-во и процентное распределение ответов (workContract)

Очень малая часть респондентов (около 7 %) не оформлены официально. Такая разница в распределении впоследствии может сделать менее значимыми результаты анализа с использованием данной переменной.


Насколько удовлетворён материальным положением, по возрастанию,кол-во и процентное распределение ответов (incomeSatisfaction)

Ситуация с удовлетворённостью материальным положением значительно отличается от распределения ответов об удовлетворённости жизнью. Всего 1% респондентов полностью удовлетворены материальным положением, однако 1/4 часть опрошенных совсем не удовлетворены материальным положением.
Относительное и абсолютное распределение индивидов по критерию удовлетворенности доходом
Var1 Freq percentage
И да, и нет 428 20.7
Не очень удовлетворены 761 36.8
Полностью удовлетворены 21 1.0
Скорее удовлетворены 327 15.8
Совсем не удовлетворены 531 25.7
Категория(номер) Значение
1 Совсем не удовлетворены
2 Не очень удовлетворены
3 И да, и нет
4 Скорее удовлетворены
5 Полностью удовлетворены

Общее описание данных о проживании с партнером (patnership)

Переменная показывает, проживает ли индивид вместе с партнером/партнершей, не регистрируя свои отношения. 72,3% опрашиваемых не живут с партнером/партнершей, 24% проживают вместе со своим партнёром и считают себя мужем и женой, и 3,7% людей живут вместе, но не считают себя супругами. Для удобства при анализе мы решили объединить два последних ответа в один - Да, индивид проживает вместе с партнёром/партнёршей. В данном случае мы можем игнорировать различия в этих переменных, так как у нас есть отдельная переменная описывающая брачный статус.


Общее описание распределения респондентов по уровню образования (completed_education)

По данному распределению видно, что в большинство респондентов имеют законченное среднее или высшее образование. Очень малая доля имеет незаконченное среднее образование или только 6 классов. Будет наиболее эффективно использовать данную переменную для сравнения индивидов с законченным высшим или средним образованием.

Относительное и абсолютное распределение индивидов по критерию “уровень образования”
Var1 Freq percentage
законченное высшее образование и выше 827 39.9
законченное среднее образование 498 24.0
законченное среднее специальное образование 573 27.7
незаконченное среднее образование (7 - 8 кл) 16 0.8
незаконченное среднее образование (7 - 8 кл) + что-то еще 155 7.5
окончил 0 - 6 классов 2 0.1

Общее описание распределения респондентов по принадлежности к определенной национальности (nationality )

91.1% всех респондентов по национальности относят себя к русским. Остальные национальности представлены в значительно меньшем количестве. Можно предположить, что данная переменная не принесет значимых результатов при анализе.


Общее описание распределения респондентов по роду основной деятельности (main_activity)

Большинство респондентов (72.6%) на момент опроса работают. Мы считаем, что для анализа будет наиболее эффективно использовать ответы “Вы находитесь в отпуске - декретном или по уходу за ребенком до 3-х лет”, “Вы сейчас работаете”, “Или у Вас сейчас нет работы”, так как оставшиеся категории представлены лишь 2-мя респондентами.


Общее описание распределения респондентов по основной работе (industry_of_work)

Данная переменная демонстрирует процентное распределение индивидов по областям, в которых они работают. Самое большое количество респондентов работает а торговле (29,9%). В области транспорта и связи работает 10,7%. На остальные области приходится от 0,1 до 7,9 % респондентов .

Относительное и абсолютное распределение индивидов по критерию “Сфера работы”
Var1 Freq percentage
IT, ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ 15 1.0
АРМИЯ, МВД, ОРГАНЫ БЕЗОПАСНОСТИ 75 4.8
ВОЕННО-ПРОМЫШЛЕННЫЙ КОМПЛЕКС 26 1.7
ГРАЖДАНСКОЕ МАШИНОСТРОЕНИЕ 48 3.1
ДЕРЕВООБРАБАТЫВАЮЩАЯ ПРОМЫШЛЕННОСТЬ, ЛЕСНОЕ ХОЗЯЙСТВО 3 0.2
ДРУГАЯ ОТРАСЛЬ ТЯЖЕЛОЙ ПРОМЫШЛЕННОСТИ 61 3.9
ЖИЛИЩНО-КОММУНАЛЬНОЕ ХОЗЯЙСТВО 49 3.1
ЗДРАВООХРАНЕНИЕ 79 5.0
ЛЕГКАЯ, ПИЩЕВАЯ ПРОМЫШЛЕННОСТЬ 73 4.7
НАУКА, КУЛЬТУРА 40 2.6
НЕФТЕГАЗОВАЯ ПРОМЫШЛЕННОСТЬ 32 2.0
ОБРАЗОВАНИЕ 123 7.9
ОПЕРАЦИИ С НЕДВИЖИМОСТЬЮ 8 0.5
ОРГАНЫ УПРАВЛЕНИЯ 22 1.4
РЕКЛАМА, МАРКЕТИНГ 12 0.8
СЕЛЬСКОЕ ХОЗЯЙСТВО 7 0.4
СМИ, ИЗДАТЕЛЬСТВО, ПЕЧАТЬ, ТЕЛЕКОММУНИКАЦИИ 14 0.9
СОЦИАЛЬНОЕ ОБСЛУЖИВАНИЕ 5 0.3
СПОРТ, ТУРИЗМ, РАЗВЛЕЧЕНИЯ 14 0.9
СТРОИТЕЛЬСТВО 111 7.1
ТОРГОВЛЯ, БЫТОВОЕ ОБСЛУЖИВАНИЕ 468 29.9
ТРАНСПОРТ, СВЯЗЬ 168 10.7
УСЛУГИ НАСЕЛЕНИЮ 18 1.1
ФИНАНСЫ 56 3.6
ХИМИЧЕСКАЯ ПРОМЫШЛЕННОСТЬ 2 0.1
ЭКОЛОГИЯ, ЗАЩИТА ОКРУЖАЮЩЕЙ СРЕДЫ 1 0.1
ЭНЕРГЕТИЧЕСКАЯ ПРОМЫШЛЕННОСТЬ 25 1.6
ЮРИСПРУДЕНЦИЯ 11 0.7

Общее описание распределения респондентов по региону проживания (region)

Данная переменная даст объективные результаты при анализе, так как распределение респондентов по регионам относительно равномерное. Каждый регион включает в себя от 4 до 9,6% респондентов, за исключением Москвы. Число опрошенных, проживающих в Москве, составляет 18,1%.

Относительное и абсолютное распределение индивидов по критерию “Регион проживания”
Var1 Freq percentage
Владивосток 135 6.5
Казань 125 6.0
Краснодар 160 7.7
Красноярск 122 5.9
Курган 91 4.4
Липецк 156 7.5
Москва 376 18.1
Нижний Новгород 152 7.3
Санкт-Петербург 199 9.6
Саратов 118 5.7
Смоленск 83 4.0
Томск 96 4.6
Тула 132 6.4
Челябинск 130 6.3

Общее описание распределения респондентов по принадлежности к религии (religion)

Доля респондентов, относящих себя к определенной конфессии, составляет 70.8%. Также стоит отметить, что 81.3% индивидов исповедуют “Православие”, 12.2% являются атеистами и 5.2% исповедуют “Мусульманство”.


Общее описание распределения респондентов по полу (gender)

Доля женщин и мужчин в рассматриваемой выборке одинакова


Болезни

Мы сделали Классификацию заболеваний на три категории :

  • 1)Заболевания, которые передаются по наследству и соответственно могут повлиять на принятие решения о ребенке;
  • 2)Заболевания, которые могут существенно повлиять на течение беременности, соответственно вызвать патологии и сильно влияют на принятие решения;
  • 3)Заболевания, которые могут стать причиной прерывания беременности.

Стоит отметить, что категории 2 и 3 относятся только к женщинам.

Также некоторые значимые заболевания были включены в перменные, перечисленные выше:

  • 1)онкология,
  • 2)гинекологические заболевания,
  • 3)инсульт,
  • 4)инфаркт,
  • 5)туберкулез,

Добавлена переменная психологические заболевания.

С помощью научных статей и информации из сети мы распределили все наши данные по заболеваниям среди вышеуказанных категорий.Сделали описательную статистику.

По итогам нашей описательной статистики мы получили следующие выводы.


Заболевания, которые могут повлиять на репродуктивную системы только женщин (reproductive_diseases)

Мы получили, что 8% женщин подвержены подобным заболеваниям.


Серьезные нервные расстройства, депрессии (mental_diseases)

7,7% людей подвержены нервным расстройствам и депрессиям в нашей выборке.


Болезни передающиеся по наследству (hereditary)

45,1% людей имеют болезни, которые передаются по наследству будущим детям. То есть все-таки большая часть респондентов не имеет заболеваний, которые передаются по наследству.


Болезни, которые могут стать причиной прерывания беременности (termination_pregnancy)

31,6% женщин имеют болезни, которые могут стать причиной для прерывания беременности.


Общее описание распределения респондентов по частоте проверке здоровья (health_monitoring)

Переменная отражает, как часто индивид посещает врача в течение года. Один раз в месяц, или же несколько раз в месяц посещают врача лишь 6% респондентов, 1-3 раза в год обращаются к врачу 66,1% индивидов, остальные 27,9% посещают врача реже 1 раза в год.




2.2. Основные зависимости между данными










10. Заключение

Обоснование соответствия данных вопросу

Данные соответствуют вопросу, потому что данные в зависимой переменной (количество детей) распределены относительно равномерно. Отобрано достаточно критических переменных для объяснения влияния различных характеристик индивида на количество имеющихся у него детей. Влияющая переменная(предиктор)- размер заработной платы также распределена равномерно. Выбросы во всех переменных были изменены на “NA” данные и определено, какие переменные наиболее значимы для предстоящего анализа.

Предварительная формулировка модели

На основании разведывательного анализа данных выделили ключевые группы факторов, которые могут повлиять на количество детей и соответственно должны быть включены в модель множественной регрессии:

  • пол, возраст, регион проживания и религия

  • характеристики образования индивида

  • характеристики работы индивида

  • характеристики семейного статуса

  • характеристики жилья

  • субъективная удовлетворенность от жизни и материального положения

  • самооценка здоровья и наличие болезней

Ожидаемые результаты

Мы предполагаем, что:

  • Индивиды, состоящие в браке, больше склонны заводить детей, чем те, кто не обладает брачным статусом.

  • Сфера работы индивида практически не влияет на количество детей.

  • Наличие хронических болезней значимо влияет на желание индивидов заводить детей.

  • Размер заработной платы положительно коррелирует с количеством детей, но только до определенного уровня.

  • Женщины предпочитают заводить детей после 30 лет.

  • Наличие работы существенно влияет на наличие детей.