Команда №4
Наталья Добрецова БЭК-196
Ксения Ковылёва БЭК-196
Eлизавета Богданова БЭК-196
Полина Лобач БЭК-196
Анастасия Кошевых БЭК-196
Ольга Коробанова БЭК-195




Санкт-Петербург, 2021




Содержание

  1. Вводная часть, описывающая постановку и обоснование вопроса
  2. Описание данных, разведанализ данных
  1. Формулировка и обоснование модели или моделей
  2. Ожидаемые результаты
  3. Результаты регрессионного анализа
  4. Анализ результатов, включая результаты проведения статистических тестов или других необходимых процедур
  5. Ответ на содержательный вопрос в рамках проведенного анализа, при необходимости сопровождаемый уместной визуализацией результатов или аналитическими выкладками на основе проведенного анализа
  6. Критический анализ полученных результатов, анализ ограничений исследования
  7. Дискуссионная часть с предложениями по возможному расширению исследования
  8. Заключение
  9. Оценка вкладов членов команды в групповую работу
  10. Необходимые приложения с техническими результатами

Приложение с кодами

Необходимые ссылки на источники (литературу или данные)

Ссылки на необходимые онлайн-приложения (наборы данных, неформатные таблицы или графики и т.п.)



1.Вводная часть, описывающая постановку и обоснование вопроса


Позднее материнство является набирающей популярность тенденцией в современном мире. Согласно данным Министерства труда РФ средний возраст рождения первенца в России ежегодно “сдвигается в более старшую возрастную когорту”, сейчас он составляет в среднем 28 лет, к 2030 году прогнозируют появление первого ребенка у женщин 30-летнего возраста. Считается, что отложенное материнство связано с расширением карьерных возможностей для женщин. Действительно, в развитых странах все чаще проблемой становится выбор между деторождением с одной стороны и реализацией в профессиональной деятельности и стремлением к высокому заработку - с другой. Можно предположить, что молодые люди нацелены на, чтобы обеспечить достойное существование себе и своим детям, а для того, чтобы претворить “мечты” в жизнь, необходим соответствующий уровень дохода.


В данной работе мы хотим выяснить, влияет ли устойчивое материальное положение, в частности размер заработной платы, на количество детей. Наш вопрос основан на следующей логике: с одной стороны, чем больше доход человека, тем больше детей в своей семье он может обеспечить материально, и в таком случае, зависимость количества детей от заработной платы должна быть положительной; с другой стороны, люди, которые много зарабатывают, больше времени и внимания уделяют своему карьерному развитию, следовательно, для них рождение детей будет не в приоритете.


Таким образом, изучение влияние размера заработной платы на количество детей в современных реалиях требует должного внимания.





2. Описание данных, разведанализ данных


Для изучения поставленного исследовательского вопроса мы использовали данные 29-й волны (2020 год) ежегодного Российского мониторинга экономического положения и здоровья населения (РМЭЗ) НИУ ВШЭ. В качестве выборочной совокупности мы рассматривали индивидов женского пола от 18 до 49 лет и индивидов мужского пола от 18 до 55 лет (общепризнанный репродуктивный возраст для мужчин и женщин), проживающих в крупных городах России (с населением более 250 000 человек).


Зависимой переменной в данной работе является количество детей. В качестве основного регрессора выступает средняя заработная плата за 5 лет. Важно отметить, что для вычисления значений данной переменной мы обращались к результатам 25-й, 26-й, 27-й, 28-й и 29-й волн, что соответствует опросам, проводимым с 2016 по 2020 годы.


Ссылка на диск с таблицей изначальных данных и список переменных:

Ссылка на данные


В процессе работы с данными мы проделали следующие действия:

После окончательной корректировки были получены данные:

Ссылка на данные



2.1. Разведывательный анализ данных

На данном этапе мы вычислили описательные статистики всех переменных (минимальное и максимальное значение, среднее по выборке и стандартное отклонение для количественных переменных, также определили процентное и количественное распределение ответов по категориальным переменным) и визуализировали результаты в виде графиков (гистограмм, графиков плотности распределения и boxplot). Мы начали анализ данных с нашей зависимой переменной -количества детей.


Количество детей (children_number)

Количество детей является зависимой переменной. Сделав описательную таблицу по данной переменной,мы выяснили,что среднее значение переменной “количество детей” равняется 1. В таблице указано значение 1,65. Принимая во внимание,что значение количества детей является целым числом, мы берем значение 1.


Средняя заработная плата (salary_avg5)

Далее мы рассмотрели главный регрессор заработную плату. Сперва нам надо было удалить выбросы,что мы сделали благодаря графику boxplot для наглядности и формуле МКР для удаления выбросов. В итоге мы получили среднюю заработную плату за последние 5 лет,медиана которой равна 28 333 рублей. Минимальная ЗП равна 1200 рублей, а максимальная 62 150 рублей.


Возраст (age)

Затем мы обратились к переменной возраст. Средний возраст составил 35,36 лет. Также мы проанализировали средний возраст среди мужчин и женщин. В нашей выборке средний возраст среди мужчин 36,39 лет, в то время как у женщин - 34,34 года.


Жилая площадь семьи (area)

Изначальные данные показывают,что максимальное значение площади 170 кв. метров. Построив график boxplot, мы увидели выбросы такие,например,как жилая площадь в 170 кв.метров. Мы применили формулу МКР для удаления выбросов и получения распределения близкому к нормальному, после чего получили максимальное значение - 71, минимальное - 8. И среднюю площадь - 32 кв.метра.


Количество рабочих часов в неделю (working_hours_per_week)

Также важно проанализировать количество рабочих часов в неделю. Проанализировав изначальные данные, мы заметили,что есть такие значения рабочих часов в неделю как 96,120,196. Мы применили формулу МКР для удаления выбросов.После очистки данных мы получили распределение близкому к нормальному. Далее мы сделали описательную статистику и получили следующие результаты. Среднее значение равно 41,6 час, что отражает адекватное количество рабочих часов в неделю у респондентов, так как продолжительность рабочей недели обычно составляет 40 часов.

Общая описательная статистика по среднему количеству рабочих часов в неделю
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 943 40.25769 NA 40 40.03179 0 36 47 11 1.232102 5.409294 0.0509326


Население (popul)

Мы проводим анализ только в крупных регионах, таким образом минимальное значение населения равно 326 900 человек. А максимальное значение в городе Москва- 12 325 400 человек.


Работает ли дома, кол-во и процентное распределение ответов (workHome)

Большая часть респондентов работает не удаленно (85.3%) и только примерно 1/7 всей выборки работает удаленно(14.7%). Есть смысл полагать, что в в общем анализе данная переменная не будет оказывать существенного влияния на зависимую переменную из-за смещенности выборки.


Работает ли официально, кол-во и процентное распределение ответов (workContract)

Очень малая часть респондентов (около 7 %) не оформлены официально. Такая разница в распределении впоследствии может сделать менее значимыми результаты анализа с использованием данной переменной. В соответствии с этой переменной также можно предположить что переменная “Переживание о потери работы” также будет со неравномерно распределена, т.к. официальное трудоустройство обычно предполагает большее доверие работника компании.


Насколько удовлетворён жизнью, по возрастанию,кол-во и процентное распределение ответов (lifeSatisfaction)

Распределение ответов об удовлетворённости жизнью близко к нормальному: чаще всего респонденты “скорее удовлетворены своей жизнью” (47,9%), и редко удовлетворённость доходит до крайностей: совсем не удовлетворены жизнью всего 3,9% респондентов, а полностью удовлетворены- 6,7%.


Насколько удовлетворён материальным положением, по возрастанию,кол-во и процентное распределение ответов (incomeSatisfaction)

Ситуация с удовлетворённостью материальным положением значительно отличается от распределения ответов об удовлетворённости жизнью. Всего 1% респондентов полностью удовлетворены материальным положением, однако 1/4 часть опрошенных совсем не удовлетворены материальным положением.
Относительное и абсолютное распределение индивидов по критерию удовлетворенности доходом
Var1 Freq percentage
1 531 25.7
2 761 36.8
3 428 20.7
4 327 15.8
5 21 1.0
Категория(номер) Значение
1 Совсем не удовлетворены
2 Не очень удовлетворены
3 И да, и нет
4 Скорее удовлетворены
5 Полностью удовлетворены

Общее описание данных о проживании с партнером (patnership)

Переменная показывает, проживает ли индивид вместе с партнером/партнершей, не регистрируя свои отношения. 72,3% опрашиваемых не живут с партнером/партнершей, 24% проживают вместе со своим партнёром и считают себя мужем и женой, и 3,7% людей живут вместе, но не считают себя супругами. Для удобства при анализе мы решили объединить два последних ответа в один - Да, индивид проживает вместе с партнёром/партнёршей. В данном случае мы можем игнорировать различия в этих переменных, так как у нас есть отдельная переменная описывающая брачный статус.


Состоит ли индивид в браке, кол-во и процентное распределение ответов (maritalStatus)

Чаще всего респонденты состоят в первом зарегистрированном браке или никогда не состояли в браке. Очень редко респонденты зарегистрированы, но не живут вместе, и всего 1,5% составляют вдовы и вдовцы.


Общее описание распределения респондентов по уровню образования (completed_education)

По данному распределению видно, что в большинство респондентов имеют законченное среднее или высшее образование. Очень малая доля имеет незаконченное среднее образование или только 6 классов. Будет наиболее эффективно использовать данную переменную для сравнения индивидов с законченным высшим или средним образованием.

Относительное и абсолютное распределение индивидов по критерию “уровень образования”
Var1 Freq percentage
законченное высшее образование и выше 827 39.9
законченное среднее образование 498 24.0
законченное среднее специальное образование 573 27.7
незаконченное среднее образование (7 - 8 кл) 16 0.8
незаконченное среднее образование (7 - 8 кл) + что-то еще 155 7.5
окончил 0 - 6 классов 2 0.1

Общее описание распределения респондентов по принадлежности к определенной национальности (nationality )

91.1% всех респондентов по национальности относят себя к русским. Остальные национальности представлены в значительно меньшем количестве. Можно предположить, что данная переменная не принесет значимых результатов при анализе.


Общее описание распределения респондентов по роду основной деятельности (main_activity)

Большинство респондентов (72.6%) на момент опроса работают. Мы считаем, что для анализа будет наиболее эффективно использовать ответы “Вы находитесь в отпуске - декретном или по уходу за ребенком до 3-х лет”, “Вы сейчас работаете”, “Или у Вас сейчас нет работы”, так как оставшиеся категории представлены лишь 2-мя респондентами.


Общее описание распределения респондентов по основной работе (industry_of_work)

Данная переменная демонстрирует процентное распределение индивидов по областям, в которых они работают. Самое большое количество респондентов работает а торговле (29,9%). В области транспорта и связи работает 10,7%. На остальные области приходится от 0,1 до 7,9 % респондентов .

Относительное и абсолютное распределение индивидов по критерию “Сфера работы”
Var1 Freq percentage
IT, ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ 15 1.0
АРМИЯ, МВД, ОРГАНЫ БЕЗОПАСНОСТИ 75 4.8
ВОЕННО-ПРОМЫШЛЕННЫЙ КОМПЛЕКС 26 1.7
ГРАЖДАНСКОЕ МАШИНОСТРОЕНИЕ 48 3.1
ДЕРЕВООБРАБАТЫВАЮЩАЯ ПРОМЫШЛЕННОСТЬ, ЛЕСНОЕ ХОЗЯЙСТВО 3 0.2
ДРУГАЯ ОТРАСЛЬ ТЯЖЕЛОЙ ПРОМЫШЛЕННОСТИ 61 3.9
ЖИЛИЩНО-КОММУНАЛЬНОЕ ХОЗЯЙСТВО 49 3.1
ЗДРАВООХРАНЕНИЕ 79 5.0
ЛЕГКАЯ, ПИЩЕВАЯ ПРОМЫШЛЕННОСТЬ 73 4.7
НАУКА, КУЛЬТУРА 40 2.6
НЕФТЕГАЗОВАЯ ПРОМЫШЛЕННОСТЬ 32 2.0
ОБРАЗОВАНИЕ 123 7.9
ОПЕРАЦИИ С НЕДВИЖИМОСТЬЮ 8 0.5
ОРГАНЫ УПРАВЛЕНИЯ 22 1.4
РЕКЛАМА, МАРКЕТИНГ 12 0.8
СЕЛЬСКОЕ ХОЗЯЙСТВО 7 0.4
СМИ, ИЗДАТЕЛЬСТВО, ПЕЧАТЬ, ТЕЛЕКОММУНИКАЦИИ 14 0.9
СОЦИАЛЬНОЕ ОБСЛУЖИВАНИЕ 5 0.3
СПОРТ, ТУРИЗМ, РАЗВЛЕЧЕНИЯ 14 0.9
СТРОИТЕЛЬСТВО 111 7.1
ТОРГОВЛЯ, БЫТОВОЕ ОБСЛУЖИВАНИЕ 468 29.9
ТРАНСПОРТ, СВЯЗЬ 168 10.7
УСЛУГИ НАСЕЛЕНИЮ 18 1.1
ФИНАНСЫ 56 3.6
ХИМИЧЕСКАЯ ПРОМЫШЛЕННОСТЬ 2 0.1
ЭКОЛОГИЯ, ЗАЩИТА ОКРУЖАЮЩЕЙ СРЕДЫ 1 0.1
ЭНЕРГЕТИЧЕСКАЯ ПРОМЫШЛЕННОСТЬ 25 1.6
ЮРИСПРУДЕНЦИЯ 11 0.7

Общее описание распределения респондентов по региону проживания (region)

Данная переменная даст объективные результаты при анализе, так как распределение респондентов по регионам относительно равномерное. Каждый регион включает в себя от 4 до 9,6% респондентов, за исключением Москвы. Число опрошенных, проживающих в Москве, составляет 18,1%.

Относительное и абсолютное распределение индивидов по критерию “Регион проживания”
Var1 Freq percentage
Владивосток 135 6.5
Казань 125 6.0
Краснодар 160 7.7
Красноярск 122 5.9
Курган 91 4.4
Липецк 156 7.5
Москва 376 18.1
Нижний Новгород 152 7.3
Санкт-Петербург 199 9.6
Саратов 118 5.7
Смоленск 83 4.0
Томск 96 4.6
Тула 132 6.4
Челябинск 130 6.3

Общее описание распределения респондентов по принадлежности к религии (religion)

Доля респондентов, относящих себя к определенной конфессии, составляет 70.8%. Также стоит отметить, что 81.3% индивидов исповедуют “Православие”, 12.2% являются атеистами и 5.2% исповедуют “Мусульманство”.


Общее описание распределения респондентов по полу (gender)

Доля женщин и мужчин в рассматриваемой выборке одинакова


Болезни

Мы сделали Классификацию заболеваний на три категории :

  • 1)Заболевания, которые передаются по наследству и соответственно могут повлиять на принятие решения о ребенке;
  • 2)Заболевания, которые могут существенно повлиять на течение беременности, соответственно вызвать патологии и сильно влияют на принятие решения;
  • 3)Заболевания, которые могут стать причиной прерывания беременности.

Стоит отметить, что категории 2 и 3 относятся только к женщинам.

Также добавлены отдельно заболевания, которые могут оказать сильное влияние на решение о беременности отдельно:

  • 1)онкология,
  • 2)гинекологические заболевания,
  • 3)инсульт,
  • 4)инфаркт,
  • 5)туберкулез,
  • 6)психологические заболевания.

С помощью научных статей и информации из сети мы распределили все наши данные по заболеваниям среди вышеуказанных категорий.Сделали описательную статистику.

По итогам нашей описательной статистики мы получили следующие выводы.


Заболевания, которые могут повлиять на репродуктивную системы только женщин (reproductive_diseases)

Мы получили, что 8% женщин подвержены подобным заболеваниям.


Онкология (oncology)

Всего 0,6% женщин и мужчин болеют онкологией в нашей выборке.


Сердечный приступ (heart_attack)

У 0,5% мужчин и женщин был сердечный приступ.


Инсульт (stroke)

0,3% людей перенесли инсульт.


Туберкулез(tuberculosis)

0,3% женщин и мужчин болели туберкулезом.


Серьезные нервные расстройства, депрессии (mental_diseases)

7,7% людей подвержены нервным расстройствам и депрессиям в нашей выборке.


Болезни передающиеся по наследству (hereditary)

45,1% людей имеют болезни, которые передаются по наследству будущим детям. То есть все-таки большая часть респондентов не имеет заболеваний, которые передаются по наследству.


Болезни, влияющие на беременность (impact_pregnancy)

36,5% женщин имеют заболевания, которые оказывают влияние на беременность.


Болезни, которые могут стать причиной прерывания беременности (termination_pregnancy)

31,6% женщин имеют болезни, которые могут стать причиной для прерывания беременности.


Общее описание распределения респондентов по частоте проверке здоровья (health_monitoring)

Переменная отражает, как часто индивид посещает врача в течение года. Один раз в месяц, или же несколько раз в месяц посещают врача лишь 6% респондентов, 1-3 раза в год обращаются к врачу 66,1% индивидов, остальные 27,9% посещают врача реже 1 раза в год.


Общее описание распределения респондентов по оценке своего физического здоровья (health_estimation)

Переменная является оценкой собственного здоровья индивида, где 1 - очень плохое, а 5 - очень хорошее состояние здоровья. Данные показывают, что 54,9% оценивают свое состояние как хорошее и очень хорошее, 41,6% - как удовлетворительное и лишь 3,5% респондентов расценивают свое здоровье как плохое и совсем плохое.

Переменная является оценкой собственного здоровья индивида, где 1 - очень плохое, а 5 - очень хорошее состояние здоровья. Данные показывают, что 54,9% оценивают свое состояние как хорошее и очень хорошее, 41,6% - как удовлетворительное и лишь 3,5% респондентов расценивают свое здоровье как плохое и совсем плохое.



2.2. Основные зависимости между данными

Наиболее интересными являются зависимости между переменными, такие как категория основной работы и заработная плата, или наличие работы и возраст индивида. Данных зависимостей достаточно много в данных, поэтому представим наиболее интересные из них:

  1. Во всех возрастных группах преобладает тенденция жить отдельно, что может в последствии сильно влиять на принятие решения о ребенке


  1. Распределение уровней образования и возрастов респондентов. В общем имеется тенденция к увеличению числа респондентов, имеющих законченное высшее образование с увеличением возраста.


  1. На графике показано, что заболеваемость мужчин и женщин наследственными болезнями в равной степени распределена.


  1. По данным видно, что при увеличении количества детей наиболее часто встречаемым вариантом семейного положения остается зарегестрированный брак, тогда как 1 и 2 ребенка могут быть в семьях с разным семейным положением.


  1. По графику можно предположить, что количество детей в семье также мало зависит от уровня образования, однако возможной ошибкой в данных можно счесть количество 6 детей в семье с образованием незаконченным средним.





10. Заключение

Обоснование соответствия данных вопросу

Данные соответствуют вопросу, потому что данные в зависимой переменной (количество детей) распределены относительно равномерно. Отобрано достаточно критических переменных для объяснения влияния различных характеристик индивида на количество имеющихся у него детей. Влияющая переменная(предиктор)- размер заработной платы также распределена равномерно. Выбросы во всех переменных были изменены на “NA” данные и определено, какие переменные наиболее значимы для предстоящего анализа.

Предварительная формулировка модели

На основании разведывательного анализа данных выделили ключевые группы факторов, которые могут повлиять на количество детей и соответственно должны быть включены в модель множественной регрессии:

  • пол, возраст, регион проживания и религия

  • характеристики образования индивида

  • характеристики работы индивида

  • характеристики семейного статуса

  • характеристики жилья

  • субъективная удовлетворенность от жизни и материального положения

  • самооценка здоровья и наличие болезней

Ожидаемые результаты

Мы предполагаем, что:

  • Индивиды, состоящие в браке, больше склонны заводить детей, чем те, кто не обладает брачным статусом.

  • Сфера работы индивида практически не влияет на количество детей.

  • Наличие хронических болезней значимо влияет на желание индивидов заводить детей.

  • Размер заработной платы положительно коррелирует с количеством детей, но только до определенного уровня.

  • Женщины предпочитают заводить детей после 30 лет.

  • Наличие работы существенно влияет на наличие детей.