Ссылка на отчет о сборе, очистке и модификации данных

Ссылка на данные

Исследовательский вопрос

На данном этапе мы провели разведывательный анализ данных, а именно: изменили тип переменных, где это было необходимо, заменили пропущенные значения на NA, очистили данные от выбросов, вычислили описательные статистики всех переменных (минимальное и максимальное значение, среднее по выборке и стандартное отклонение для количественных переменных, также определили процентное и количественное распределение ответов по категориальным переменным) и визуализировали результаты в виде графиков (гистограмм, графиков плотности распределения и boxplot).

Таблица данных:

Таблицы описательных статистик

Общее описаниее переменных данных
popul region marital_status age completed_education gender nationality main_activity industry_of_work working_hours_per_week workHome workContract lifeSatisfaction incomeSatisfaction haveJob yj322 patnership children_number religion_ health_monitoring health_estimation salary_avg5 area loan reproductive_diseases oncology heart_attack stroke tuberculosis mental_diseases hereditary impact_pregnancy termination_pregnancy
Min. : 326900 Length:2075 Length:2075 Min. :18.00 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Min. :36.00 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Min. :1.000 Length:2075 Length:2075 Length:2075 Min. : 1200 Min. : 8.00 Min. : 300 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Length:2075 Min. :0.0000 Min. :0.0000 Min. :0.0000
1st Qu.: 524700 Class :character Class :character 1st Qu.:28.00 Class :character Class :character Class :character Class :character Class :character 1st Qu.:40.00 Class :character Class :character Class :character Class :character Class :character Class :character Class :character 1st Qu.:1.000 Class :character Class :character Class :character 1st Qu.:20000 1st Qu.:22.00 1st Qu.: 6000 Class :character Class :character Class :character Class :character Class :character Class :character 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000
Median : 973800 Mode :character Mode :character Median :35.00 Mode :character Mode :character Mode :character Mode :character Mode :character Median :40.00 Mode :character Mode :character Mode :character Mode :character Mode :character Mode :character Mode :character Median :1.000 Mode :character Mode :character Mode :character Median :26667 Median :32.00 Median :10500 Mode :character Mode :character Mode :character Mode :character Mode :character Mode :character Median :0.0000 Median :0.0000 Median :0.0000
Mean : 3255878 NA NA Mean :35.37 NA NA NA NA NA Mean :40.26 NA NA NA NA NA NA NA Mean :1.652 NA NA NA Mean :28073 Mean :32.99 Mean :13670 NA NA NA NA NA NA Mean :0.4506 Mean :0.3663 Mean :0.3161
3rd Qu.: 4879600 NA NA 3rd Qu.:43.00 NA NA NA NA NA 3rd Qu.:40.00 NA NA NA NA NA NA NA 3rd Qu.:2.000 NA NA NA 3rd Qu.:35400 3rd Qu.:41.77 3rd Qu.:20000 NA NA NA NA NA NA 3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.:1.0000
Max. :12325400 NA NA Max. :55.00 NA NA NA NA NA Max. :47.00 NA NA NA NA NA NA NA Max. :7.000 NA NA NA Max. :58333 Max. :71.00 Max. :40000 NA NA NA NA NA NA Max. :1.0000 Max. :1.0000 Max. :1.0000
NA NA NA NA NA NA NA NA NA NA’s :1132 NA NA NA NA NA NA NA NA’s :849 NA NA NA NA’s :649 NA’s :101 NA’s :1546 NA NA NA NA NA NA NA NA NA

Числовые переменные

Общее описание численности населения в регионах

Основываясь на графике переменной population,видно, что существуют выбросы. На графике есть точка, значение которой почти достигает 12,5 млн. Данное значение относится к городу Москва, поэтому нельзя точно сказать, что данное значение действительно является выбросом.

Общее описание количества рабочих часов в неделю

Основываясь на графике “ящик с усами” кол-ва рабочих часов в неделю, мы видим, что есть выбросы. Значительную долю занимает количество часов работы в неделю в промежутке между 35 и 50 часами. Также стоит уточнить, что эти данные могут показывать значения и для неработающих людей, любо индивидов, основная деятельность которых не является работой. После удаления выбросов

Общее описание возраста респонедентов

Средний возраст индивидов в рассматриваемой выборке составляет примерно 35 лет. Заранее из выборки был выбран только рекпродукивный возраст для мужчин и для женщин. Нельзя сказать, что выборка распределена нормально, однако выбросов явных нет.

Общая описательная статистика по переменной “Возраст”
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 2075 35.36964 9.663616 35 35.40277 11.8608 18 55 37 -0.0186473 -0.9121067 0.2121439

Общее описание жилой площади семьи

В среднем индивиды занимают жилую площадь, равную примерно 35 квадратным метрам. При этом стоит отметить, что только 0.7% респондентов владеют жилой площадью более 100 квадратных метров.По графикам видно наличие выбросов, которые могут сильно повлиять на дальнешую работу с данными, соответственно было принято решение удалить данные отклонения.

Общая описательная статистика по переменной “Жил. площадь”
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 1974 32.98799 12.82256 32 32.32392 14.826 8 71 63 0.4052466 -0.2832087 0.2886032

После удаления выбросов:

Общее описание средней заработной платы индивида за 5 лет и за последний год(последнюю волну опроса)

Средняя заработная плата индивидов за последние 5 лет составляет 21 175 рублей.

Общая описательная статистика по переменной “Средняя заработная плата за 5 лет”
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 1426 28072.6 NA 26666.67 27467.34 11663.12 1200 58333.33 57133.33 0.4195684 -0.3616573 307.8143

По данным описательной статистики и на графиках видны выбросы в данных и ненормированное распределение. Скорее всего в дальнейшем при регрессии нужно будет логарифмировать данную переменную и удалить выбросы в данных.

После удаления выбросов:

Общее описание средних трат на погашение кредитов семьи в год

В среднем в 2020 году на погашение кредита индивиды тратят 14 628 рублей. Однако и в данной переменной имеются сильные отклонения в значениях, которые в последствии будут убраны для нормировки данных.В общем распределение близко к нормальному.

Общая описательная статистика по переменной “Cумма кредитов”
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 529 13669.82 9155.752 10500 12664.66 8154.3 300 40000 39700 0.9404101 0.4071365 398.0762

После удаления выбросов:

Общее статистическое описание количества детей у инидвида

Данная переменная является главной зависимой переменной В нашей выборке респонденты имеют от одного до семи детей, у большинства опрошенных все же 1-2 ребёнка.

Общая описательная статистика по переменной “Количество детей”
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 1226 1.651713 0.8252551 1 1.517312 0 1 7 6 1.687096 5.014261 0.0235691

Категориальные переменные

Общее описание данных о проживании с партнером

Переменная показывает, проживает ли индивид вместе с партнером/партнершей, не регистрируя свои отношения. 72,3% опрашиваемых не живут с партнером/партнершей, 24% проживают вместе со своим партнёром и считают себя мужем и женой, и 3,7% людей живут вместе, но не считают себя супругами.

Относительное и абсолютное распределение индивидов по критерию “Проживание с партнером”
Var1 Freq percentage
Да, проживание с партнером 1051 100

Работает ли дома, кол-во и процентное распределение ответов

Большая часть респондентов работает не удаленно и только примерно 1/6 всей выборки работает удаленно. Есть смысл полагать, что в в общем анализе данная переменная не будет оказывать существенного влияния на зависимую переменную из-за смещенности выборки.

Относительное и абсолютное распределение индивидов по критерию дистанционной работы(1-работает дома,0-работает в офисе)
Var1 Freq percentage
0 1265 85.3
1 218 14.7

Работает ли официально, кол-во и процентное распределение ответов

Очень малая часть респондентов (около 7 %) не оформлены официально. Такая разница в распределении впоследствии может сделать менее значимыми результаты анализа с использованием данной переменной. В соответствии с этой переменной также можно предположить что переменная “Переживание о потери работы” также будет со неравномерно распределена, т.к. офицциальное трудоустройство обычно предполагает большее доверие работника компании.

Относительное и абсолютное распределение индивидов по критерию официальной работы(1-работает официально,0-работает не официально)
Var1 Freq percentage
0 100 6.9
1 1339 93.1

Переживает что потеряет работу, степень беспокойства по возрастанию, кол-во и процентное распределение ответов

Распределение ответов относительно равномерно по всем категориям, за исключением той, где респонденты совсем не беспокоятся о том, что могут потерять работу (таких ответов всего 6,3%). В соответствии с нашим предположением выше наименьший процент индивидов опасается потерять работу.

Относительное и абсолютное распределение индивидов по критерию переживает о потере работы
Freq percentage
Категория(номер) Значение
1 Совсем не беспокоит
2 Немного беспокоит
3 И да, и нет
4 Не очень беспокоит
5 Очень беспокоит

Насколько удовлетворён жизнью, по возрастанию,кол-во и процентное распределение ответов

Распределение ответов об удовлетворённости жизнью близко к нормальному: чаще всего респонденты “скорее удовлетворены своей жизнью” (47,9%), и редко удовлетворённость доходит до крайностей: совсем не удовлетворены жизнью всего 3,9% респондентов, а полностью удовлетворены- 6,7%.

Относительное и абсолютное распределение индивидов по критерию удовлетворенности жизнью
Var1 Freq percentage
1 81 3.9
2 325 15.7
3 533 25.8
4 990 47.9
5 139 6.7
Категория(номер) Значение
1 Совсем не удовлетворены
2 Не очень удовлетворены
3 И да, и нет
4 Скорее удовлетворены
5 Полностью удовлетворены

Насколько удовлетворён метериальным положением, по возрастанию,кол-во и процентное распределение ответов

Ситуация с удовлетворённостью материальным положением значительно отличается от распределения ответов об удовлетворённости жизнью. Всего 1% респондентов полностью удовлетворены материальным положением, однако 1/4 часть опрошенных совсем не удовлетворены материальным положением. Мы решили объединить ответы “Скорее удовлетворены” и “Полностью удовлетворны” в одну категорию - “Удовлетворены” и присвоить ей категориальный номер 4. Процент ответов этой категории теперь составляет 16,8%.

Относительное и абсолютное распределение индивидов по критерию удовлетворенности доходом
Var1 Freq percentage
1 531 25.7
2 761 36.8
3 428 20.7
4 327 15.8
5 21 1.0
Категория(номер) Значение
1 Совсем не удовлетворены
2 Не очень удовлетворены
3 И да, и нет
4 Скорее удовлетворены
5 Полностью удовлетворены

Есть ли у респондента работа, кол-во и процентное распределение ответов

Относительное и абсолютное распределение индивидов по критерию наличие работы(1 - Респондент сейчас работает или в отпуске 0 - У респондента нет работы)
Var1 Freq percentage
0 502 24.2
1 1573 75.8

Состоит ли индивид в браке, кол-во и процентное распределение ответов

Чаще всего респонденты состоят в первом зарегистрированном браке или никогда не состояли в браке. Очень редко респонденты зарегистрированы, но не живут вместе, и всего 1,5% составляют вдовы и вдовцы.
Относительное и абсолютное распределение индивидов по критерию семейное положение
Freq percentage

Общее описание распределения респондентов по уровеню образования

По данному распределению видно, что в большинство респондентов имеют законченное среднее или высшее образование. Очень малая доля имеет незаконченное среднее образование или только 6 классов. Будет наиболее эффективно использовать данную переменную для сравнения индивидов с законченным высшим или средним образованием.

Относительное и абсолютное распределение индивидов по критерию “уровень образования”
Var1 Freq percentage
законченное высшее образование и выше 827 39.9
законченное среднее образование 498 24.0
законченное среднее специальное образование 573 27.7
незаконченное среднее образование (7 - 8 кл) 16 0.8
незаконченное среднее образование (7 - 8 кл) + что-то еще 155 7.5
окончил 0 - 6 классов 2 0.1

Общее описание распределения респондентов по принадлежности к определенной национальности

По данному распределению видно, что 91.1% всех респондентов считают себя русскими по национальности. Остальные национальности представлены значительно меньше. Можно предположить, что данная переменная не даст значимых результатов при анализе.

Общее описание распределения респондентов по роду основной деятельности

Большинство респондентов (72.6%) на момент опроса работают. Мы считаем, что для анализа будет наиболее эффективно использовать ответы “Вы находитесь в отпуске - декретном или по уходу за ребенком до 3-х лет”, “Вы сейчас работаете”, “Или у Вас сейчас нет работы”, так как оставшиеся категории представлены лишь 2-мя респондентами.

Относительное и абсолютное распределение индивидов по критерию “Основная деятельность”
Var1 Freq percentage
Вы находитесь в любом другом оплачиваемом отпуске 1 0.0
Вы находитесь в неоплачиваемом отпуске 1 0.0
Вы находитесь в отпуске - декретном или по уходу за ребенком до 3-х лет 64 3.1
Вы сейчас работаете 1506 72.6
Или у Вас сейчас нет работы 502 24.2

Общее описание распределения респондентов по основной работе

Мы считаем, что данная переменная даст значимые результаты при анализе, если анализировать наиболее популярные профессии. Так как очень многие профессии представлены лишь 1-5 индивидами, и их включение в переменную не покажет объективной взаимосвязи с другими переменными.

Общее описание распределения респондентов по сфере основной работы

Мы считаем, что использование в анализе сферы деятельности (переменная industry_of_work) намного эффективнее, чем использование конкретной профессии (переменная main_job). Данная переменная покажет более объективные результаты при анализе, так как её консолидированные категории включают большее число респондентов.

Относительное и абсолютное распределение индивидов по критерию “Сфера работы”
Var1 Freq percentage
IT, ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ 15 1.0
АРМИЯ, МВД, ОРГАНЫ БЕЗОПАСНОСТИ 75 4.8
ВОЕННО-ПРОМЫШЛЕННЫЙ КОМПЛЕКС 26 1.7
ГРАЖДАНСКОЕ МАШИНОСТРОЕНИЕ 48 3.1
ДЕРЕВООБРАБАТЫВАЮЩАЯ ПРОМЫШЛЕННОСТЬ, ЛЕСНОЕ ХОЗЯЙСТВО 3 0.2
ДРУГАЯ ОТРАСЛЬ ТЯЖЕЛОЙ ПРОМЫШЛЕННОСТИ 61 3.9
ЖИЛИЩНО-КОММУНАЛЬНОЕ ХОЗЯЙСТВО 49 3.1
ЗДРАВООХРАНЕНИЕ 79 5.0
ЛЕГКАЯ, ПИЩЕВАЯ ПРОМЫШЛЕННОСТЬ 73 4.7
НАУКА, КУЛЬТУРА 40 2.6
НЕФТЕГАЗОВАЯ ПРОМЫШЛЕННОСТЬ 32 2.0
ОБРАЗОВАНИЕ 123 7.9
ОПЕРАЦИИ С НЕДВИЖИМОСТЬЮ 8 0.5
ОРГАНЫ УПРАВЛЕНИЯ 22 1.4
РЕКЛАМА, МАРКЕТИНГ 12 0.8
СЕЛЬСКОЕ ХОЗЯЙСТВО 7 0.4
СМИ, ИЗДАТЕЛЬСТВО, ПЕЧАТЬ, ТЕЛЕКОММУНИКАЦИИ 14 0.9
СОЦИАЛЬНОЕ ОБСЛУЖИВАНИЕ 5 0.3
СПОРТ, ТУРИЗМ, РАЗВЛЕЧЕНИЯ 14 0.9
СТРОИТЕЛЬСТВО 111 7.1
ТОРГОВЛЯ, БЫТОВОЕ ОБСЛУЖИВАНИЕ 468 29.9
ТРАНСПОРТ, СВЯЗЬ 168 10.7
УСЛУГИ НАСЕЛЕНИЮ 18 1.1
ФИНАНСЫ 56 3.6
ХИМИЧЕСКАЯ ПРОМЫШЛЕННОСТЬ 2 0.1
ЭКОЛОГИЯ, ЗАЩИТА ОКРУЖАЮЩЕЙ СРЕДЫ 1 0.1
ЭНЕРГЕТИЧЕСКАЯ ПРОМЫШЛЕННОСТЬ 25 1.6
ЮРИСПРУДЕНЦИЯ 11 0.7

Общее описание распределения респондентов по региону проживания

Данная переменная даст объективные результаты при анализе, так как распределение респондентов по регионам относительно равномерное. Каждый регион включает в себя от 4 до 18,1% респондентов.

Относительное и абсолютное распределение индивидов по критерию “Регион проживания”
Var1 Freq percentage
Владивосток 135 6.5
Казань 125 6.0
Краснодар 160 7.7
Красноярск 122 5.9
Курган 91 4.4
Липецк 156 7.5
Москва 376 18.1
Нижний Новгород 152 7.3
Санкт-Петербург 199 9.6
Саратов 118 5.7
Смоленск 83 4.0
Томск 96 4.6
Тула 132 6.4
Челябинск 130 6.3

Общее описание распределения респондентов по принадлежности к религии

Доля респондентов, относящих себя к определенной конфессии, составляет 70.8%

Относительное и абсолютное распределение индивидов по критерию “Отношение к религии(1-верующий,0-не верующий)”
Var1 Freq percentage
АРМЯНО-ГРИГОРИАНСКАЯ, ГРИГОРИАНСТВО 1 0.0
БАХАИ, БАХАИЗМ 1 0.0
БУДДИЗМ, ЛАМАИЗМ 7 0.3
ИСЛАМ 1 0.0
ИУДАИЗМ 2 0.1
КАТОЛИЦИЗМ 2 0.1
КРИШНАИЗМ 1 0.0
МУСУЛЬМАНСТВО 106 5.2
НИ К КАКОЙ РЕЛИГИИ 250 12.2
ПАСТАФАРИАНСТВО 1 0.0
ПРАВОСЛАВИЕ 1660 81.3
СВИДЕТЕЛИ ИЕГОВЫ 1 0.0
СТАРОВЕРЫ 1 0.0
ХРИСТИАНСТВО 3 0.1
ЯЗЫЧЕСТВО 4 0.2

Также стоит учеть, что 81.3% индивидов относят себя к вере “Православие”, 12.2% атеисты и 5.2% относят себя к вере “Мусульманство”

data_religion1=as.data.frame(table(na.omit(finished$religion_)))
data_religion1=mutate(data_religion1,percentage=round((data_religion1$Freq)*100/sum(data_religion1$Freq),digits=1))
data_religion1%>%
  kbl(caption = 'Относительное и абсолютное распределение индивидов по религии') %>%
    kable_classic(full_width = T, html_font = "Cambria", position = "left")
Относительное и абсолютное распределение индивидов по религии
Var1 Freq percentage
АРМЯНО-ГРИГОРИАНСКАЯ, ГРИГОРИАНСТВО 1 0.0
БАХАИ, БАХАИЗМ 1 0.0
БУДДИЗМ, ЛАМАИЗМ 7 0.3
ИСЛАМ 1 0.0
ИУДАИЗМ 2 0.1
КАТОЛИЦИЗМ 2 0.1
КРИШНАИЗМ 1 0.0
МУСУЛЬМАНСТВО 106 5.2
НИ К КАКОЙ РЕЛИГИИ 250 12.2
ПАСТАФАРИАНСТВО 1 0.0
ПРАВОСЛАВИЕ 1660 81.3
СВИДЕТЕЛИ ИЕГОВЫ 1 0.0
СТАРОВЕРЫ 1 0.0
ХРИСТИАНСТВО 3 0.1
ЯЗЫЧЕСТВО 4 0.2

Общее описание распределения респондентов по полу

Доля женщин и мужчин в рассматриваемой выборке одинакова.

Относительное и абсолютное распределение индивидов по критерию “пол респондента”(1-женщина,0-мужчина
Var1 Freq percentage
0 1038 50
1 1037 50

Болезни

Мы сделали Классификацию заболеваний на три категории :

  • 1)Заболевания, которые передаются по наследству и соответственно могут повлиять на принятие решения о ребенке;
  • 2)Заболевания, которые могут существенно повлиять на течение беременности, соответственно вызвать патологии и сильно влияют на принятие решения;
  • 3)Заболевания, которые могут стать причиной прерывания беременности.

Стоит отметить, что категории 2 и 3 относятся только к женщинам.

Также добавлены отдельно заболевания, которые могут оказать сильное влияние на решение о беременности отдельно:

  • 1)онкология,
  • 2)гинекологические заболевания,
  • 3)инсульт,
  • 4)инфаркт,
  • 5)туберкулез,
  • 6)психологические заболевания.

С помощью научных статей и информации из сети мы распределили все наши данные по заболеваниям среди вышеуказанных категорий.Сделали описательную статистику.

По итогам нашей описательной статистики мы получили следующие выводы.

Заболевания, которые могут повлиять на репродуктивную системы только женщин

Мы получили, что 8% женщин подвержены подобным заболеваниям.
Относительное и абсолютное распределение индивидов по заболеваниям, влияющим на репродуктивную систему женщин
Var1 Freq percentage
0 941 92
1 82 8

Онкология

Всего 0,6% женщин и мужчин болеют онкологией в нашей выборке.
Относительное и абсолютное распределение индивидов по наличию онкологических заболеваний
Var1 Freq percentage
0 2047 99.4
1 12 0.6

Сердечный приступ

У 0,5% мужчин и женщин был сердечный приступ.
Относительное и абсолютное распределение индивидов по наличию заболевания “Сердечный приступ”
Var1 Freq percentage
0 2063 99.5
1 10 0.5

Инсульт

0,3% людей перенесли инсульт.
Относительное и абсолютное распределение индивидов по наличию заболевания “Инсульт”
Var1 Freq percentage
0 2065 99.7
1 7 0.3

Туберкулез

0,3% женщин и мужчин болели туберкулезом.
Относительное и абсолютное распределение индивидов по наличию заболевания “Туберкулез”
Var1 Freq percentage
0 2063 99.7
1 6 0.3

серьезные нервные расстройства, депрессии

7,7% людей подвержены нервным расстройстам и депрессиям в нашей выборке.
Относительное и абсолютное распределение индивидов по наличию серьезных нервных расстройств, депрессии
Var1 Freq percentage
0 1906 92.3
1 159 7.7

Болезни передающиеся по наследству

45,1% людей имеют болезни, которые передаются по наследству будущим детям.
Относительное и абсолютное распределение индивидов по наличию заболеваний, передающихся по наследству
Var1 Freq percentage
0 1140 54.9
1 935 45.1

Болезни, влияющие на беременность

36,5% женщин имеют заболевания, которые оказывают влияние на беременность.
Относительное и абсолютное распределение индивидов по наличию заболеваний, влияющих на беременность
Var1 Freq percentage
0 1315 63.4
1 760 36.6

Болезни, которые могут стать причиной прерывания беременности

31,6% женщин имеют болезни, которые могут стать причиной для прерывания беременности.
Относительное и абсолютное распределение индивидов по наличию заболеваний, которые могут стать причиной прерывания беременности
Var1 Freq percentage
0 1419 68.4
1 656 31.6

Общее описание распределения респондентов по частоте проверке здоровья

Переменная отражает, как часто индивид посещает врача в течение года. Один раз в месяц, или же несколько раз в месяц посещают врача лишь 6% респондентов, 1-3 раза в год обращаются к врачу 66,1% индивидов, остальные 27,9% посещают врача реже 1 раза в год.
Относительное и абсолютное распределение индивидов по критерию частоты проверки здоровья
Var1 Freq percentage
2-3 раза в течение года 723 35.2
Несколько раз в месяц 28 1.4
Один раз в месяц 95 4.6
Один раз в течение года 634 30.9
Реже одного раза в год 573 27.9

Общее описание распределения респондентов по оценке своего физического здоровья

Переменная является оценкой собственного здоровья индивида, где 1 - очень плохое, а 5 - очень хорошее состояние здоровья. Данные показывают, что 54,9% оценивают свое состояние как хорошее и очень хорошее, 41,6% - как удовлетворительное и лишь 3,5% респондентов расценивают свое здоровье как плохое и совсем плохое.

Относительное и абсолютное распределение индивидов по оценке своего физического здоровья
Var1 Freq percentage
1 2 0.1
2 69 3.4
3 856 41.6
4 1092 53.1
5 37 1.8
Категория(номер) Значение
1 Совсем плохое
2 Плохое
3 Среднее, не хорошее, но и не плохое
4 Хорошее
5 Очень хорошее

Основные зависимости между данными

Наиболее интересными являются зависимости между переменными, такие как категория основной работы и заработная плата, или наличие работы и возраст индивида. Данных зависимостей достаточно много в данных, поэтому представим наиболее интересные из них:

  1. Во всех возрастных группах преобладает тенденция жить отдельно, что может в последствии сильно влиять на принятие решения о ребенке

  1. Распределение уровней образования и возрастов респондентов. В общем имеется тенденция к увеличению числа респондентов, имеющих законченное высшее образование с увеличением возраста.

  1. На графике показано, что заболеваемость мужчин и женщин наследственными болезнями в равной степени распределена.

  1. По данным видно, что при увеличении количества детей наиболее часто встречаемым вариантом семейного положения остается зарегестрированный брак, тогда как 1 и 2 ребенка могут быть в семьях с разным семейным положением.

  1. По графику можно предположить, что количество детей в семье также мало зависит от уровня образования, однако возможной ошибкой в данных можно счесть количество 6 детей в семье с образованием незаконченным средним.

Заключение

Обоснование соответствия данных вопросу

Данные соответствуют вопросу, потому что данные в зависимой переменной (количество детей) распределены относительно равномерно. Отобрано достаточно критических переменных для объяснения влияния различных характеристик индивида на количество имеющихся у него детей. Влияющая переменная(предиктор)- размер заработной платы также распределена равномерно. Выбросы во всех переменных были изменены на “NA” данные и определено, какие переменные наиболее значимы для предстоящего анализа.

Предварительная формулировка модели

На основании разведывательного анализа данных выделили ключевые группы факторов, которые могут повлиять на количество детей и соответственно должны быть включены в модель множественной регрессии:

  • пол, возраст, регион проживания и религия

  • характеристики образования индивида

  • характеристики работы индивида

  • характеристики семейного статуса

  • характеристики жилья

  • субъективная удовлетворенность от жизни и материального положения

  • самооценка здоровья и наличие болезней

Ожидаемые результаты

Мы предполагаем, что:

  • Индивиды, состоящие в браке, больше склонны заводить детей, чем те, кто не обладает брачным статусом.

  • Сфера работы индивида практически не влияет на количество детей.

  • Наличие хронических болезней значимо влияет на желание индивидов заводить детей.

  • Размер заработной платы положительно коррелирует с количеством детей, но только до определенного уровня.

  • Женщины предпочитают заводить детей после 30 лет.

  • Наличие работы существенно влияет на наличие детей.