Ожирение представляет собой одну из наиболее серьезных проблем, с которыми сталкивается взрослое население Соединенных Штатов Америки. Некоторые группы людей более подвержены этому заболеванию, чем другие, но никто не застрахован от риска лишнего веса. Эта проблема не только угрожает нашему физическому здоровью, но также может привести к серьезным моральным и социальным трудностям. В свете перечисленных фактов изучение проблемы ожирения представляет собой вопрос крайней важности и актуальности. В ходе данного исследования мы проанализируем взаимосвязь между уровнем бедности и распространением ожирения в Соединенных Штатах.
Мы сформировали исследовательский вопрос следующим образом: как финансовое положения штата влияет на возникновение ожирения у людей, проживающих на его территории? Для дальнейшего исследования была выдвинута гипотеза: с падением (ростом) доходов в штате, люди больше (меньше) страдают ожирением.
Финансовое состояние штата напрямую влияет на благосостояние отдельных семей: чем ниже уровень экономического развития штата, тем меньше доход у отдельных семей. В настоящее время в обществе наблюдается тенденция к поддержанию здорового образа жизни, однако качественные продукты стоят дороже, чем менее полезная пища. Люди с низким доходом употребляют менее питательные продукты, содержащие больше калорий, по сравнению с альтернативными здоровыми продуктами. Таким образом, ограниченный доступ к здоровому питанию для семей с низким доходом может увеличить риск ожирения.
Кроме того, семьи с низким доходом имеют ограниченные возможности для занятий спортом из-за финансовых трудностей, связанных с покупкой спортивного инвентаря и оплатой абонементов в спортзал. Учитывая, что в США медицинские услуги платные, меньшим обеспеченным семьям сложнее регулярно проходить медицинские обследования и приобретать дорогостоящие лекарства, необходимые для контроля веса, которые также увеличивают риск ожирения.
Для нашего исследования были использованы кросс-секционные данные, генеральная совокупность - США, единицей наблюдения является штат, год формирования выборки - 2020, наблюдения были отобраны простым случайным образом из единственной генеральной совокупности. Исходя из этих фактов, предпосылка МНК о случайности выборки (i.i.d.) выполняется.
Выборка, используемая нами в работе, была собрана самостоятельно на основе данных, полученных из различных источников, включая United States Census Bureau, The Behavioral Risk Factor Surveillance System, U.S. Department of Agriculture и Kaiser Family Foundation.
В ходе подготовки к исследованию мы выявили для себя переменные, которые будем анализировать. У нас получилась следующая база данных:
| Переменная | Тип переменной |
|---|---|
| Adult obesity (obes) | Зависимая |
| Percentage of population living in poverty (pov) | Независимая |
| Non-White Population (colored) | Контрольная |
| Sales of food at home (homemade) | Контрольная |
| Sales of food away from home (takeaway) | Контрольная |
| Share of uninsured people (uninsured) | Контрольная |
| Completion rates (educ) | Контрольная |
| Unemployment rate (unemp) | Контрольная |
Adult obesity (obes) - доля взрослых людей,
страдающих ожирением, в возрасте от 18 лет. Данные были собраны The
Behavioral Risk Factor Surveillance System (BRFSS) - ведущей
национальной системой телефонных опросов.
Для диагностики ожирения используется Индекс массы тела (BMI) -
величина, позволяющая оценить степень соответствия массы человека и его
роста, ИМТ больше или равен 30 соответствует ожирению. Тип
переменной-количественная, единица измерения- процент.
Percentage of population living in poverty (pov) - доля бедного населения. Данные собраны United States Census Bureau — правительственным агентством Федеральной статистической системы США, ответственным за предоставление данных о населении и экономике в Соединенных Штатах Америки. Переменная определяет, какой процент населения находится ниже уровня бедности по доходам, она вычисляется путем сравнения семейного дохода с показателем бедности для определенного размера семьи и составляет разницу между общим числом семей и числом семей, находящихся в состоянии бедностий, тип переменной- количественная, единица измерения - процент.
Non-White Population (colored) - доля цветного населения (Black, Hispanic, Asian, Mixed, Other).Данные собраны United States Census Bureau, тип переменной- количественная, единица измерения- процент.
Sales of food at home (homemade) - стоимость продуктов питания, приобретенных в Соединенных Штатах, в подушевом значении. Данные собраны Министерством сельского хозяйства США и службой экономических исследований. Торговые точки включают продуктовые магазины, заказ по почте и доставка на дом, прямые продавцы (продажи фермерами, производителями и оптовыми торговцами непосредственно потребителям для окончательной покупки или использования) и домашнее производство, тип переменной- количественная, единица измерения - миллион долларов.
Sales of food at home (homemade) - это статистика о суммарной стоимости пищевых продуктов, приобретенных в Соединенных Штатах. Под понятием “торговые точки” понимаются магазины продуктов питания, услуги доставки и заказов по почте, а также непосредственные продажи со стороны производителей (фермеров, производителей и оптовиков), осуществляемые напрямую потребителям для окончательного приобретения или использования.Данные были собраны Министерством сельского хозяйства США и службой экономических исследований, относятся к количественному типу и представлены в миллионах долларов.
Sales of food away from home (takeaway) - издержки на питание за пределами дома в терминах на душу населения. Точки продаж включают рестораны полного обслуживания, отели и мотели, торговые автоматы, места отдыха, школы и колледжи, тип переменной - количественная, единица измерения - миллион долларов.
Share of uninsured people (uninsured) - доля незастрахованных людей. Данные собраны американской некоммерческой организацией Kaiser Family Foundation, которая является независимым источником исследований в области политики здравоохранения, тип переменной - количественная, единица измерения - процент.
Completion rates (educ) - доля выпускников высших учебных заведений. Данные собраны Министерством сельского хозяйства США и службой экономических исследований, относятся к количественному типу и представлены в процентах.
Unemployment rate (unemp) - процент людей, находящихся в поиске работы и не имеющих постоянного трудоустройства относительно общего числа трудоспособного населения. Данные собраны Министерством сельского хозяйства США и службой экономических исследований, тип переменной - количественная, единица измерения - процент.
В ходе подготовки к исследованию мы выявили для себя следующие контрольные переменные, которые будем анализировать. Раскроем подробнее, почему мы взяли каждую из них.
Non-White Population, percentage of the total population (colored) Доля цветного населения оказывает влияние на зависимую переменную и регрессор исходя из предположения о том, что цветное население склонно к более разнообразному питанию, что снижает риск заболевания ожирением. Также цветное население проживает преимущественно в бедных районах штатов, что показывает зависимость между долей бедных людей и цветным населением штата.
Sales of food (with taxes), Food at home, constant dollar sales, 2020, millions of dollars (homemade) Показатель, характеризующий количество потраченных денег на покупку продуктов, для приготовления домашней еды, связан с долей бедности в штате, так как большие траты в продуктовых магазинах могут позволить только население, имеющее работу и хороший заработок. Возможность совершения покупок людьми на большую сумму положительно влияет на качество потребляемой пищи, что снижает вероятность возникновения ожирения.
Sales of food (with taxes), Food away from home, constant dollar sales, 2020, millions of dollars (takeaway) Следующей контрольной переменной являются траты людей в штатах на потребление готовых блюд. Люди, имеющие возможность питаться в заведениях, имеют меньшую вероятность заболевания ожирением, так как их рацион состоит из разнообразных блюд, приготовленных из качественных продуктов. Траты в заведениях также связаны с долей бедных людей в штате, исходя из предположения о том, что потребление готовых блюд могут позволить себе только люди, имеющие хороший заработок.
Share of uninsured people, % (uninsured) Показатель, характеризующий долю людей, не имеющих страховку, положительно влияет на регрессор и объясняемую переменную. Люди с низким заработком реже имеют возможность получения страховки и меньше заботятся о своем здоровье. Из-за недоступности медицинских услуг, не застрахованные люди чаще сталкиваются с ожирением.
Completion rates,% (educ) Данная контрольная переменная показывает долю людей, получивших высшее образование. Люди с высшим образованием, как правило, чаще получают высокооплачиваемую работу, соответственно, они могут позволить себе более качественную и дорогую еду, что уменьшает риск заболевания ожирением. А также образованные люди имеют меньший риск попадания в долю бедного населения.
Unemployment rate.,% (unemp) Показатель, отражающий долю безработных, положительно влияет на регрессор и зависимую переменную. Чем больше эта доля, тем больше бедных людей, которые питаются менее качественными и дешевыми продуктами, что приводит к высокой вероятности заболевания ожирением.
Для проведения исследования используется построение регрессионной модели и оценивание коэффициентов с помощью метода наименьших квадратов.
, где Obes_i - процент людей, страдающих ожирением
pov_i - процент бедных людей
colored_i - процент цветных людей
homemade_i - расходы на продукты питания, купленные для приготовления дома в млн. долларах
takeaway_i - расходы на питание вне дома в млн. долларах
uninsured_i - процент незастрахованных людей
educ_i - процент людей с высшим образованием
unemp_i - процент безработных
e_i - ошибка
В результате исследования ожидается выявить положительную взаимосвязь между процентом бедного населения и процентом людей, больных ожирением, и подтвердить гипотезу о том, что чем больше бедных людей, проживающих в штате, тем больше доля населения, страдающая ожирением.
#Загрузим датасет с данными и назовем его obesity
obesity <- read_excel("obesity.xlsx", sheet = "Лист2",
col_types = c("text", "numeric", "numeric",
"numeric", "numeric", "numeric",
"numeric", "numeric", "numeric"))
#Отображение таблицы для ознакомления с данными
glimpse(obesity)## Rows: 51
## Columns: 9
## $ state <chr> "Alabama", "Alaska", "Arizona", "Arkansas", "California", "C…
## $ obes <dbl> 39.0, 31.9, 30.9, 36.4, 30.3, 24.2, 29.2, 36.5, 24.3, 28.4, …
## $ colored <dbl> 36.9, 42.5, 46.6, 31.5, 65.3, 34.9, 36.8, 41.4, 62.0, 48.5, …
## $ homemade <dbl> 1183.2008, 1133.5200, 1229.1824, 961.5916, 1313.2351, 1547.1…
## $ takeaway <dbl> 801.1144, 970.5894, 993.4935, 756.4952, 1106.6791, 1243.3516…
## $ uninsured <dbl> 9.7, 11.5, 11.1, 9.1, 7.8, 7.8, 5.9, 6.6, 3.7, 13.1, 13.4, 4…
## $ educ <dbl> 26.7, 30.6, 31.2, 24.3, 35.3, 42.8, 40.6, 33.6, 61.4, 31.5, …
## $ pov <dbl> 14.9, 13.3, 10.8, 14.2, 11.0, 9.5, 11.2, 10.5, 16.7, 13.2, 1…
## $ unemp <dbl> 6.4, 8.3, 7.8, 6.2, 10.1, 6.8, 7.9, 7.5, 7.9, 8.1, 6.5, 11.7…
## # A tibble: 6 × 9
## state obes colored homemade takeaway uninsured educ pov unemp
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Alabama 39 36.9 1183. 801. 9.7 26.7 14.9 6.4
## 2 Alaska 31.9 42.5 1134. 971. 11.5 30.6 13.3 8.3
## 3 Arizona 30.9 46.6 1229. 993. 11.1 31.2 10.8 7.8
## 4 Arkansas 36.4 31.5 962. 756. 9.1 24.3 14.2 6.2
## 5 California 30.3 65.3 1313. 1107. 7.8 35.3 11 10.1
## 6 Colorado 24.2 34.9 1547. 1243. 7.8 42.8 9.5 6.8
Статистическое описание всех переменных
#Определим среднее,стандартное отклонение,минимум и максимум для каждой переменной
datasummary((`Obesity` = obes) +
(`Poverty` = pov) +
(`Non-white population` = colored) +
(`Food at home` = homemade) +
(`Food away from home` = takeaway) +
(`Uninsured people` = uninsured) +
(`Completion rate` = educ)+
(`Unemployment rate`= unemp) ~
Mean + SD + Min + Max,
data = obesity)
| Mean | SD | Min | Max |
|---|---|---|---|---|
Obesity | 32.06 | 4.10 | 24.20 | 39.70 |
Poverty | 11.20 | 2.75 | 6.20 | 17.50 |
Non-white population | 34.73 | 15.66 | 9.80 | 78.40 |
Food at home | 1238.59 | 188.11 | 636.34 | 1773.54 |
Food away from home | 971.93 | 156.27 | 742.13 | 1629.01 |
Uninsured people | 8.37 | 3.11 | 3.00 | 18.40 |
Completion rate | 33.24 | 6.63 | 21.80 | 61.40 |
Unemployment rate | 7.37 | 1.84 | 4.20 | 13.50 |
Таким образом, во всех штатах США показатель Adult Obesity достаточно высок и в среднем составляет 32% при минимальном значении в 24% и максимальном в 40%, что говорит о том, что проблема ожирения для населения является острой и требует решения со стороны государства.
Гистограммы
Визуализация распределения основных переменных
#Основные переменные
par(mfrow=c(1, 2))
hist(obesity$obes, main="Obesity",xlab='value')
hist(obesity$pov, main="Poverty",xlab='value') Ящики с усами
Отдельно оценим основные характеристики распределения переменных takeaway и homemade, поскольку они имеют одинаковые единицы измерения.
Анализируя график, можно сделать вывод о том, что расходы жителей США на продукты питания в среднем выше трат на еду в кафе и ресторанах.
Также построим ящики с усами для остальных переменных.
Изучив по графику межквартильный размах переменных, можно заметить, что для obesity, uninsured, poverty и unemployment данные более однородные, в то время как вариация для colored и education заметно больше.
На графиках видно, что в данных по некоторым переменным присутствуют выбросы, однако для выполнения условий случайности выборки, ее полноты и репрезентативности данные по штатам с аномальными значениями были оставлены для дальнейшего анализа.
Корреляционная матрица между всеми переменными, использованными в исследовании, чтобы проследить силу и направление взаимосвязи между ними.
#Создадим функцию my_fn для построения графиков
my_fn <- function(data, mapping, method="p", use="pairwise", ...){
x <- eval_data_col(data, mapping$x)
y <- eval_data_col(data, mapping$y)
corr <- cor(x, y, method=method, use=use)
#Воспользуемся функцией colorRampPalette для создания палитры цветов
colFn <- colorRampPalette(c("#5F9EB4", "#EEEEED", "#FF7052"), interpolate ='linear')
fill <- colFn(100)[findInterval(corr, seq(-1, 1, length=100))]
ggally_cor(data = data, mapping = mapping, ...) +
theme(panel.background = element_rect(fill=fill, colour=NA),
panel.grid.major = element_blank())
}
ggpairs(select(obesity,-c(state)),
upper = list(continuous = my_fn),
lower = list(continuous = "smooth"))Из диаграммы видно, что наиболее сильную отрицательную связь с зависимой переменной obesity имеют переменные completion rate и food away from home (-0.73 и -0.65 соответственно), а наиболее сильную положительную связь можно наблюдать c переменными poverty и uninsured people (0.43 и 0.39 соответственно). Остальные контрольные переменные имеют слабую отрицательныю связь.
Также наблюдается сильная положительная корреляционная связь между переменными completion rate и food away from home, что можно объяснить тем, что люди, с высшим образованием имеют больше денежных средств на более дорогую еду вне дома, и при этом меньше свободного времени на приготовление еды дома. Наиболее сильная отрицательная связь наблюдается между poverty и food at home, так как с увеличением количества бедного населения все больше людей снижает свое потребление продуктов питания (еды, приготовленной дома), при этом не повышая свои расходы на питание вне дома.
Диаграммы рассеивания
Для визуального отображения взаимосвязи между переменными построим диаграммы рассеяния для зависимой переменной и регрессоров, с которыми по результатам корреляционного анализа была выявлена сильная линейная связь.
g1 <- ggplot(obesity, aes(pov,obes))+
geom_point()+
geom_smooth(method='lm', se= FALSE)+
xlab("Poverty")+ylab("Obesity")
g2 <- ggplot(obesity, aes(educ,obes))+
geom_point()+
geom_smooth(method='lm', se= FALSE)+
xlab("Education")+ylab("Obesity")
g3 <- ggplot(obesity, aes(takeaway,obes))+
geom_point()+
geom_smooth(method='lm', se= FALSE)+
xlab("Sales of food away from home")+ylab("Obesity")
g4 <- ggplot(obesity, aes(uninsured,obes))+
geom_point()+
geom_smooth(method='lm', se= FALSE)+
xlab("Uninsured people")+ylab("Obesity")
ggarrange(g1, g2, g3, g4, ncol = 2, nrow = 2)## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
Построенные графики показывают слабую линейную положительную зависимость obesity от переменных poverty и uninsured people: с ростом значения этих переменных возрастает процент людей больных ожирением.
Что касается влияния таких переменных как sales of food away from home и education, построенные графики указывают на сильную линейную отрицательную связь, так как с ростом показателей процент людей страдающих ожирением сокращается.
Оценка моделей
#Построим парную модель зависимости obes и pov
ols1 <- lm(obes ~1 + pov, data= obesity)
coeftest(ols1, df=Inf, vcov=vcovHC, type='HC0')##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 24.93443 2.41149 10.3398 < 2.2e-16 ***
## pov 0.63600 0.22687 2.8034 0.005057 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 2.5 % 97.5 %
## (Intercept) 20.2079954 29.660869
## pov 0.1913459 1.080644
#Добавим в нашу модель контрольные переменные, чтобы избежать Omitted Variables bias
ols2 <- lm(obes~1 + pov + educ,data = obesity)
coeftest(ols2, df=Inf, vcov=vcovHC, type='HC0')##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 42.576988 2.707238 15.7271 < 2.2e-16 ***
## pov 0.277159 0.131058 2.1148 0.03445 *
## educ -0.409844 0.054841 -7.4732 7.824e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 2.5 % 97.5 %
## (Intercept) 37.27089977 47.8830769
## pov 0.02029012 0.5340280
## educ -0.51733126 -0.3023565
ols3 <- lm(obes~1 + pov + educ + homemade + takeaway,data = obesity)
coeftest(ols3, df=Inf, vcov=vcovHC, type='HC0')##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 37.6705148 5.5176787 6.8272 8.656e-12 ***
## pov 0.6851431 0.2206522 3.1051 0.0019023 **
## educ -0.1343678 0.1049094 -1.2808 0.2002646
## homemade 0.0032920 0.0024676 1.3341 0.1821782
## takeaway -0.0132703 0.0039690 -3.3435 0.0008272 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 2.5 % 97.5 %
## (Intercept) 26.856063302 48.484966338
## pov 0.252672746 1.117613375
## educ -0.339986484 0.071250915
## homemade -0.001544466 0.008128536
## takeaway -0.021049327 -0.005491322
ols4 <- lm(obes~1 + pov + educ + homemade + takeaway + uninsured,data = obesity)
coeftest(ols4, df=Inf, vcov=vcovHC, type='HC0')##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 37.7114805 5.5299555 6.8195 9.136e-12 ***
## pov 0.6866696 0.2275775 3.0173 0.0025504 **
## educ -0.1352680 0.1074991 -1.2583 0.2082771
## homemade 0.0032942 0.0024670 1.3353 0.1817776
## takeaway -0.0132638 0.0039866 -3.3271 0.0008777 ***
## uninsured -0.0044422 0.1116727 -0.0398 0.9682696
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 2.5 % 97.5 %
## (Intercept) 26.872966783 48.549994165
## pov 0.240625881 1.132713271
## educ -0.345962416 0.075426425
## homemade -0.001541042 0.008129424
## takeaway -0.021077392 -0.005450112
## uninsured -0.223316750 0.214432378
ols5 <- lm(obes~1 + pov + educ +homemade + takeaway + uninsured + unemp,data = obesity)
coeftest(ols5, df=Inf, vcov=vcovHC, type='HC0')##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 40.8086804 5.6806442 7.1838 6.779e-13 ***
## pov 0.6587867 0.2251287 2.9263 0.003431 **
## educ -0.2043749 0.1018275 -2.0071 0.044742 *
## homemade 0.0025466 0.0024541 1.0377 0.299411
## takeaway -0.0097134 0.0042499 -2.2856 0.022280 *
## uninsured -0.0639073 0.1223822 -0.5222 0.601535
## unemp -0.3410795 0.1888100 -1.8065 0.070845 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 2.5 % 97.5 %
## (Intercept) 29.674822320 51.942538416
## pov 0.217542475 1.100030911
## educ -0.403953034 -0.004796731
## homemade -0.002263352 0.007356619
## takeaway -0.018042983 -0.001383740
## uninsured -0.303771966 0.175957460
## unemp -0.711140224 0.028981278
ols6 <- lm(obes~1 + pov + educ +homemade + takeaway + uninsured + unemp + colored,data = obesity)
coeftest(ols6, df=Inf, vcov=vcovHC, type='HC0')##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 41.8756639 6.0349482 6.9389 3.953e-12 ***
## pov 0.6425216 0.2296779 2.7975 0.00515 **
## educ -0.2183163 0.1091211 -2.0007 0.04543 *
## homemade 0.0029771 0.0025720 1.1575 0.24706
## takeaway -0.0104417 0.0045029 -2.3189 0.02040 *
## uninsured -0.1125073 0.1609420 -0.6991 0.48452
## unemp -0.4444272 0.2472904 -1.7972 0.07231 .
## colored 0.0265551 0.0480213 0.5530 0.58027
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 2.5 % 97.5 %
## (Intercept) 30.047382814 53.703945063
## pov 0.192361283 1.092682010
## educ -0.432189729 -0.004442802
## homemade -0.002063866 0.008018085
## takeaway -0.019267261 -0.001616198
## uninsured -0.427947863 0.202933320
## unemp -0.929107564 0.040253088
## colored -0.067564974 0.120675249
ols7 <- lm(obes~1 + pov + educ + uninsured + unemp + colored,data = obesity)
coeftest(ols7, df=Inf, vcov=vcovHC, type='HC0')##
## z test of coefficients:
##
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 46.9112528 4.3345106 10.8227 < 2.2e-16 ***
## pov 0.4253713 0.1428211 2.9784 0.002898 **
## educ -0.4079481 0.0766198 -5.3243 1.013e-07 ***
## uninsured -0.1370630 0.1961295 -0.6988 0.484653
## unemp -0.6766702 0.2726118 -2.4822 0.013058 *
## colored 0.0022767 0.0499490 0.0456 0.963644
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 2.5 % 97.5 %
## (Intercept) 38.41576809 55.4067375
## pov 0.14544713 0.7052955
## educ -0.55812028 -0.2577760
## uninsured -0.52146972 0.2473438
## unemp -1.21097946 -0.1423610
## colored -0.09562143 0.1001749
#С помощью modelsummary построим таблицу с результатами
models_list = list(ols1, ols2, ols3, ols4, ols5, ols7, ols6)
modelsummary(models = models_list,
coef_map = c("obes" = "Adult obesity",
"pov" = "Poverty",
"educ" = "Completion rates",
"homemade" = "Sales of food at home",
"takeaway" = "Sales of food away from home",
"uninsured" = "Uninsured people",
"unemp" = "Unemployment",
"colored" = "Non-white population"),
vcov = "HC0",
statistic = "std.error",
stars = TRUE,
gof_omit = "Multiple R-squared|F-statistic|Log-Likelihood|AIC|BIC",
title = "Результаты оценивания (зависимая переменная - obesity)")
| (1) | (2) | (3) | (4) | (5) | (6) | (7) |
|---|---|---|---|---|---|---|---|
Poverty | 0.636** | 0.277* | 0.685** | 0.687** | 0.659** | 0.425** | 0.643** |
(0.227) | (0.131) | (0.221) | (0.228) | (0.225) | (0.143) | (0.230) | |
Completion rates | -0.410*** | -0.134 | -0.135 | -0.204+ | -0.408*** | -0.218+ | |
(0.055) | (0.105) | (0.107) | (0.102) | (0.077) | (0.109) | ||
Sales of food at home | 0.003 | 0.003 | 0.003 | 0.003 | |||
(0.002) | (0.002) | (0.002) | (0.003) | ||||
Sales of food away from home | -0.013** | -0.013** | -0.010* | -0.010* | |||
(0.004) | (0.004) | (0.004) | (0.005) | ||||
Uninsured people | -0.004 | -0.064 | -0.137 | -0.113 | |||
(0.112) | (0.122) | (0.196) | (0.161) | ||||
Unemployment | -0.341+ | -0.677* | -0.444+ | ||||
(0.189) | (0.273) | (0.247) | |||||
Non-white population | 0.002 | 0.027 | |||||
(0.050) | (0.048) | ||||||
Num.Obs. | 51 | 51 | 51 | 51 | 51 | 51 | 51 |
R2 | 0.182 | 0.564 | 0.667 | 0.667 | 0.681 | 0.644 | 0.684 |
R2 Adj. | 0.165 | 0.545 | 0.638 | 0.630 | 0.637 | 0.605 | 0.633 |
Log.Lik. | -138.697 | -122.679 | -115.777 | -115.777 | -114.696 | -117.455 | -114.431 |
F | 7.859 | 39.966 | 25.052 | 20.061 | 20.684 | 30.678 | 17.519 |
RMSE | 3.67 | 2.68 | 2.34 | 2.34 | 2.29 | 2.42 | 2.28 |
Std.Errors | HC0 | HC0 | HC0 | HC0 | HC0 | HC0 | HC0 |
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001 | |||||||
Все построенные регрессионные модели содержат регрессор pov - нашу основную объясняющую переменную. Начиная с модели парной линейной регрессии, во все последующие модели добавлялось по одной контрольной переменной до тех пор, пока модель не будет включать все объясняющие переменные. Стоит отметить, что стандартные ошибки коэффициентов при регрессорах являются робастными, что позволяет избежать смещения ввиду гетероскедастичности.
Во всех представленных регрессионных моделях (кроме второй по счету) мы получили, что коэффициент при объясняющей переменной pov является статистически значимым на уровне значимости 1%. Только в случае множественной регрессии с двумя регрессорами pov и educ основная объясняющая переменная pov остается статистически значимой, но уже на уровне значимости 5%.
Качество построенных моделей было оценено с помощью скорректированного коэффициента детерминации (Adjusted R-Squared), так как в случае множественной линейной регрессии он нормализует обычный коэффициент детерминации (R-Squared) и учитывает количество дополнительных регрессоров. Так, в случае с парной линейной регрессией коэффициент детерминации оказался равен 0,165, что указывает на то, что качество парной модели низкое и только 16,5% дисперсии obes (доли людей, страдающих ожирением) можно объяснить pov (уровнем бедности). То есть самостоятельно уровень бедности плохо описывает долю людей, больных ожирением. Но при последующем добавлении контрольных переменных в модели скорректированный коэффициент детерминации колеблется в пределах 0,545-0,638, что свидетельствует о том, что качество множественных линейных регрессионных моделей значительно выше качества парной модели, а также регрессоры построенных множественных регрессий в среднем описывают 60% дисперсии нашей описываемой переменной.
Коэффициент при объясняющей переменной pov в каждой модели, где его статистическая значимость подтверждалась на уровне значимости 1%, в среднем равнялся примерно 0,65, что может интерпретироваться так: при прочих равных, при увеличении уровня бедности на 1 процентный пункт, количество людей, страдающих ожирением, увеличится в среднем на 0,65 процентных пункта.
Так, наша гипотеза о том, что с падением (ростом) доходов в штате, люди больше (меньше) страдают ожирением, не отвергается на 1% уровне значимости. И в результате регрессионного анализа ответить на вопрос “Как финансовое положение штата влияет на возникновение ожирения у отдельных людей, проживающих на его территории?” можно так: Между долями бедных людей и людей, страдающих ожирением, выявлена положительная связь, и при прочих равных при увеличении уровня бедности на 1 процентный пункт, количество людей, страдающих ожирением, увеличится в среднем на 0,65 процентных пункта. То есть чем хуже финансовое положение штата, тем больше в нем проживает людей, больных ожирением.
Стоит отметить, что статистически важными, помимо коэффициентов перед основной объясняющей переменной pov, являются также коэффициенты при контрольных переменных educ (completion rates), takeaway (sales of food away from home) и unemp (unemployment). Все эти контрольные переменные негативно влияют на объясняемую переменную. То есть с увеличением доли образованных людей, количеством потребляемой “вне дома” еды и уровня безработицы в штате доля людей, страдающих ожирением, уменьшается.
Таким образом, на долю людей, страдающих ожирением, значимо влияет не только уровень бедности в штате, но и доля людей с высшим образованием, количество расходов на еду “на вынос” на душу населения и безработица. Одновременно с этим питание дома, отсутствие страховки и этническая принадлежность не значимо влияют на долю людей, больных ожирением, в штате.
Влияние факторов благосостояния на здоровье людей остается актуальным вопросом для исследователей уже долгое время. В связи с этим статьи, посвященные влиянию бедности на ожирение, привлекают внимание как академического сообщества, так и широкой общественности, так как представляют собой большую практическую ценность. В настоящем критическом анализе мы обратимся к проведенному нами исследованию, использующему контрольные переменные, такие как процент бедных, цветных, незастрахованных людей, расходы на продукты питания и другие, в попытке разъяснить взаимосвязи между уровнем бедности в штате и распространением ожирения.
Наша цель - провести глубокий и объективный анализ исследования, выявить недостатки и возможные ограничения, а также предложить рекомендации для дальнейших исследований в этой области. Цель настоящего анализа заключается в достижении полноты и объективности, что позволит критически осмыслить вклад данной работы в широкий контекст проблематики влияния благосостояния семей на здоровье.
Обратная причинность
Так как стоит учитывать обратную причинность благосостояния людей и их физического здоровья, рассмотрим также, как ожирение может влиять на благосостояние человека. Ожирение может негативно влиять на доход человека по нескольким причинам:
Во-первых, люди, страдающие ожирением, часто имеют проблемы со здоровьем, которые могут привести к отсутствию работы или снижению производительности. Они также могут чаще посещать врачей и тратить больше денег на лечение и лекарства. Все это может снизить благосостояние семьи.
Во-вторых, ожирение может привести к низкой самооценке и отсутствию уверенности в себе, что может отразиться на карьерных достижениях человека. Он может не получать повышения, не участвовать в проектах или не принимать участие в собраниях из-за проблем с моральным здоровьем, что также ухудшает финансовое положение семьи.
Наконец, ожирение может привести к дискриминации на рабочем месте. Некоторые работодатели могут предпочитать нанять более стройных людей, так как они могут считать их более эффективными и привлекательными для клиентов, если должность требует этого. Это может ограничить возможности карьерного роста и дохода для людей, страдающих ожирением.
Возможные недостатки нашего исследования могут заключаться в следующем:
Отсутствие возможности проследить динамику: для нашего исследования данные были взяты только за 2020 год, что не позволяет оценить изменения показателей.
Ограниченность исследования: мы использовали модель множественной регрессии, включающую 6 контрольных переменных, но в реальности могут существовать другие факторы, не рассмотренные в рамках данного исследования, которые также могут оказывать значимое влияние на ожирение взрослых.
Объективность данных: некоторые переменные (например, расходы на продукты питания) могут быть подвержены субъективному или неполному сообщению, что может исказить результаты исследования.
Практическая значимость может быть не столь сильной в случае, если благосостояние штатов не является ключевой причиной ожирения среди людей. (Например, если данной причиной являются пищевые привычки у людей в штате).В данном случае нужно проводить дополнительные исследования в этой области.
Для более глубокого анализа данной темы мы можем предложить будущие исследования в данной области:
Проведение долгосрочных наблюдений исследования здоровья и благосостояния штатов, чтобы установить более прочные причинно-следственные связи
Анализ эффективности и доступности программ по борьбе с ожирением в среде семей с разным уровнем благосостояния, с целью выявления наиболее эффективных подходов
Изучение влияния культурных, социальных и экономических особенностей на пищевые привычки и образ жизни, их связь с уровнем ожирения и благосостоянием семей.
Исследование показало, что уровень бедности в штатах США влияет на долю людей, страдающих ожирением. Полученные результаты подтверждают гипотезу о том, что при снижении доходов в штате, доля людей, больных ожирением, увеличивается. Это связано с тем, что качественная еда имеет более высокую стоимость, и люди с низкими доходами не могут ее приобрести, что увеличивает вероятность заболевания ожирением. Эти результаты полезны для государственных органов США, так как они могут быть использованы для улучшения уровня здоровья населения, например, через субсидирование полезной пищи или ограничения на рекламу фастфуда.
Оценка вклада каждого участника в работу команды
Все участники нашей (12) команды внесли большой вклад в написание данной работы и приложили много усилий, чтобы результат получился качественным. Все задачи выполнялись с опорой на уже выполненную часть работы, что говорит о согласованности наших действий и постоянном взаимодействии друг с другом.Роли и задачи каждого из участников представлены в таблице ниже.
| Имя участника | Вклад в работу |
| Кузина Алина | Введение, описание экономического механизма, описание данных, дискуссия и критический анализ, рекомендации по дальнейшим исследованиям |
| Березина Виктория | Введение, описание экономического механизма, описание данных в отчете, дискуссия и критический анализ, рекомендации по дальнейшим исследованиям |
| Боргуль Екатерина | Составление датасета, регрессионный анализ, выводы по регрессионному анализу |
| Шаройко Мария | Лидер команды, составление датасета, регрессионный анализ, выводы по регрессионному анализу |
| Цыпленко Анастасия | Введение, описание контрольных переменных, описание эконометрической модели, ожидаемые результаты, заключение |
| Пувкоева Таисия | Описание базы данных и переменных, описательная статистика, построение графиков, корреляционный анализ |
| Ахундова Фидан | Описание базы данных и переменных, описательная статистика и построение графиков распределений, корреляционный и регрессионный анализ, оформление отчета с помощью Markdown |
| Коростелева Юлия | Описание контрольных переменных и эконометрической модели, ожидаемые результаты, выводы по диаграммам рассеяния,регрессионный анализ, заключение |
Визуализация распределений остальных переменных
par(mfrow=c(1, 2))
hist(obesity$colored, main="Non-white population",xlab='value')
hist(obesity$uninsured, main="Uninsured population",xlab='value')par(mfrow=c(1, 2))
hist(obesity$educ, main="Completion rate",xlab='value')
hist(obesity$unemp, main="Unemployment rate",xlab='value')par(mfrow=c(1, 2))
hist(obesity$homemade, main="Sales of food at home",xlab='value')
hist(obesity$takeaway, main="Sales of food away from home",xlab='value')