Llegiu el fitxer de dades, poseu les variables en el format adeqüat i resumiu-les numèrica i gràficament de manera adeqüada.
Carreguem el fitxer de dades
dades <- read.csv(file = 'HDI-Data.csv')
Les variables HDI_group i GDI_group són variables categòriques i les transformem en un factor.
dades$HDI_group<-factor(dades$HDI_group,levels=c(1,2,3,4),labels=c("Low", "Medium","High", "Very high"))
dades$GDI_group<-factor(dades$GDI_group,levels=c(1,2,3,4,5),labels = c("Very high", "High", "Medium","Low", "Very low"))
summary(dades)
## HDI_group GNI GDI_group MYS
## Low :35 Min. : 580.7 Very high:45 Min. : 1.374
## Medium :30 1st Qu.: 3808.9 High :35 1st Qu.: 5.960
## High :47 Median : 11365.2 Medium :24 Median : 8.543
## Very high:45 Mean : 17240.8 Low :12 Mean : 8.241
## 3rd Qu.: 24500.3 Very low :41 3rd Qu.:10.857
## Max. :123124.4 Max. :13.067
## MMR ABR SWSP
## Min. : 1.0 Min. : 0.617 Min. : 0.00
## 1st Qu.: 13.0 1st Qu.: 13.522 1st Qu.:12.40
## Median : 52.0 Median : 38.754 Median :19.61
## Mean : 156.8 Mean : 49.041 Mean :21.02
## 3rd Qu.: 200.0 3rd Qu.: 73.303 3rd Qu.:28.17
## Max. :1100.0 Max. :204.789 Max. :57.55
#taules pels factors
tab1<-round(rbind( table(dades$HDI_group) , 100*prop.table(table(dades$HDI_group) )), 1)
rownames(tab1) <- c("n", "%")
tab1
## Low Medium High Very high
## n 35.0 30.0 47.0 45.0
## % 22.3 19.1 29.9 28.7
tab2<-round(rbind( table(dades$GDI_group) , 100*prop.table(table(dades$GDI_group) )), 1)
rownames(tab2) <- c("n", "%")
tab2
## Very high High Medium Low Very low
## n 45.0 35.0 24.0 12.0 41.0
## % 28.7 22.3 15.3 7.6 26.1
#boxplots per les numèriques
layout(matrix(c(1,2,3,4,5),ncol=5))
boxplot(dades$GNI,main="GNI",col=5)
boxplot(dades$MYS,main="MYS",col=5)
boxplot(dades$MMR,main="MMR",col=5)
boxplot(dades$ABR,main="ABR",col=5)
boxplot(dades$SWSP,main="SWSP",col=5)
layout(matrix(c(1),ncol=1))
#Algunes relacions que podrien estar interessants segons el factor HDI
layout(matrix(c(1,2),ncol=2))
boxplot(dades$GNI~dades$HDI_group,col=rainbow(4),main="GNI")
boxplot(dades$MMR~dades$HDI_group,col=rainbow(4),main="MMR")
#Algunes relacions que podrien estar interessants segons el factor GDI
layout(matrix(c(1,2,3),ncol=3))
boxplot(dades$MYS~dades$GDI_group,col=rainbow(5),main="MYS")
boxplot(dades$ABR~dades$GDI_group,col=rainbow(5),main="ABR")
boxplot(dades$SWSP~dades$GDI_group,col=rainbow(5),main="SWSP")
#histogrames
layout(matrix(c(1, 1, 1, 2, 2,2, 3, 3 , 4, 4, 5, 5), 2, 6, byrow = TRUE))
hist(dades$MYS, main="Mean Years of Schooling", col="lightblue"); grid()
hist(dades$SWSP, main="Share of Women Sits in Parliament", col="lightblue"); grid()
hist(dades$MMR, main="Maternal Mortality Rate", col="lightblue"); grid()
hist(dades$ABR, main="Adolescent Birth Rate", col="lightblue"); grid()
hist(dades$GNI, main="National Income", col="lightblue"); grid()
Hi ha alguna relació entre la renda nacional per capita i la mitjana d’anys d’escolarització (amb una significancia del 0.05). Quin és el p-valor del contrast? Quin és el coeficient de correlació lineal de Pearson? Quina és la conclusió?
plot(dades$MYS, dades$GNI, xlab="Anys escolarització", ylab="PIBxcapita", main="Anys escolaritzacio segons PIBxcapita",col.main="blue",lwd=1.75)
cor(dades$MYS, dades$GNI)
## [1] 0.5722763
test<-cor.test(dades$MYS, dades$GNI)
test
##
## Pearson's product-moment correlation
##
## data: dades$MYS and dades$GNI
## t = 8.6881, df = 155, p-value = 4.888e-15
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4565648 0.6689496
## sample estimates:
## cor
## 0.5722763
test$p.value
## [1] 4.887678e-15
test$estimate
## cor
## 0.5722763
Veiem que tenim una correlació positiva \(\rho=0.572\). La hipòtesis nul·la del test de Pearson és que la correlació entre les dades zero. Amb el p-valor obtingut, rebutgem aquesta hipòtesis, per tant hi ha una relació lineal significatva.
Et sembla raonable construir un model de regressió lineal per estudiar els valors de la variable GNI en funció dels anys d’escolarització (MYS)? Per què?
Atenint-nos als resultats anteriors, podríem fer un model de regressió lineal, ja que sí que hi ha una relació entre elles. Personalment, veient el gràfic, jo faria una transformació logarítmica a la variable explicativa per millorar la correlació, perquè per mi un 57% d’explicació és millorable (és un bon model a partir del 70-75%). Però continuarem l’exercici amb les variables originals.
plot(dades$MYS, dades$GNI, xlab="Anys escolarització", ylab="PIBxcapita", main="Anys escolaritzacio segons PIBxcapita",col.main="blue",lwd=1.75)
#exemple
df <- data.frame(x=3:22, y=c(3, 4, 5, 7, 9, 13, 15, 19, 23, 24, 29, 38, 40, 50, 56, 59, 70, 89, 104, 130))
plot(df$x, df$y, main='LOG') # s'assembla al nostre cas
lGNI<-log(dades$GNI)
cor(dades$MYS,lGNI)
## [1] 0.7848053
plot(dades$MYS, lGNI, xlab="Anys escolarització", ylab="PIBxcapita", main="Model corregit",col.main="blue",lwd=1.75)
Construeix el model de regressió lineal proposat a l’apartat anterior. D’acord amb els resultats del model ajustat, estan les dues variables considerades relacionades linealment? Per què? Què diries sobre la bondat de l’ajust d’aquest model? Si un canvi en la política educativa porta a incrementar el valor de la variable MYS fins a 9, quina seria la predicció per al GNI d’acord amb aquest model? Construeix un interval de confiança del 95% per a aquest valor. Què explica millor la variable GNI, els anys d’escolarització (MYS) o la taxa de maternitat adolescent (ABR)? Per què?
model<-lm(GNI~MYS,data=dades)
plot(dades$MYS, dades$GNI, xlab="Anys escolarització", ylab="PIBxcapita", main="Anys escolaritzacio segons PIBxcapita",col.main="blue",lwd=1.75)
abline(model,col=2,lwd=4)
summary(model)
##
## Call:
## lm(formula = GNI ~ MYS, data = dades)
##
## Residuals:
## Min 1Q Median 3Q Max
## -23080 -7788 -2068 3669 103096
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -10460.9 3413.6 -3.064 0.00257 **
## MYS 3361.3 386.9 8.688 4.89e-15 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15280 on 155 degrees of freedom
## Multiple R-squared: 0.3275, Adjusted R-squared: 0.3232
## F-statistic: 75.48 on 1 and 155 DF, p-value: 4.888e-15
Recta de regressió= \(y=-10460.9+3361.3*x\). Veiem que \(\beta_0\) i \(\beta_1\) són significativament diferents de 0. Per tant, elaborar un model de regressió entre aquestes dues variables té sentit, ja que esta correlacionades significativament i el model no és zero, sobretot \(\beta_1\), no és zero, perquè si fos zero no hi hauria pendent ni relació entre elles, tot seria soroll.
summary(model)
##
## Call:
## lm(formula = GNI ~ MYS, data = dades)
##
## Residuals:
## Min 1Q Median 3Q Max
## -23080 -7788 -2068 3669 103096
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -10460.9 3413.6 -3.064 0.00257 **
## MYS 3361.3 386.9 8.688 4.89e-15 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15280 on 155 degrees of freedom
## Multiple R-squared: 0.3275, Adjusted R-squared: 0.3232
## F-statistic: 75.48 on 1 and 155 DF, p-value: 4.888e-15
Veient el Adjustes R-squared, la variabilitat explicada per la variable depenent és molt petita, per tant el nostre model no acaba d’ajustar-se prou bé.
predict(model, newdata = data.frame(MYS=9), interval = "prediction", level = 0.95)
## fit lwr upr
## 1 19790.65 -10487.78 50069.07
cor.test(dades$GNI, dades$ABR)
##
## Pearson's product-moment correlation
##
## data: dades$GNI and dades$ABR
## t = -8.7809, df = 155, p-value = 2.82e-15
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.6723077 -0.4613819
## sample estimates:
## cor
## -0.5763661
model2<-lm(dades$GNI~dades$ABR)
summary(model2)
##
## Call:
## lm(formula = dades$GNI ~ dades$ABR)
##
## Residuals:
## Min 1Q Median 3Q Max
## -21298 -9904 -3056 5650 95754
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 29811.09 1877.60 15.877 < 2e-16 ***
## dades$ABR -256.32 29.19 -8.781 2.82e-15 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15220 on 155 degrees of freedom
## Multiple R-squared: 0.3322, Adjusted R-squared: 0.3279
## F-statistic: 77.1 on 1 and 155 DF, p-value: 2.82e-15
plot(dades$ABR, dades$GNI, xlab="Naix. adolecents", ylab="PIBxcapita", main="Naix. adolecents segons PIBxcapita",col.main="blue",lwd=1.75)
abline(model2,col=2,lwd=4)
Són bastant símilars, així que escollim el que en interessi més segons els nostres objectius.