Exercici 1

Llegiu el fitxer de dades, poseu les variables en el format adeqüat i resumiu-les numèrica i gràficament de manera adeqüada.

Càrrega

Carreguem el fitxer de dades

dades <- read.csv(file = 'HDI-Data.csv')

Format

Les variables HDI_group i GDI_group són variables categòriques i les transformem en un factor.

dades$HDI_group<-factor(dades$HDI_group,levels=c(1,2,3,4),labels=c("Low", "Medium","High", "Very high"))
dades$GDI_group<-factor(dades$GDI_group,levels=c(1,2,3,4,5),labels = c("Very high", "High", "Medium","Low", "Very low"))

Resum i gràfiques
summary(dades)
##      HDI_group       GNI               GDI_group       MYS        
##  Low      :35   Min.   :   580.7   Very high:45   Min.   : 1.374  
##  Medium   :30   1st Qu.:  3808.9   High     :35   1st Qu.: 5.960  
##  High     :47   Median : 11365.2   Medium   :24   Median : 8.543  
##  Very high:45   Mean   : 17240.8   Low      :12   Mean   : 8.241  
##                 3rd Qu.: 24500.3   Very low :41   3rd Qu.:10.857  
##                 Max.   :123124.4                  Max.   :13.067  
##       MMR              ABR               SWSP      
##  Min.   :   1.0   Min.   :  0.617   Min.   : 0.00  
##  1st Qu.:  13.0   1st Qu.: 13.522   1st Qu.:12.40  
##  Median :  52.0   Median : 38.754   Median :19.61  
##  Mean   : 156.8   Mean   : 49.041   Mean   :21.02  
##  3rd Qu.: 200.0   3rd Qu.: 73.303   3rd Qu.:28.17  
##  Max.   :1100.0   Max.   :204.789   Max.   :57.55
#taules pels factors
tab1<-round(rbind( table(dades$HDI_group) , 100*prop.table(table(dades$HDI_group) )), 1)
rownames(tab1) <- c("n", "%")
tab1
##    Low Medium High Very high
## n 35.0   30.0 47.0      45.0
## % 22.3   19.1 29.9      28.7
tab2<-round(rbind( table(dades$GDI_group) , 100*prop.table(table(dades$GDI_group) )), 1)
rownames(tab2) <- c("n", "%")
tab2
##   Very high High Medium  Low Very low
## n      45.0 35.0   24.0 12.0     41.0
## %      28.7 22.3   15.3  7.6     26.1
#boxplots per les numèriques
layout(matrix(c(1,2,3,4,5),ncol=5))
boxplot(dades$GNI,main="GNI",col=5)
boxplot(dades$MYS,main="MYS",col=5)
boxplot(dades$MMR,main="MMR",col=5)
boxplot(dades$ABR,main="ABR",col=5)
boxplot(dades$SWSP,main="SWSP",col=5)

layout(matrix(c(1),ncol=1))

#Algunes relacions que podrien estar interessants segons el factor HDI
layout(matrix(c(1,2),ncol=2))
boxplot(dades$GNI~dades$HDI_group,col=rainbow(4),main="GNI")
boxplot(dades$MMR~dades$HDI_group,col=rainbow(4),main="MMR")

#Algunes relacions que podrien estar interessants segons el factor GDI
layout(matrix(c(1,2,3),ncol=3))
boxplot(dades$MYS~dades$GDI_group,col=rainbow(5),main="MYS")
boxplot(dades$ABR~dades$GDI_group,col=rainbow(5),main="ABR")
boxplot(dades$SWSP~dades$GDI_group,col=rainbow(5),main="SWSP")

#histogrames
layout(matrix(c(1, 1, 1, 2, 2,2, 3, 3 , 4, 4, 5, 5), 2, 6, byrow = TRUE))
  hist(dades$MYS, main="Mean Years of Schooling", col="lightblue"); grid()
  hist(dades$SWSP, main="Share of Women Sits in Parliament", col="lightblue"); grid()
  hist(dades$MMR, main="Maternal Mortality Rate", col="lightblue"); grid()
  hist(dades$ABR, main="Adolescent Birth Rate", col="lightblue"); grid()
  hist(dades$GNI, main="National Income", col="lightblue"); grid()

Exercici 2

Hi ha alguna relació entre la renda nacional per capita i la mitjana d’anys d’escolarització (amb una significancia del 0.05). Quin és el p-valor del contrast? Quin és el coeficient de correlació lineal de Pearson? Quina és la conclusió?

Test

plot(dades$MYS, dades$GNI, xlab="Anys escolarització", ylab="PIBxcapita", main="Anys escolaritzacio segons PIBxcapita",col.main="blue",lwd=1.75)

cor(dades$MYS, dades$GNI)
## [1] 0.5722763
test<-cor.test(dades$MYS, dades$GNI)
test
## 
##  Pearson's product-moment correlation
## 
## data:  dades$MYS and dades$GNI
## t = 8.6881, df = 155, p-value = 4.888e-15
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4565648 0.6689496
## sample estimates:
##       cor 
## 0.5722763
test$p.value
## [1] 4.887678e-15
test$estimate
##       cor 
## 0.5722763

Conclusió

Veiem que tenim una correlació positiva \(\rho=0.572\). La hipòtesis nul·la del test de Pearson és que la correlació entre les dades zero. Amb el p-valor obtingut, rebutgem aquesta hipòtesis, per tant hi ha una relació lineal significatva.

Exercici 3

Et sembla raonable construir un model de regressió lineal per estudiar els valors de la variable GNI en funció dels anys d’escolarització (MYS)? Per què?

Conclusió

Atenint-nos als resultats anteriors, podríem fer un model de regressió lineal, ja que sí que hi ha una relació entre elles. Personalment, veient el gràfic, jo faria una transformació logarítmica a la variable explicativa per millorar la correlació, perquè per mi un 57% d’explicació és millorable (és un bon model a partir del 70-75%). Però continuarem l’exercici amb les variables originals.

plot(dades$MYS, dades$GNI, xlab="Anys escolarització", ylab="PIBxcapita", main="Anys escolaritzacio segons PIBxcapita",col.main="blue",lwd=1.75)

#exemple
df <- data.frame(x=3:22, y=c(3, 4, 5, 7, 9, 13, 15, 19, 23, 24, 29, 38, 40, 50, 56, 59, 70, 89, 104, 130))
plot(df$x, df$y, main='LOG') # s'assembla al nostre cas

lGNI<-log(dades$GNI)
cor(dades$MYS,lGNI)
## [1] 0.7848053
plot(dades$MYS, lGNI, xlab="Anys escolarització", ylab="PIBxcapita", main="Model corregit",col.main="blue",lwd=1.75)

Exercici 4

Construeix el model de regressió lineal proposat a l’apartat anterior. D’acord amb els resultats del model ajustat, estan les dues variables considerades relacionades linealment? Per què? Què diries sobre la bondat de l’ajust d’aquest model? Si un canvi en la política educativa porta a incrementar el valor de la variable MYS fins a 9, quina seria la predicció per al GNI d’acord amb aquest model? Construeix un interval de confiança del 95% per a aquest valor. Què explica millor la variable GNI, els anys d’escolarització (MYS) o la taxa de maternitat adolescent (ABR)? Per què?

Model

model<-lm(GNI~MYS,data=dades)
plot(dades$MYS, dades$GNI, xlab="Anys escolarització", ylab="PIBxcapita", main="Anys escolaritzacio segons PIBxcapita",col.main="blue",lwd=1.75)
abline(model,col=2,lwd=4)

summary(model)
## 
## Call:
## lm(formula = GNI ~ MYS, data = dades)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -23080  -7788  -2068   3669 103096 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -10460.9     3413.6  -3.064  0.00257 ** 
## MYS           3361.3      386.9   8.688 4.89e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15280 on 155 degrees of freedom
## Multiple R-squared:  0.3275, Adjusted R-squared:  0.3232 
## F-statistic: 75.48 on 1 and 155 DF,  p-value: 4.888e-15

Recta de regressió= \(y=-10460.9+3361.3*x\). Veiem que \(\beta_0\) i \(\beta_1\) són significativament diferents de 0. Per tant, elaborar un model de regressió entre aquestes dues variables té sentit, ja que esta correlacionades significativament i el model no és zero, sobretot \(\beta_1\), no és zero, perquè si fos zero no hi hauria pendent ni relació entre elles, tot seria soroll.

Bondat de l’ajust

summary(model)
## 
## Call:
## lm(formula = GNI ~ MYS, data = dades)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -23080  -7788  -2068   3669 103096 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -10460.9     3413.6  -3.064  0.00257 ** 
## MYS           3361.3      386.9   8.688 4.89e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15280 on 155 degrees of freedom
## Multiple R-squared:  0.3275, Adjusted R-squared:  0.3232 
## F-statistic: 75.48 on 1 and 155 DF,  p-value: 4.888e-15

Veient el Adjustes R-squared, la variabilitat explicada per la variable depenent és molt petita, per tant el nostre model no acaba d’ajustar-se prou bé.

Predicció

predict(model, newdata = data.frame(MYS=9), interval = "prediction", level = 0.95)
##        fit       lwr      upr
## 1 19790.65 -10487.78 50069.07

MYS o ABR

cor.test(dades$GNI, dades$ABR)
## 
##  Pearson's product-moment correlation
## 
## data:  dades$GNI and dades$ABR
## t = -8.7809, df = 155, p-value = 2.82e-15
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.6723077 -0.4613819
## sample estimates:
##        cor 
## -0.5763661
model2<-lm(dades$GNI~dades$ABR)
summary(model2)
## 
## Call:
## lm(formula = dades$GNI ~ dades$ABR)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -21298  -9904  -3056   5650  95754 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 29811.09    1877.60  15.877  < 2e-16 ***
## dades$ABR    -256.32      29.19  -8.781 2.82e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15220 on 155 degrees of freedom
## Multiple R-squared:  0.3322, Adjusted R-squared:  0.3279 
## F-statistic:  77.1 on 1 and 155 DF,  p-value: 2.82e-15
plot(dades$ABR, dades$GNI, xlab="Naix. adolecents", ylab="PIBxcapita", main="Naix. adolecents segons PIBxcapita",col.main="blue",lwd=1.75)
abline(model2,col=2,lwd=4)

Són bastant símilars, així que escollim el que en interessi més segons els nostres objectius.