link='https://docs.google.com/spreadsheets/d/e/2PACX-1vR43OWG6Tfwmrhgsq-iUl3N6NJjIYPy--AAJKKruiIzjNeOMp8g9rR7E1BxEZjGR-nnUNBxcArHeXX4/pub?gid=659379077&single=true&output=csv'
tabla=read.csv(link, stringsAsFactors = F)
library(readr)
tabla[,c(4:9)]=lapply(tabla[,c(4:9)],parse_number)
tabla$costa=as.factor(tabla$costa)
tabla$capital=as.factor(tabla$capital)
tamanoOK=c('Muy pequena','Pequena','Mediana','Grande','Muy grande')
tabla$tamano=factor(tabla$tamano, levels = tamanoOK, ordered = TRUE)
table(tabla$tamano)
##
## Muy pequena Pequena Mediana Grande Muy grande
## 69 64 46 15 1
str(tabla)
## 'data.frame': 195 obs. of 13 variables:
## $ regionUbigeo : int 10000 10000 10000 10000 10000 10000 10000 20000 20000 20000 ...
## $ provinciaUbigeo: int 10100 10200 10300 10400 10500 10600 10700 20100 20200 20300 ...
## $ PROVINCIA : chr "CHACHAPOYAS" "BAGUA" "BONGARA" "CONDORCANQUI" ...
## $ IDE : num 7737 6623 6318 4598 6047 ...
## $ identidad : num 986179 946079 974681 86232 961927 ...
## $ salud : num 2545 146091 90102 8557 12418 ...
## $ educacion : num 914986 797902 76424 522149 74726 ...
## $ saneamiento : num 703454 64479 548341 377145 433484 ...
## $ electrificacion: num 839712 679146 721693 394891 673961 ...
## $ poblacion : int 54783 77438 32317 51802 52185 30236 118747 161003 7974 16879 ...
## $ costa : Factor w/ 2 levels "NO","SI": 1 1 1 1 1 1 1 1 1 1 ...
## $ capital : Factor w/ 2 levels "NO","SI": 2 1 1 1 1 1 1 2 1 1 ...
## $ tamano : Ord.factor w/ 5 levels "Muy pequena"<..: 2 2 1 2 2 1 3 3 1 1 ...
shapiro.test(tabla$IDE)
##
## Shapiro-Wilk normality test
##
## data: tabla$IDE
## W = 0.80119, p-value = 5.02e-15
El p-value es menor que 0.05, se confirma que la variable no es similar a la curva normal.
library(DescTools)
Skew(tabla$IDE)
## [1] -1.665953
Ahora sabemos que hay cola a la IZQUIERDA (asimetría negativa).
1) Analizando la relación entre IDE y Costa
Tipo de relación: Numérico-Categórico (Dicotómica)
HIPOTESIS NULA o H0: Los promedios de las variable numerica en cada grupo de la dicotómica no se diferencian. Si tenemos que estos son los promedios del IDE según la distribución entre costa y sierra/selva:
f1=formula(IDE ~ costa)
aggregate(f1, tabla,mean)
## costa IDE
## 1 NO 5812.926
## 2 SI 6886.781
Utilizamos una gráfica de cuantiles:
library(ggpubr)
## Loading required package: ggplot2
## Loading required package: magrittr
ggqqplot(data=tabla,x="IDE") + facet_grid(. ~ costa)
Como el p-value es menor que 0.05, se confirma que la variable no es similar a la curva normal.
El test nos dice que la probabilidad que la variable ‘IDE’ se comporte como la curva normal es alta. Se acepta la hipótesis que ‘IDE’ tiene distribución normal en la costa a comparación de otras regiones. Entonces es no paramética. Utlizemos wilcox.test:
t.test(f1,tabla)
##
## Welch Two Sample t-test
##
## data: IDE by costa
## t = -2.3959, df = 37.81, p-value = 0.02163
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1981.3365 -166.3732
## sample estimates:
## mean in group NO mean in group SI
## 5812.926 6886.781
El p-value es mayor a 0.05, por lo que aceptamos la H0 de la prueba t.
2) Analizando la relación entre IDE y Capital
Tipo de relación: Numérico-Categórico (Dicotómica)
HIPOTESIS NULA o H0: Los promedios de las variable numerica en cada grupo de la dicotómica no se diferencian. Si tenemos que estos son los promedios del IDE según la capital de provincia y el resto de distritos:
f2=formula(IDE ~ capital)
aggregate(f2, tabla,mean)
## capital IDE
## 1 NO 5840.653
## 2 SI 6998.920
Utilizamos una gráfica de cuantiles:
library(ggpubr)
ggqqplot(data=tabla,x="IDE") + facet_grid(. ~ capital)
Para saber la normalidad utilizamos el test de Shapiro-Wilk, que nos reporta la probabilidad que los datos tengan esa distribución.
normalidadTest=function(x) {y =shapiro.test(x);
c(y$statistic, y$p.value)}
resultado= aggregate(f2, tabla,
FUN = normalidadTest)
library(knitr)
shapiroTest=as.data.frame(resultado[,2])
names(shapiroTest)=c("SW_Statistic","Probabilidad")
kable(cbind(resultado[1],shapiroTest))
| capital | SW_Statistic | Probabilidad |
|---|---|---|
| NO | 0.7655502 | 0.0e+00 |
| SI | 0.6626416 | 2.4e-06 |
3) Analizando la relación entre IDE y Tamaño
4) Analizando la relación entre IDE e Identidad
5) Analizando la relación entre IDE y Salud
6) Analizando la relación entre IDE y Educación
7) Analizando la relación entre IDE y Saneamiento
8) Analizando la relación entre IDE y Electrificación
9) Analizando la relación entre IDE y Población