PRÁCTICA CALIFICADA FINAL

PASO 1: EXTRAYENDO Y LIMPIANDO LA DATA

link='https://docs.google.com/spreadsheets/d/e/2PACX-1vR43OWG6Tfwmrhgsq-iUl3N6NJjIYPy--AAJKKruiIzjNeOMp8g9rR7E1BxEZjGR-nnUNBxcArHeXX4/pub?gid=659379077&single=true&output=csv'

tabla=read.csv(link, stringsAsFactors = F)
  • transformando variables a numéricas
library(readr)

tabla[,c(4:9)]=lapply(tabla[,c(4:9)],parse_number)
  • cambiando de variables a nominales
tabla$costa=as.factor(tabla$costa)
tabla$capital=as.factor(tabla$capital)
  • cambiando a variable ordinal
tamanoOK=c('Muy pequena','Pequena','Mediana','Grande','Muy grande')

tabla$tamano=factor(tabla$tamano, levels = tamanoOK, ordered = TRUE)

table(tabla$tamano)
## 
## Muy pequena     Pequena     Mediana      Grande  Muy grande 
##          69          64          46          15           1
str(tabla)
## 'data.frame':    195 obs. of  13 variables:
##  $ regionUbigeo   : int  10000 10000 10000 10000 10000 10000 10000 20000 20000 20000 ...
##  $ provinciaUbigeo: int  10100 10200 10300 10400 10500 10600 10700 20100 20200 20300 ...
##  $ PROVINCIA      : chr  "CHACHAPOYAS" "BAGUA" "BONGARA" "CONDORCANQUI" ...
##  $ IDE            : num  7737 6623 6318 4598 6047 ...
##  $ identidad      : num  986179 946079 974681 86232 961927 ...
##  $ salud          : num  2545 146091 90102 8557 12418 ...
##  $ educacion      : num  914986 797902 76424 522149 74726 ...
##  $ saneamiento    : num  703454 64479 548341 377145 433484 ...
##  $ electrificacion: num  839712 679146 721693 394891 673961 ...
##  $ poblacion      : int  54783 77438 32317 51802 52185 30236 118747 161003 7974 16879 ...
##  $ costa          : Factor w/ 2 levels "NO","SI": 1 1 1 1 1 1 1 1 1 1 ...
##  $ capital        : Factor w/ 2 levels "NO","SI": 2 1 1 1 1 1 1 2 1 1 ...
##  $ tamano         : Ord.factor w/ 5 levels "Muy pequena"<..: 2 2 1 2 2 1 3 3 1 1 ...

PARTE 2: NORMALIDAD

  • Para saber la normalidad utilizamos el test de Shapiro-Test.
shapiro.test(tabla$IDE)
## 
##  Shapiro-Wilk normality test
## 
## data:  tabla$IDE
## W = 0.80119, p-value = 5.02e-15

El p-value es menor que 0.05, se confirma que la variable no es similar a la curva normal.

  • Para verificar asimetría y si hay atípicos:
library(DescTools)
Skew(tabla$IDE)
## [1] -1.665953

Ahora sabemos que hay cola a la IZQUIERDA (asimetría negativa).

PARTE 2: ANÁLISIS BIVARIADO

1) Analizando la relación entre IDE y Costa

  • Tipo de relación: Numérico-Categórico (Dicotómica)

  • HIPOTESIS NULA o H0: Los promedios de las variable numerica en cada grupo de la dicotómica no se diferencian. Si tenemos que estos son los promedios del IDE según la distribución entre costa y sierra/selva:

f1=formula(IDE ~ costa)
aggregate(f1, tabla,mean) 
##   costa      IDE
## 1    NO 5812.926
## 2    SI 6886.781

¿Podemos inferir que a los pobladores de la costa presenta mejor IDE que los de sierra y selva?

  • Decidiendo si es no no paramétrico

Utilizamos una gráfica de cuantiles:

library(ggpubr)
## Loading required package: ggplot2
## Loading required package: magrittr
ggqqplot(data=tabla,x="IDE") + facet_grid(. ~ costa)

Como el p-value es menor que 0.05, se confirma que la variable no es similar a la curva normal.

El test nos dice que la probabilidad que la variable ‘IDE’ se comporte como la curva normal es alta. Se acepta la hipótesis que ‘IDE’ tiene distribución normal en la costa a comparación de otras regiones. Entonces es no paramética. Utlizemos wilcox.test:

t.test(f1,tabla)
## 
##  Welch Two Sample t-test
## 
## data:  IDE by costa
## t = -2.3959, df = 37.81, p-value = 0.02163
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1981.3365  -166.3732
## sample estimates:
## mean in group NO mean in group SI 
##         5812.926         6886.781

El p-value es mayor a 0.05, por lo que aceptamos la H0 de la prueba t.

2) Analizando la relación entre IDE y Capital

  • Tipo de relación: Numérico-Categórico (Dicotómica)

  • HIPOTESIS NULA o H0: Los promedios de las variable numerica en cada grupo de la dicotómica no se diferencian. Si tenemos que estos son los promedios del IDE según la capital de provincia y el resto de distritos:

f2=formula(IDE ~ capital)
aggregate(f2, tabla,mean) 
##   capital      IDE
## 1      NO 5840.653
## 2      SI 6998.920

¿Podemos inferir que a los pobladores de las capitales presenta mejor IDE que los del resto de distritos?

  • Decidiendo si es no no paramétrico

Utilizamos una gráfica de cuantiles:

library(ggpubr)

ggqqplot(data=tabla,x="IDE") + facet_grid(. ~ capital)

Para saber la normalidad utilizamos el test de Shapiro-Wilk, que nos reporta la probabilidad que los datos tengan esa distribución.

normalidadTest=function(x) {y =shapiro.test(x); 
                            c(y$statistic, y$p.value)}

resultado= aggregate(f2, tabla,
                     FUN = normalidadTest) 



library(knitr)

shapiroTest=as.data.frame(resultado[,2])
names(shapiroTest)=c("SW_Statistic","Probabilidad")
kable(cbind(resultado[1],shapiroTest))
capital SW_Statistic Probabilidad
NO 0.7655502 0.0e+00
SI 0.6626416 2.4e-06

3) Analizando la relación entre IDE y Tamaño

4) Analizando la relación entre IDE e Identidad

5) Analizando la relación entre IDE y Salud

6) Analizando la relación entre IDE y Educación

7) Analizando la relación entre IDE y Saneamiento

8) Analizando la relación entre IDE y Electrificación

9) Analizando la relación entre IDE y Población