Equipo 5
Juan Pablo De la Vega Lozano A01722896
Ana Lidia Hern´andez D´ıaz A00838643
Karen Paulina Rosales Vazquez A00838470
Ximena Padr´on Contreras A00840445
Aqui visualizamos el orden de las variables y en base a el diccionario proporcionado se podrán identificar de mejor manera
## [1] "folio" "entidad" "control" "viv_sel" "num_hog" "hog_mud"
## [7] "n_ren_el" "cd" "periodo" "sexo" "edad" "nivel"
## [13] "anio" "cond_act" "p1" "p2" "p3_1" "p3_2"
## [19] "p3_3" "p3_4" "p3_5" "p4" "p5" "p5_6esp"
## [25] "p6_1" "p6_2" "p6_3" "p6_4" "p6_5" "p6_6"
## [31] "p6_6esp" "p7" "p7_3" "p8_1" "p8_2" "p9"
## [37] "p9_5esp" "p10" "p11" "p11_6esp" "p12_1" "p12_2"
## [43] "p12_3" "p12_4" "p12_5" "p12_6" "p12_7" "p12_8"
## [49] "p12_9" "p12_9esp" "p13" "p13_3" "p14_1" "p14_2"
## [55] "p15" "p15_5esp" "p16" "p17" "p17_6esp" "p18_1"
## [61] "p18_2" "p18_3" "p18_4" "p18_5" "p19" "p19_3"
## [67] "p20_1" "p20_2" "p21" "p21_5esp" "p22" "p23_1"
## [73] "p23_2" "p24" "p25" "p25_6esp" "p26" "p27"
## [79] "p28" "p28_7esp" "p29" "p30" "p31" "p32"
## [85] "p32_6esp" "p33_1" "p33_2" "p33_3" "p33_4" "p34_1"
## [91] "p34_2" "p34_3" "p34_3_1" "p34_4" "p34_4_1" "p35"
## [97] "p36_1" "p36_2" "p36_3" "p36_4" "factor" "h_lec"
## [103] "mat_lec" "perslec" "l_format" "r_format" "p_format" "perslecl"
Usamos las siguientes propiedades para familiarizarnos con la base de datos
str(M23) #muestra la estructura de la base de datos Mp
names(M23) #muestra la lista de nombres de las variables
View(M23) #aqui se puede ver la tabla
head(M23) #muestra las primeras 6 filas de la base de datos
Previsualización de valores faltantes
Usando el comando summary podemos observar si existen valores faltantes
## anio
## Min. :1.000
## 1st Qu.:3.000
## Median :3.000
## Mean :3.521
## 3rd Qu.:4.000
## Max. :7.000
## NA's :48
Aqui vamos a visualizar si hay datos faltantes de ambos años.
Realizamos un ciclo for para poder iterar entre las columnas en donde se recopila el número de la columna y se guarda como una nueva variable que indica el porcentaje de valores faltantes, esto nos va a facilitar la limpieza de datos.
## Variable Porcentaje NA
## 1 N1 0
## 2 N2 0
## 3 N3 0
## 4 N4 0
## 5 N5 0
## 6 N6 0
## Variable Porcentaje NA
## 1 N241 0
## 2 N242 0
## 3 N243 0
## 4 N244 0
## 5 N245 0
## 6 N246 0
Construimos dos bases de datos con la información relevente.
## edad nivel p3_1 p3_2 p3_3 p10 p32 p32_6esp p33_1 p33_2 p33_3 p33_4
## 1 29 4 2 2 2 0 3 2 2 2 2
## 2 53 3 2 2 1 0 0 2 2 2 2
## 3 65 2 2 2 2 0 1 2 2 2 2
## 4 44 3 2 2 2 0 2 2 2 2 2
## 5 52 6 2 2 2 0 0 2 2 2 2
## 6 36 3 2 2 2 0 3 2 2 2 2
## edad nivel p3_1 p3_2 p3_3 p10 p32 p32_6esp p33_1 p33_2 p33_3 p33_4
## 1 52 3 2 2 2 0 5 2 2 2 2
## 2 55 3 2 2 2 0 2 2 2 2 2
## 3 59 3 2 2 2 0 3 2 2 2 2
## 4 30 4 2 2 2 0 4 2 2 2 2
## 5 54 3 2 2 1 0 0 2 2 2 2
## 6 30 4 2 2 2 0 0 2 2 2 2