Base de datos MOLEC

Equipo 5

Juan Pablo De la Vega Lozano A01722896
Ana Lidia Hern´andez D´ıaz A00838643
Karen Paulina Rosales Vazquez A00838470
Ximena Padr´on Contreras A00840445

Base de datos

Aqui visualizamos el orden de las variables y en base a el diccionario proporcionado se podrán identificar de mejor manera

##   [1] "folio"    "entidad"  "control"  "viv_sel"  "num_hog"  "hog_mud" 
##   [7] "n_ren_el" "cd"       "periodo"  "sexo"     "edad"     "nivel"   
##  [13] "anio"     "cond_act" "p1"       "p2"       "p3_1"     "p3_2"    
##  [19] "p3_3"     "p3_4"     "p3_5"     "p4"       "p5"       "p5_6esp" 
##  [25] "p6_1"     "p6_2"     "p6_3"     "p6_4"     "p6_5"     "p6_6"    
##  [31] "p6_6esp"  "p7"       "p7_3"     "p8_1"     "p8_2"     "p9"      
##  [37] "p9_5esp"  "p10"      "p11"      "p11_6esp" "p12_1"    "p12_2"   
##  [43] "p12_3"    "p12_4"    "p12_5"    "p12_6"    "p12_7"    "p12_8"   
##  [49] "p12_9"    "p12_9esp" "p13"      "p13_3"    "p14_1"    "p14_2"   
##  [55] "p15"      "p15_5esp" "p16"      "p17"      "p17_6esp" "p18_1"   
##  [61] "p18_2"    "p18_3"    "p18_4"    "p18_5"    "p19"      "p19_3"   
##  [67] "p20_1"    "p20_2"    "p21"      "p21_5esp" "p22"      "p23_1"   
##  [73] "p23_2"    "p24"      "p25"      "p25_6esp" "p26"      "p27"     
##  [79] "p28"      "p28_7esp" "p29"      "p30"      "p31"      "p32"     
##  [85] "p32_6esp" "p33_1"    "p33_2"    "p33_3"    "p33_4"    "p34_1"   
##  [91] "p34_2"    "p34_3"    "p34_3_1"  "p34_4"    "p34_4_1"  "p35"     
##  [97] "p36_1"    "p36_2"    "p36_3"    "p36_4"    "factor"   "h_lec"   
## [103] "mat_lec"  "perslec"  "l_format" "r_format" "p_format" "perslecl"

Visual

Usamos las siguientes propiedades para familiarizarnos con la base de datos

str(M23) #muestra la estructura de la base de datos Mp

names(M23) #muestra la lista de nombres de las variables

View(M23) #aqui se puede ver la tabla

head(M23) #muestra las primeras 6 filas de la base de datos

Valores faltantes

Previsualización de valores faltantes

Usando el comando summary podemos observar si existen valores faltantes

##       anio      
##  Min.   :1.000  
##  1st Qu.:3.000  
##  Median :3.000  
##  Mean   :3.521  
##  3rd Qu.:4.000  
##  Max.   :7.000  
##  NA's   :48

Variables seleccionadas:

Aqui vamos a visualizar si hay datos faltantes de ambos años.

Realizamos un ciclo for para poder iterar entre las columnas en donde se recopila el número de la columna y se guarda como una nueva variable que indica el porcentaje de valores faltantes, esto nos va a facilitar la limpieza de datos.

##   Variable Porcentaje NA
## 1       N1             0
## 2       N2             0
## 3       N3             0
## 4       N4             0
## 5       N5             0
## 6       N6             0

##   Variable Porcentaje NA
## 1     N241             0
## 2     N242             0
## 3     N243             0
## 4     N244             0
## 5     N245             0
## 6     N246             0

Seleccion de variables

Construimos dos bases de datos con la información relevente.

##   edad nivel p3_1 p3_2 p3_3 p10 p32 p32_6esp p33_1 p33_2 p33_3 p33_4
## 1   29     4    2    2    2   0   3              2     2     2     2
## 2   53     3    2    2    1   0   0              2     2     2     2
## 3   65     2    2    2    2   0   1              2     2     2     2
## 4   44     3    2    2    2   0   2              2     2     2     2
## 5   52     6    2    2    2   0   0              2     2     2     2
## 6   36     3    2    2    2   0   3              2     2     2     2

##   edad nivel p3_1 p3_2 p3_3 p10 p32 p32_6esp p33_1 p33_2 p33_3 p33_4
## 1   52     3    2    2    2   0   5              2     2     2     2
## 2   55     3    2    2    2   0   2              2     2     2     2
## 3   59     3    2    2    2   0   3              2     2     2     2
## 4   30     4    2    2    2   0   4              2     2     2     2
## 5   54     3    2    2    1   0   0              2     2     2     2
## 6   30     4    2    2    2   0   0              2     2     2     2