Vamos a empezar de nuevo, recuerden que siempre el primer paso es decirle a R el lugar donde vamos a estar trabajando.

Eso se hace con el comando setwd “Set Working Directory”

setwd("C:/Users/23043/Dropbox/UDLAP/Investigacion/Honores/Bases")

y asi podemos leer nuestro archivo de datos:

data<- read.csv("C:/Users/23043/Dropbox/UDLAP/Investigacion/Honores/Bases/sdemt218.csv")

Si queremos conocer la base, podemos usar algunos comandos:

ls(data) #muestra los nombres de las variables en orden alfabetico
##   [1] "AGEB"       "AMBITO1"    "AMBITO2"    "ANIOS_ESC"  "BUSCAR5C"  
##   [6] "BUSQUEDA"   "C_INAC5C"   "C_OCU11C"   "C_RES"      "CD_A"      
##  [11] "CLASE1"     "CLASE2"     "CLASE3"     "CON"        "CP_ANOC"   
##  [16] "CS_AD_DES"  "CS_AD_MOT"  "CS_NR_MOT"  "CS_NR_ORI"  "CS_P12"    
##  [21] "CS_P13_1"   "CS_P13_2"   "CS_P14_C"   "CS_P15"     "CS_P16"    
##  [26] "CS_P17"     "CS_P20_DES" "CS_P22_DES" "D_ANT_LAB"  "D_CEXP_EST"
##  [31] "D_SEM"      "DISPO"      "DOMESTICO"  "DUR_DES"    "DUR_EST"   
##  [36] "DUR9C"      "E_CON"      "EDA"        "EDA12C"     "EDA19C"    
##  [41] "EDA5C"      "EDA7C"      "EMP_PPAL"   "EMPLE7C"    "ENT"       
##  [46] "EST"        "EST_D"      "FAC"        "H_MUD"      "HIJ5C"     
##  [51] "HRSOCUP"    "IMSSISSSTE" "ING_X_HRS"  "ING7C"      "INGOCUP"   
##  [56] "L_NAC_C"    "LOC"        "MA48ME1SM"  "MEDICA5C"   "MH_COL"    
##  [61] "MH_FIL2"    "MUN"        "N_ENT"      "N_HIJ"      "N_HOG"     
##  [66] "N_PRO_VIV"  "N_REN"      "NAC_ANIO"   "NAC_DIA"    "NAC_MES"   
##  [71] "NIV_INS"    "NODISPO"    "P14APOYOS"  "PAR_C"      "PER"       
##  [76] "PNEA_EST"   "POS_OCU"    "PRE_ASA"    "R_DEF"      "RAMA"      
##  [81] "RAMA_EST1"  "RAMA_EST2"  "REMUNE2C"   "S_CLASIFI"  "SALARIO"   
##  [86] "SCIAN"      "SEC_INS"    "SEG_SOC"    "SEX"        "SUB_O"     
##  [91] "T_LOC"      "T_TRA"      "TCCO"       "TIP_CON"    "TPG_P8A"   
##  [96] "TRANS_PPAL" "TUE_PPAL"   "TUE1"       "TUE2"       "TUE3"      
## [101] "UPM"        "UR"         "V_SEL"      "ZONA"
names(data) # nombres de variables en orden de aparicion
##   [1] "R_DEF"      "LOC"        "MUN"        "EST"        "EST_D"     
##   [6] "AGEB"       "T_LOC"      "CD_A"       "ENT"        "CON"       
##  [11] "UPM"        "D_SEM"      "N_PRO_VIV"  "V_SEL"      "N_HOG"     
##  [16] "H_MUD"      "N_ENT"      "PER"        "N_REN"      "C_RES"     
##  [21] "PAR_C"      "SEX"        "EDA"        "NAC_DIA"    "NAC_MES"   
##  [26] "NAC_ANIO"   "L_NAC_C"    "CS_P12"     "CS_P13_1"   "CS_P13_2"  
##  [31] "CS_P14_C"   "CS_P15"     "CS_P16"     "CS_P17"     "N_HIJ"     
##  [36] "E_CON"      "CS_AD_MOT"  "CS_P20_DES" "CS_AD_DES"  "CS_NR_MOT" 
##  [41] "CS_P22_DES" "CS_NR_ORI"  "UR"         "ZONA"       "SALARIO"   
##  [46] "FAC"        "CLASE1"     "CLASE2"     "CLASE3"     "POS_OCU"   
##  [51] "SEG_SOC"    "RAMA"       "C_OCU11C"   "ING7C"      "DUR9C"     
##  [56] "EMPLE7C"    "MEDICA5C"   "BUSCAR5C"   "RAMA_EST1"  "RAMA_EST2" 
##  [61] "DUR_EST"    "AMBITO1"    "AMBITO2"    "TUE1"       "TUE2"      
##  [66] "TUE3"       "BUSQUEDA"   "D_ANT_LAB"  "D_CEXP_EST" "DUR_DES"   
##  [71] "SUB_O"      "S_CLASIFI"  "REMUNE2C"   "PRE_ASA"    "TIP_CON"   
##  [76] "DISPO"      "NODISPO"    "C_INAC5C"   "PNEA_EST"   "NIV_INS"   
##  [81] "EDA5C"      "EDA7C"      "EDA12C"     "EDA19C"     "HIJ5C"     
##  [86] "DOMESTICO"  "ANIOS_ESC"  "HRSOCUP"    "INGOCUP"    "ING_X_HRS" 
##  [91] "TPG_P8A"    "TCCO"       "CP_ANOC"    "IMSSISSSTE" "MA48ME1SM" 
##  [96] "P14APOYOS"  "SCIAN"      "T_TRA"      "EMP_PPAL"   "TUE_PPAL"  
## [101] "TRANS_PPAL" "MH_FIL2"    "MH_COL"     "SEC_INS"
str(data) # informacion sobre el tipo de variable
## 'data.frame':    392257 obs. of  104 variables:
##  $ R_DEF     : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ LOC       : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ MUN       : int  2 2 2 2 2 2 2 2 2 2 ...
##  $ EST       : int  10 10 10 10 10 10 10 10 10 10 ...
##  $ EST_D     : int  109 109 109 109 109 109 109 109 109 109 ...
##  $ AGEB      : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ T_LOC     : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ CD_A      : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ ENT       : int  9 9 9 9 9 9 9 9 9 9 ...
##  $ CON       : int  40001 40001 40001 40001 40001 40001 40001 40001 40001 40001 ...
##  $ UPM       : int  900471 900471 900471 900471 900471 900471 900471 900471 900471 900471 ...
##  $ D_SEM     : int  101 101 101 101 101 101 101 101 101 101 ...
##  $ N_PRO_VIV : int  9 9 9 9 34 34 65 65 65 90 ...
##  $ V_SEL     : int  1 1 1 1 2 2 3 3 3 4 ...
##  $ N_HOG     : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ H_MUD     : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ N_ENT     : int  3 3 3 3 3 3 3 3 3 3 ...
##  $ PER       : int  218 218 218 218 218 218 218 218 218 218 ...
##  $ N_REN     : int  1 2 3 4 1 2 1 2 3 1 ...
##  $ C_RES     : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ PAR_C     : int  101 201 301 301 101 201 101 201 301 101 ...
##  $ SEX       : int  1 2 2 2 1 2 1 2 2 1 ...
##  $ EDA       : int  50 47 14 12 30 29 36 31 12 35 ...
##  $ NAC_DIA   : int  28 4 22 9 18 7 17 7 12 30 ...
##  $ NAC_MES   : int  6 7 4 6 4 1 9 11 10 6 ...
##  $ NAC_ANIO  : int  1967 1970 2003 2005 1987 1989 1981 1986 2005 1982 ...
##  $ L_NAC_C   : int  9 9 9 9 9 9 9 9 15 9 ...
##  $ CS_P12    : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ CS_P13_1  : int  4 8 3 2 7 7 4 3 2 7 ...
##  $ CS_P13_2  : int  3 2 2 6 4 4 3 3 6 4 ...
##  $ CS_P14_C  : Factor w/ 361 levels "","0315","0334",..: 1 287 1 1 162 148 1 1 1 164 ...
##  $ CS_P15    : int  NA NA NA NA 3 3 NA NA NA 3 ...
##  $ CS_P16    : int  NA 1 NA NA 1 1 NA NA NA 1 ...
##  $ CS_P17    : int  2 2 1 1 2 2 2 2 1 2 ...
##  $ N_HIJ     : int  NA 2 0 0 NA 0 NA 1 0 NA ...
##  $ E_CON     : int  5 5 6 6 5 5 1 1 6 1 ...
##  $ CS_AD_MOT : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ CS_P20_DES: Factor w/ 398 levels ""," SE CAMBIO DE CASA",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ CS_AD_DES : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ CS_NR_MOT : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ CS_P22_DES: Factor w/ 190 levels ""," PROBLEMAS  ECONOMICOS",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ CS_NR_ORI : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ UR        : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ ZONA      : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ SALARIO   : int  2651 2651 2651 2651 2651 2651 2651 2651 2651 2651 ...
##  $ FAC       : int  482 482 482 482 482 482 482 482 482 482 ...
##  $ CLASE1    : int  1 1 2 2 1 1 1 2 2 1 ...
##  $ CLASE2    : int  1 1 4 4 1 1 1 4 4 1 ...
##  $ CLASE3    : int  1 1 0 0 1 3 1 0 0 1 ...
##  $ POS_OCU   : int  1 1 0 0 1 1 3 0 0 1 ...
##  $ SEG_SOC   : int  1 2 0 0 1 1 2 0 0 1 ...
##  $ RAMA      : int  2 4 0 0 4 4 3 0 0 4 ...
##  $ C_OCU11C  : int  7 1 0 0 1 2 6 0 0 6 ...
##  $ ING7C     : int  1 1 0 0 2 2 1 0 0 3 ...
##  $ DUR9C     : int  3 2 0 0 3 1 4 0 0 4 ...
##  $ EMPLE7C   : int  6 5 0 0 6 6 1 0 0 6 ...
##  $ MEDICA5C  : int  3 1 0 0 3 3 1 0 0 3 ...
##  $ BUSCAR5C  : int  4 4 0 0 4 4 4 0 0 4 ...
##  $ RAMA_EST1 : int  2 3 0 0 3 3 3 0 0 3 ...
##  $ RAMA_EST2 : int  3 9 0 0 8 9 5 0 0 7 ...
##  $ DUR_EST   : int  3 2 0 0 3 1 3 0 0 3 ...
##  $ AMBITO1   : int  2 2 0 0 2 2 2 0 0 2 ...
##  $ AMBITO2   : int  6 4 0 0 5 5 2 0 0 5 ...
##  $ TUE1      : int  1 1 0 0 1 2 3 0 0 1 ...
##  $ TUE2      : int  1 1 0 0 1 3 5 0 0 1 ...
##  $ TUE3      : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ BUSQUEDA  : int  2 2 0 0 2 2 2 0 0 2 ...
##  $ D_ANT_LAB : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ D_CEXP_EST: int  0 0 0 0 0 0 0 0 0 0 ...
##  $ DUR_DES   : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ SUB_O     : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ S_CLASIFI : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ REMUNE2C  : int  1 2 0 0 1 1 0 0 0 1 ...
##  $ PRE_ASA   : int  1 2 0 0 1 1 0 0 0 1 ...
##  $ TIP_CON   : int  3 5 0 0 3 5 0 0 0 3 ...
##  $ DISPO     : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ NODISPO   : int  0 0 3 3 0 0 0 3 3 0 ...
##  $ C_INAC5C  : int  0 0 1 1 0 0 0 2 1 0 ...
##  $ PNEA_EST  : int  0 0 4 4 0 0 0 4 4 0 ...
##  $ NIV_INS   : int  4 4 2 2 4 4 4 3 2 4 ...
##  $ EDA5C     : int  3 3 0 0 2 2 2 2 0 2 ...
##  $ EDA7C     : int  5 4 0 0 3 2 3 3 0 3 ...
##  $ EDA12C    : int  8 7 0 0 4 3 5 4 0 5 ...
##  $ EDA19C    : int  13 12 5 5 9 8 10 9 5 10 ...
##  $ HIJ5C     : int  0 2 1 1 0 1 0 2 1 0 ...
##  $ DOMESTICO : int  3 3 8 8 3 3 1 8 8 3 ...
##  $ ANIOS_ESC : int  12 18 8 6 16 16 12 9 6 16 ...
##  $ HRSOCUP   : int  24 10 0 0 24 0 30 0 0 33 ...
##  $ INGOCUP   : int  1000 800 0 0 3000 5000 2000 0 0 6000 ...
##  $ ING_X_HRS : num  9.69 18.6 0 0 29.07 ...
##  $ TPG_P8A   : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ TCCO      : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ CP_ANOC   : int  0 0 0 0 0 0 1 0 0 0 ...
##  $ IMSSISSSTE: int  1 4 0 0 1 1 4 0 0 1 ...
##  $ MA48ME1SM : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ P14APOYOS : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ SCIAN     : int  5 16 0 0 12 15 7 0 0 9 ...
##  $ T_TRA     : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ EMP_PPAL  : int  2 1 0 0 2 2 1 0 0 2 ...
##   [list output truncated]
dim(data) #dimensiones: filas y columnas
## [1] 392257    104

Todas las instrucciones anteriores nos dan informacion sobre la base, el tipo de variable y demas, pero no sobre la informacion que cada variable contiene.

Podemos ver las primeras y ultimas lineas de cada variable usando:

head(data,n=10) 
##    R_DEF LOC MUN EST EST_D AGEB T_LOC CD_A ENT   CON    UPM D_SEM
## 1      0   1   2  10   109    0     1    1   9 40001 900471   101
## 2      0   1   2  10   109    0     1    1   9 40001 900471   101
## 3      0   1   2  10   109    0     1    1   9 40001 900471   101
## 4      0   1   2  10   109    0     1    1   9 40001 900471   101
## 5      0   1   2  10   109    0     1    1   9 40001 900471   101
## 6      0   1   2  10   109    0     1    1   9 40001 900471   101
## 7      0   1   2  10   109    0     1    1   9 40001 900471   101
## 8      0   1   2  10   109    0     1    1   9 40001 900471   101
## 9      0   1   2  10   109    0     1    1   9 40001 900471   101
## 10     0   1   2  10   109    0     1    1   9 40001 900471   101
##    N_PRO_VIV V_SEL N_HOG H_MUD N_ENT PER N_REN C_RES PAR_C SEX EDA NAC_DIA
## 1          9     1     1     0     3 218     1     1   101   1  50      28
## 2          9     1     1     0     3 218     2     1   201   2  47       4
## 3          9     1     1     0     3 218     3     1   301   2  14      22
## 4          9     1     1     0     3 218     4     1   301   2  12       9
## 5         34     2     1     0     3 218     1     1   101   1  30      18
## 6         34     2     1     0     3 218     2     1   201   2  29       7
## 7         65     3     1     0     3 218     1     1   101   1  36      17
## 8         65     3     1     0     3 218     2     1   201   2  31       7
## 9         65     3     1     0     3 218     3     1   301   2  12      12
## 10        90     4     1     0     3 218     1     1   101   1  35      30
##    NAC_MES NAC_ANIO L_NAC_C CS_P12 CS_P13_1 CS_P13_2 CS_P14_C CS_P15
## 1        6     1967       9      1        4        3              NA
## 2        7     1970       9      1        8        2     7713     NA
## 3        4     2003       9      1        3        2              NA
## 4        6     2005       9      1        2        6              NA
## 5        4     1987       9      1        7        4     5332      3
## 6        1     1989       9      1        7        4     5222      3
## 7        9     1981       9      1        4        3              NA
## 8       11     1986       9      1        3        3              NA
## 9       10     2005      15      1        2        6              NA
## 10       6     1982       9      1        7        4     5334      3
##    CS_P16 CS_P17 N_HIJ E_CON CS_AD_MOT CS_P20_DES CS_AD_DES CS_NR_MOT
## 1      NA      2    NA     5        NA                   NA        NA
## 2       1      2     2     5        NA                   NA        NA
## 3      NA      1     0     6        NA                   NA        NA
## 4      NA      1     0     6        NA                   NA        NA
## 5       1      2    NA     5        NA                   NA        NA
## 6       1      2     0     5        NA                   NA        NA
## 7      NA      2    NA     1        NA                   NA        NA
## 8      NA      2     1     1        NA                   NA        NA
## 9      NA      1     0     6        NA                   NA        NA
## 10      1      2    NA     1        NA                   NA        NA
##    CS_P22_DES CS_NR_ORI UR ZONA SALARIO FAC CLASE1 CLASE2 CLASE3 POS_OCU
## 1                    NA  1    1    2651 482      1      1      1       1
## 2                    NA  1    1    2651 482      1      1      1       1
## 3                    NA  1    1    2651 482      2      4      0       0
## 4                    NA  1    1    2651 482      2      4      0       0
## 5                    NA  1    1    2651 482      1      1      1       1
## 6                    NA  1    1    2651 482      1      1      3       1
## 7                    NA  1    1    2651 482      1      1      1       3
## 8                    NA  1    1    2651 482      2      4      0       0
## 9                    NA  1    1    2651 482      2      4      0       0
## 10                   NA  1    1    2651 482      1      1      1       1
##    SEG_SOC RAMA C_OCU11C ING7C DUR9C EMPLE7C MEDICA5C BUSCAR5C RAMA_EST1
## 1        1    2        7     1     3       6        3        4         2
## 2        2    4        1     1     2       5        1        4         3
## 3        0    0        0     0     0       0        0        0         0
## 4        0    0        0     0     0       0        0        0         0
## 5        1    4        1     2     3       6        3        4         3
## 6        1    4        2     2     1       6        3        4         3
## 7        2    3        6     1     4       1        1        4         3
## 8        0    0        0     0     0       0        0        0         0
## 9        0    0        0     0     0       0        0        0         0
## 10       1    4        6     3     4       6        3        4         3
##    RAMA_EST2 DUR_EST AMBITO1 AMBITO2 TUE1 TUE2 TUE3 BUSQUEDA D_ANT_LAB
## 1          3       3       2       6    1    1    0        2         0
## 2          9       2       2       4    1    1    0        2         0
## 3          0       0       0       0    0    0    0        0         0
## 4          0       0       0       0    0    0    0        0         0
## 5          8       3       2       5    1    1    0        2         0
## 6          9       1       2       5    2    3    0        2         0
## 7          5       3       2       2    3    5    0        2         0
## 8          0       0       0       0    0    0    0        0         0
## 9          0       0       0       0    0    0    0        0         0
## 10         7       3       2       5    1    1    0        2         0
##    D_CEXP_EST DUR_DES SUB_O S_CLASIFI REMUNE2C PRE_ASA TIP_CON DISPO
## 1           0       0     0         0        1       1       3     0
## 2           0       0     0         0        2       2       5     0
## 3           0       0     0         0        0       0       0     0
## 4           0       0     0         0        0       0       0     0
## 5           0       0     0         0        1       1       3     0
## 6           0       0     0         0        1       1       5     0
## 7           0       0     0         0        0       0       0     0
## 8           0       0     0         0        0       0       0     0
## 9           0       0     0         0        0       0       0     0
## 10          0       0     0         0        1       1       3     0
##    NODISPO C_INAC5C PNEA_EST NIV_INS EDA5C EDA7C EDA12C EDA19C HIJ5C
## 1        0        0        0       4     3     5      8     13     0
## 2        0        0        0       4     3     4      7     12     2
## 3        3        1        4       2     0     0      0      5     1
## 4        3        1        4       2     0     0      0      5     1
## 5        0        0        0       4     2     3      4      9     0
## 6        0        0        0       4     2     2      3      8     1
## 7        0        0        0       4     2     3      5     10     0
## 8        3        2        4       3     2     3      4      9     2
## 9        3        1        4       2     0     0      0      5     1
## 10       0        0        0       4     2     3      5     10     0
##    DOMESTICO ANIOS_ESC HRSOCUP INGOCUP ING_X_HRS TPG_P8A TCCO CP_ANOC
## 1          3        12      24    1000   9.68992       0    0       0
## 2          3        18      10     800  18.60465       0    0       0
## 3          8         8       0       0   0.00000       0    0       0
## 4          8         6       0       0   0.00000       0    0       0
## 5          3        16      24    3000  29.06977       0    0       0
## 6          3        16       0    5000   0.00000       0    0       0
## 7          1        12      30    2000  15.50388       0    0       1
## 8          8         9       0       0   0.00000       0    0       0
## 9          8         6       0       0   0.00000       0    0       0
## 10         3        16      33    6000  42.28330       0    0       0
##    IMSSISSSTE MA48ME1SM P14APOYOS SCIAN T_TRA EMP_PPAL TUE_PPAL TRANS_PPAL
## 1           1         0         0     5     1        2        2          0
## 2           4         0         0    16     1        1        2          0
## 3           0         0         0     0     1        0        0          0
## 4           0         0         0     0     1        0        0          0
## 5           1         0         0    12     1        2        2          0
## 6           1         0         0    15     1        2        2          0
## 7           4         0         0     7     1        1        1          0
## 8           0         0         0     0     1        0        0          0
## 9           0         0         0     0     1        0        0          0
## 10          1         0         0     9     1        2        2          0
##    MH_FIL2 MH_COL SEC_INS
## 1        3      2       2
## 2        3      3       2
## 3        0      0       0
## 4        0      0       0
## 5        3      2       2
## 6        3      2       6
## 7        1      7       8
## 8        0      0       0
## 9        0      0       0
## 10       3      2       2
tail(data,n=10)
##        R_DEF LOC MUN EST EST_D AGEB T_LOC CD_A ENT   CON     UPM D_SEM
## 392248     0   1   5  20   110    0     1    1   9 40246  905042   505
## 392249     0   1  32  30   141    0     2   83  11 50043 1107326   203
## 392250     0   1 124  10   282    0     3   84  20 50047 2002448   402
## 392251     0  41  97  20   186    0     3   84  14 50014 1414139   201
## 392252     0 272  10  10    49    0     4   86   4 60024  460207   503
## 392253     0 141   9  20   268    0     4   86  19 60001 1960148   101
## 392254     0   1  20  40   133    0     1    5  11 40110 1104691   203
## 392255     0   1  25  30   366    0     2   83  26 50096 2605713   401
## 392256     0   1  30  30    58    0     1   17   5 40170  502586   206
## 392257     0   1  22  20   449    0     2   83  32 50047 3201356   402
##        N_PRO_VIV V_SEL N_HOG H_MUD N_ENT PER N_REN C_RES PAR_C SEX EDA
## 392248        59     5     1     0     4 218     7     2    NA  NA  NA
## 392249        56    20     1     0     2 218     5     2    NA  NA  NA
## 392250       103    17     1     0     5 218     8     2    NA  NA  NA
## 392251       225    13     1     0     2 218     6     2    NA  NA  NA
## 392252        41    10     1     0     4 218     3     2    NA  NA  NA
## 392253       124    20     1     0     3 218     8     2    NA  NA  NA
## 392254        52     4     1     0     2 218     2     2    NA  NA  NA
## 392255       155     2     1     0     5 218     5     2    NA  NA  NA
## 392256       116     5     1     0     2 218     5     2    NA  NA  NA
## 392257        73    10     1     0     5 218     2     2    NA  NA  NA
##        NAC_DIA NAC_MES NAC_ANIO L_NAC_C CS_P12 CS_P13_1 CS_P13_2 CS_P14_C
## 392248      NA      NA       NA      NA     NA       NA       NA         
## 392249      NA      NA       NA      NA     NA       NA       NA         
## 392250      NA      NA       NA      NA     NA       NA       NA         
## 392251      NA      NA       NA      NA     NA       NA       NA         
## 392252      NA      NA       NA      NA     NA       NA       NA         
## 392253      NA      NA       NA      NA     NA       NA       NA         
## 392254      NA      NA       NA      NA     NA       NA       NA         
## 392255      NA      NA       NA      NA     NA       NA       NA         
## 392256      NA      NA       NA      NA     NA       NA       NA         
## 392257      NA      NA       NA      NA     NA       NA       NA         
##        CS_P15 CS_P16 CS_P17 N_HIJ E_CON CS_AD_MOT            CS_P20_DES
## 392248     NA     NA     NA    NA    NA         9                      
## 392249     NA     NA     NA    NA    NA        10        INDEPENDIZARSE
## 392250     NA     NA     NA    NA    NA         6                      
## 392251     NA     NA     NA    NA    NA         3                      
## 392252     NA     NA     NA    NA    NA        10      CAMBIO DOMICILIO
## 392253     NA     NA     NA    NA    NA        10   SE LO LLEVO SU MAMA
## 392254     NA     NA     NA    NA    NA        10 SU MARIDO COMPRO CASA
## 392255     NA     NA     NA    NA    NA         3                      
## 392256     NA     NA     NA    NA    NA         6                      
## 392257     NA     NA     NA    NA    NA         9                      
##        CS_AD_DES CS_NR_MOT CS_P22_DES CS_NR_ORI UR ZONA SALARIO  FAC
## 392248        NA        NA                   NA  1    1    2651  723
## 392249         1        NA                   NA  2    1    2651  484
## 392250         1        NA                   NA  2    1    2651  522
## 392251         1        NA                   NA  2    1    2651 1044
## 392252         1        NA                   NA  2    1    2651  120
## 392253         1        NA                   NA  2    1    2651  350
## 392254         1        NA                   NA  1    1    2651  130
## 392255         1        NA                   NA  2    1    2651  467
## 392256         1        NA                   NA  1    1    2651  110
## 392257        NA        NA                   NA  2    1    2651  206
##        CLASE1 CLASE2 CLASE3 POS_OCU SEG_SOC RAMA C_OCU11C ING7C DUR9C
## 392248      0      0      0       0       0    0        0     0     0
## 392249      0      0      0       0       0    0        0     0     0
## 392250      0      0      0       0       0    0        0     0     0
## 392251      0      0      0       0       0    0        0     0     0
## 392252      0      0      0       0       0    0        0     0     0
## 392253      0      0      0       0       0    0        0     0     0
## 392254      0      0      0       0       0    0        0     0     0
## 392255      0      0      0       0       0    0        0     0     0
## 392256      0      0      0       0       0    0        0     0     0
## 392257      0      0      0       0       0    0        0     0     0
##        EMPLE7C MEDICA5C BUSCAR5C RAMA_EST1 RAMA_EST2 DUR_EST AMBITO1
## 392248       0        0        0         0         0       0       0
## 392249       0        0        0         0         0       0       0
## 392250       0        0        0         0         0       0       0
## 392251       0        0        0         0         0       0       0
## 392252       0        0        0         0         0       0       0
## 392253       0        0        0         0         0       0       0
## 392254       0        0        0         0         0       0       0
## 392255       0        0        0         0         0       0       0
## 392256       0        0        0         0         0       0       0
## 392257       0        0        0         0         0       0       0
##        AMBITO2 TUE1 TUE2 TUE3 BUSQUEDA D_ANT_LAB D_CEXP_EST DUR_DES SUB_O
## 392248       0    0    0    0        0         0          0       0     0
## 392249       0    0    0    0        0         0          0       0     0
## 392250       0    0    0    0        0         0          0       0     0
## 392251       0    0    0    0        0         0          0       0     0
## 392252       0    0    0    0        0         0          0       0     0
## 392253       0    0    0    0        0         0          0       0     0
## 392254       0    0    0    0        0         0          0       0     0
## 392255       0    0    0    0        0         0          0       0     0
## 392256       0    0    0    0        0         0          0       0     0
## 392257       0    0    0    0        0         0          0       0     0
##        S_CLASIFI REMUNE2C PRE_ASA TIP_CON DISPO NODISPO C_INAC5C PNEA_EST
## 392248         0        0       0       0     0       0        0        0
## 392249         0        0       0       0     0       0        0        0
## 392250         0        0       0       0     0       0        0        0
## 392251         0        0       0       0     0       0        0        0
## 392252         0        0       0       0     0       0        0        0
## 392253         0        0       0       0     0       0        0        0
## 392254         0        0       0       0     0       0        0        0
## 392255         0        0       0       0     0       0        0        0
## 392256         0        0       0       0     0       0        0        0
## 392257         0        0       0       0     0       0        0        0
##        NIV_INS EDA5C EDA7C EDA12C EDA19C HIJ5C DOMESTICO ANIOS_ESC HRSOCUP
## 392248       0     0     0      0      0     0         0         0       0
## 392249       0     0     0      0      0     0         0         0       0
## 392250       0     0     0      0      0     0         0         0       0
## 392251       0     0     0      0      0     0         0         0       0
## 392252       0     0     0      0      0     0         0         0       0
## 392253       0     0     0      0      0     0         0         0       0
## 392254       0     0     0      0      0     0         0         0       0
## 392255       0     0     0      0      0     0         0         0       0
## 392256       0     0     0      0      0     0         0         0       0
## 392257       0     0     0      0      0     0         0         0       0
##        INGOCUP ING_X_HRS TPG_P8A TCCO CP_ANOC IMSSISSSTE MA48ME1SM
## 392248       0         0       0    0       0          0         0
## 392249       0         0       0    0       0          0         0
## 392250       0         0       0    0       0          0         0
## 392251       0         0       0    0       0          0         0
## 392252       0         0       0    0       0          0         0
## 392253       0         0       0    0       0          0         0
## 392254       0         0       0    0       0          0         0
## 392255       0         0       0    0       0          0         0
## 392256       0         0       0    0       0          0         0
## 392257       0         0       0    0       0          0         0
##        P14APOYOS SCIAN T_TRA EMP_PPAL TUE_PPAL TRANS_PPAL MH_FIL2 MH_COL
## 392248         0     0     0        0        0          0       0      0
## 392249         0     0     0        0        0          0       0      0
## 392250         0     0     0        0        0          0       0      0
## 392251         0     0     0        0        0          0       0      0
## 392252         0     0     0        0        0          0       0      0
## 392253         0     0     0        0        0          0       0      0
## 392254         0     0     0        0        0          0       0      0
## 392255         0     0     0        0        0          0       0      0
## 392256         0     0     0        0        0          0       0      0
## 392257         0     0     0        0        0          0       0      0
##        SEC_INS
## 392248       0
## 392249       0
## 392250       0
## 392251       0
## 392252       0
## 392253       0
## 392254       0
## 392255       0
## 392256       0
## 392257       0

Tambien se puede hacer para una varible en particular, por ejemplo, la variable “SEG_SOC”

head(data$CLASE1,n=10) 
##  [1] 1 1 2 2 1 1 1 2 2 1
tail(data$CLASE1,n=10)
##  [1] 0 0 0 0 0 0 0 0 0 0

Para ver la información resumida

table(data$CLASE1)
## 
##      0      1      2 
##  82642 177248 132367

Y recuerden, para hacer una tabla proporcional:

prop.table(table(data$CLASE1))
## 
##         0         1         2 
## 0.2106833 0.4518670 0.3374497

Pero pueden ver que incluye todos los valores, ¿que significan 0,1 y 2? 0 - ??? 1 - PEA 2 - PNEA

Vamos a recordar de donde venia el 0.

table(data$EDA,data$CLASE1)
##     
##         0    1    2
##   0  4759    0    0
##   1  5545    0    0
##   2  5816    0    0
##   3  6174    0    0
##   4  6319    0    0
##   5  6540    0    0
##   6  6617    0    0
##   7  6701    0    0
##   8  6701    0    0
##   9  6760    0    0
##   10 6868    0    0
##   11 6639    0    0
##   12    0  261 6524
##   13    1  398 6394
##   14    1  601 6218
##   15    0 1076 6161
##   16    1 1401 5507
##   17    1 2062 5235
##   18    0 2819 4542
##   19    1 3232 3575
##   20    2 3455 3199
##   21    2 3488 2866
##   22    0 3884 2655
##   23    3 4389 2303
##   24    1 4582 1900
##   25    2 4507 1708
##   26    2 4606 1571
##   27    1 4523 1476
##   28    2 4524 1344
##   29    4 4134 1302
##   30    1 4602 1307
##   31    1 4048 1298
##   32    2 4042 1231
##   33    2 4244 1206
##   34    1 3976 1096
##   35    0 4017 1207
##   36    3 4099 1176
##   37    1 3986 1162
##   38    0 4245 1204
##   39    2 3866 1152
##   40    1 4466 1280
##   41    2 4134 1183
##   42    0 4069 1152
##   43    0 4298 1244
##   44    0 3888 1153
##   45    1 3958 1260
##   46    1 3789 1201
##   47    1 3547 1116
##   48    1 3663 1173
##   49    1 3407 1153
##   50    3 3702 1347
##   51    2 3309 1230
##   52    0 3027 1121
##   53    1 3090 1237
##   54    1 2838 1283
##   55    2 2655 1436
##   56    0 2442 1346
##   57    4 2294 1416
##   58    0 2135 1370
##   59    0 1947 1335
##   60    0 1851 1700
##   61    0 1501 1575
##   62    1 1354 1514
##   63    0 1244 1545
##   64    0 1141 1455
##   65    2 1124 1544
##   66    1  946 1459
##   67    0  781 1362
##   68    0  750 1346
##   69    0  623 1172
##   70    1  586 1318
##   71    0  470 1184
##   72    0  425 1018
##   73    0  406 1153
##   74    0  338 1000
##   75    0  308 1037
##   76    0  284  924
##   77    0  222  830
##   78    0  185  826
##   79    0  176  735
##   80    0  129  750
##   81    0  104  685
##   82    0   96  591
##   83    0   66  581
##   84    0   61  541
##   85    0   53  495
##   86    0   35  424
##   87    0   44  385
##   88    0   21  342
##   89    0   22  240
##   90    0    4  216
##   91    0    7  140
##   92    0    2  129
##   93    0    6  106
##   94    0    5  103
##   95    0    1   70
##   96    0    1   73
##   97    0    5  148
##   98    0  146   96
##   99   35    0    0

Primero, tenemos muchas personas menores de 12 años que no tienen informacion sobre participacion, vamos a eliminar a estos menores

La forma mas simple, es hacer un subset de la base original. La instruccion debe señalar cuales renglones se van a usar, seguido de una coma “,” y después cuáles columnas. En el ejemplo estamos pidiendo que se mantengan las lineas para las cuales la variable EDA esmayor a 12 y menor a 98 y todas las columnas.

data2<-data[which(data$EDA>12 & data$EDA<98),]

Se podria asignar de nuevo al objeto “data” pero si algo sale mal perderemos la informacion, por eso es mejor asignarlo a data2.

dim(data2)
## [1] 302651    104

El problema es que la variable es de tipo cadena str, por lo que hay que convertirla en numerica antes de usarla como tal

data$EDA<-as.numeric(data$EDA)

Ahora si podemos hacer la submuestra

data2<-data[which(data$EDA>12 & data$EDA<98),]

Ahora, como se ve la variable?

table(data2$CLASE1)
## 
##      0      1      2 
##     63 176841 125747

Aun necesitamos eliminar esos 63 casos…

data2$CLASE1<-as.numeric(data2$CLASE1)
data2<-data2[which(data2$CLASE1>0),]
table(data2$CLASE1)
## 
##      1      2 
## 176841 125747
prop.table(table(data2$CLASE1))
## 
##         1         2 
## 0.5844283 0.4155717

y usando otra variable

prop.table(table(data2$SEX,data2$CLASE1))
##    
##             1         2
##   1 0.3524330 0.1247307
##   2 0.2319953 0.2908410
prop.table(table(data2$SEX,data2$CLASE1),1)
##    
##             1         2
##   1 0.7385998 0.2614002
##   2 0.4437246 0.5562754
prop.table(table(data2$SEX,data2$CLASE1),2)
##    
##             1         2
##   1 0.6030389 0.3001423
##   2 0.3969611 0.6998577

Podemos empezar a asignar etiquetas a variables para no perdernos Por ejemplo, sabemos que la variable CLASE1 es sobre participacion en la actividad economica y la variable SEX es el sexo.

data2$CLASE1<-factor(data2$CLASE1, 
                     levels = c(1,2),
                     labels = c("PEA","PNEA"))
data2$SEX<-factor(data2$SEX,
                  levels = c(1,2),
                  labels = c("Hombre","Mujer"))
#y ahora
prop.table(table(data2$SEX,data2$CLASE1))
##         
##                PEA      PNEA
##   Hombre 0.3524330 0.1247307
##   Mujer  0.2319953 0.2908410
prop.table(table(data2$SEX,data2$CLASE1),1)
##         
##                PEA      PNEA
##   Hombre 0.7385998 0.2614002
##   Mujer  0.4437246 0.5562754
prop.table(table(data2$SEX,data2$CLASE1),2)
##         
##                PEA      PNEA
##   Hombre 0.6030389 0.3001423
##   Mujer  0.3969611 0.6998577

Ahora podemos empezar a hacernospreguntas: ¿Son distintos los porcentajes de hombres y mujere en la PEA? Para responde reso necesitamos una prueba de Chi-cuadrado

table<-table(data2$SEX,data2$CLASE1)
prop.table(table,1)
##         
##                PEA      PNEA
##   Hombre 0.7385998 0.2614002
##   Mujer  0.4437246 0.5562754
chisq.test(table)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table
## X-squared = 27025, df = 1, p-value < 2.2e-16

Ahora veamos qué otras cosas básicas podemos hacer

Histogramas:

hist(data2$EDA)

Vamos a pimpearlo:

hist(data2$EDA,main="Distribución de la población 
     por edad",
     xlab="Edad",ylab="Frecuencia")

¿y si lo queremos en proporciones?

hist(data2$EDA,main="Distribución de la población 
     por edad",
     xlab="Edad",ylab="Frecuencia",prob=T)

hist(data2$EDA,main="Distribución de la población 
     por edad",
     xlab="Edad",ylab="Frecuencia", prob =T,
     col="green",border="blue",breaks=50)

hist(data2$EDA,main="Distribución de la población 
     por edad",
     xlab="Edad",ylab="Frecuencia", prob =T,
     col="green",border="blue",breaks=50,
     las=2)

hist(data2$EDA,main="Distribución de la población 
     por edad",
     xlab="Edad",ylab="Frecuencia", prob =T,
     col="green",border="blue",breaks=20,
     las=2)

hist(data2$EDA,main="Distribución de la población 
     por edad",
     xlab="Edad",ylab="Frecuencia", prob =T,
     col="green",border="blue",breaks=20,
     las=2)
lines(density(data2$EDA))

Podemos preguntarnos otras cosas, por ejemplo, ¿Es diferente la edad de hombres y mujeres?

boxplot(EDA~SEX,data=data2)

o aun mejor! Es distinta la edad segun participacion laboral

boxplot(EDA~CLASE1,data=data2, main="Edad según PEA",
        xlab="PEA/PNEA",ylab="Edad")

boxplot(EDA~CLASE1*SEX,data=data2, main="Edad según PEA",ylab="Edad",notch=T,
        col=c("gold","green"),las=2)