Vamos a empezar de nuevo, recuerden que siempre el primer paso es decirle a R el lugar donde vamos a estar trabajando.
Eso se hace con el comando setwd “Set Working Directory”
setwd("C:/Users/23043/Dropbox/UDLAP/Investigacion/Honores/Bases")
y asi podemos leer nuestro archivo de datos:
data<- read.csv("C:/Users/23043/Dropbox/UDLAP/Investigacion/Honores/Bases/sdemt218.csv")
Si queremos conocer la base, podemos usar algunos comandos:
ls(data) #muestra los nombres de las variables en orden alfabetico
## [1] "AGEB" "AMBITO1" "AMBITO2" "ANIOS_ESC" "BUSCAR5C"
## [6] "BUSQUEDA" "C_INAC5C" "C_OCU11C" "C_RES" "CD_A"
## [11] "CLASE1" "CLASE2" "CLASE3" "CON" "CP_ANOC"
## [16] "CS_AD_DES" "CS_AD_MOT" "CS_NR_MOT" "CS_NR_ORI" "CS_P12"
## [21] "CS_P13_1" "CS_P13_2" "CS_P14_C" "CS_P15" "CS_P16"
## [26] "CS_P17" "CS_P20_DES" "CS_P22_DES" "D_ANT_LAB" "D_CEXP_EST"
## [31] "D_SEM" "DISPO" "DOMESTICO" "DUR_DES" "DUR_EST"
## [36] "DUR9C" "E_CON" "EDA" "EDA12C" "EDA19C"
## [41] "EDA5C" "EDA7C" "EMP_PPAL" "EMPLE7C" "ENT"
## [46] "EST" "EST_D" "FAC" "H_MUD" "HIJ5C"
## [51] "HRSOCUP" "IMSSISSSTE" "ING_X_HRS" "ING7C" "INGOCUP"
## [56] "L_NAC_C" "LOC" "MA48ME1SM" "MEDICA5C" "MH_COL"
## [61] "MH_FIL2" "MUN" "N_ENT" "N_HIJ" "N_HOG"
## [66] "N_PRO_VIV" "N_REN" "NAC_ANIO" "NAC_DIA" "NAC_MES"
## [71] "NIV_INS" "NODISPO" "P14APOYOS" "PAR_C" "PER"
## [76] "PNEA_EST" "POS_OCU" "PRE_ASA" "R_DEF" "RAMA"
## [81] "RAMA_EST1" "RAMA_EST2" "REMUNE2C" "S_CLASIFI" "SALARIO"
## [86] "SCIAN" "SEC_INS" "SEG_SOC" "SEX" "SUB_O"
## [91] "T_LOC" "T_TRA" "TCCO" "TIP_CON" "TPG_P8A"
## [96] "TRANS_PPAL" "TUE_PPAL" "TUE1" "TUE2" "TUE3"
## [101] "UPM" "UR" "V_SEL" "ZONA"
names(data) # nombres de variables en orden de aparicion
## [1] "R_DEF" "LOC" "MUN" "EST" "EST_D"
## [6] "AGEB" "T_LOC" "CD_A" "ENT" "CON"
## [11] "UPM" "D_SEM" "N_PRO_VIV" "V_SEL" "N_HOG"
## [16] "H_MUD" "N_ENT" "PER" "N_REN" "C_RES"
## [21] "PAR_C" "SEX" "EDA" "NAC_DIA" "NAC_MES"
## [26] "NAC_ANIO" "L_NAC_C" "CS_P12" "CS_P13_1" "CS_P13_2"
## [31] "CS_P14_C" "CS_P15" "CS_P16" "CS_P17" "N_HIJ"
## [36] "E_CON" "CS_AD_MOT" "CS_P20_DES" "CS_AD_DES" "CS_NR_MOT"
## [41] "CS_P22_DES" "CS_NR_ORI" "UR" "ZONA" "SALARIO"
## [46] "FAC" "CLASE1" "CLASE2" "CLASE3" "POS_OCU"
## [51] "SEG_SOC" "RAMA" "C_OCU11C" "ING7C" "DUR9C"
## [56] "EMPLE7C" "MEDICA5C" "BUSCAR5C" "RAMA_EST1" "RAMA_EST2"
## [61] "DUR_EST" "AMBITO1" "AMBITO2" "TUE1" "TUE2"
## [66] "TUE3" "BUSQUEDA" "D_ANT_LAB" "D_CEXP_EST" "DUR_DES"
## [71] "SUB_O" "S_CLASIFI" "REMUNE2C" "PRE_ASA" "TIP_CON"
## [76] "DISPO" "NODISPO" "C_INAC5C" "PNEA_EST" "NIV_INS"
## [81] "EDA5C" "EDA7C" "EDA12C" "EDA19C" "HIJ5C"
## [86] "DOMESTICO" "ANIOS_ESC" "HRSOCUP" "INGOCUP" "ING_X_HRS"
## [91] "TPG_P8A" "TCCO" "CP_ANOC" "IMSSISSSTE" "MA48ME1SM"
## [96] "P14APOYOS" "SCIAN" "T_TRA" "EMP_PPAL" "TUE_PPAL"
## [101] "TRANS_PPAL" "MH_FIL2" "MH_COL" "SEC_INS"
str(data) # informacion sobre el tipo de variable
## 'data.frame': 392257 obs. of 104 variables:
## $ R_DEF : int 0 0 0 0 0 0 0 0 0 0 ...
## $ LOC : int 1 1 1 1 1 1 1 1 1 1 ...
## $ MUN : int 2 2 2 2 2 2 2 2 2 2 ...
## $ EST : int 10 10 10 10 10 10 10 10 10 10 ...
## $ EST_D : int 109 109 109 109 109 109 109 109 109 109 ...
## $ AGEB : int 0 0 0 0 0 0 0 0 0 0 ...
## $ T_LOC : int 1 1 1 1 1 1 1 1 1 1 ...
## $ CD_A : int 1 1 1 1 1 1 1 1 1 1 ...
## $ ENT : int 9 9 9 9 9 9 9 9 9 9 ...
## $ CON : int 40001 40001 40001 40001 40001 40001 40001 40001 40001 40001 ...
## $ UPM : int 900471 900471 900471 900471 900471 900471 900471 900471 900471 900471 ...
## $ D_SEM : int 101 101 101 101 101 101 101 101 101 101 ...
## $ N_PRO_VIV : int 9 9 9 9 34 34 65 65 65 90 ...
## $ V_SEL : int 1 1 1 1 2 2 3 3 3 4 ...
## $ N_HOG : int 1 1 1 1 1 1 1 1 1 1 ...
## $ H_MUD : int 0 0 0 0 0 0 0 0 0 0 ...
## $ N_ENT : int 3 3 3 3 3 3 3 3 3 3 ...
## $ PER : int 218 218 218 218 218 218 218 218 218 218 ...
## $ N_REN : int 1 2 3 4 1 2 1 2 3 1 ...
## $ C_RES : int 1 1 1 1 1 1 1 1 1 1 ...
## $ PAR_C : int 101 201 301 301 101 201 101 201 301 101 ...
## $ SEX : int 1 2 2 2 1 2 1 2 2 1 ...
## $ EDA : int 50 47 14 12 30 29 36 31 12 35 ...
## $ NAC_DIA : int 28 4 22 9 18 7 17 7 12 30 ...
## $ NAC_MES : int 6 7 4 6 4 1 9 11 10 6 ...
## $ NAC_ANIO : int 1967 1970 2003 2005 1987 1989 1981 1986 2005 1982 ...
## $ L_NAC_C : int 9 9 9 9 9 9 9 9 15 9 ...
## $ CS_P12 : int 1 1 1 1 1 1 1 1 1 1 ...
## $ CS_P13_1 : int 4 8 3 2 7 7 4 3 2 7 ...
## $ CS_P13_2 : int 3 2 2 6 4 4 3 3 6 4 ...
## $ CS_P14_C : Factor w/ 361 levels "","0315","0334",..: 1 287 1 1 162 148 1 1 1 164 ...
## $ CS_P15 : int NA NA NA NA 3 3 NA NA NA 3 ...
## $ CS_P16 : int NA 1 NA NA 1 1 NA NA NA 1 ...
## $ CS_P17 : int 2 2 1 1 2 2 2 2 1 2 ...
## $ N_HIJ : int NA 2 0 0 NA 0 NA 1 0 NA ...
## $ E_CON : int 5 5 6 6 5 5 1 1 6 1 ...
## $ CS_AD_MOT : int NA NA NA NA NA NA NA NA NA NA ...
## $ CS_P20_DES: Factor w/ 398 levels ""," SE CAMBIO DE CASA",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ CS_AD_DES : int NA NA NA NA NA NA NA NA NA NA ...
## $ CS_NR_MOT : int NA NA NA NA NA NA NA NA NA NA ...
## $ CS_P22_DES: Factor w/ 190 levels ""," PROBLEMAS ECONOMICOS",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ CS_NR_ORI : int NA NA NA NA NA NA NA NA NA NA ...
## $ UR : int 1 1 1 1 1 1 1 1 1 1 ...
## $ ZONA : int 1 1 1 1 1 1 1 1 1 1 ...
## $ SALARIO : int 2651 2651 2651 2651 2651 2651 2651 2651 2651 2651 ...
## $ FAC : int 482 482 482 482 482 482 482 482 482 482 ...
## $ CLASE1 : int 1 1 2 2 1 1 1 2 2 1 ...
## $ CLASE2 : int 1 1 4 4 1 1 1 4 4 1 ...
## $ CLASE3 : int 1 1 0 0 1 3 1 0 0 1 ...
## $ POS_OCU : int 1 1 0 0 1 1 3 0 0 1 ...
## $ SEG_SOC : int 1 2 0 0 1 1 2 0 0 1 ...
## $ RAMA : int 2 4 0 0 4 4 3 0 0 4 ...
## $ C_OCU11C : int 7 1 0 0 1 2 6 0 0 6 ...
## $ ING7C : int 1 1 0 0 2 2 1 0 0 3 ...
## $ DUR9C : int 3 2 0 0 3 1 4 0 0 4 ...
## $ EMPLE7C : int 6 5 0 0 6 6 1 0 0 6 ...
## $ MEDICA5C : int 3 1 0 0 3 3 1 0 0 3 ...
## $ BUSCAR5C : int 4 4 0 0 4 4 4 0 0 4 ...
## $ RAMA_EST1 : int 2 3 0 0 3 3 3 0 0 3 ...
## $ RAMA_EST2 : int 3 9 0 0 8 9 5 0 0 7 ...
## $ DUR_EST : int 3 2 0 0 3 1 3 0 0 3 ...
## $ AMBITO1 : int 2 2 0 0 2 2 2 0 0 2 ...
## $ AMBITO2 : int 6 4 0 0 5 5 2 0 0 5 ...
## $ TUE1 : int 1 1 0 0 1 2 3 0 0 1 ...
## $ TUE2 : int 1 1 0 0 1 3 5 0 0 1 ...
## $ TUE3 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ BUSQUEDA : int 2 2 0 0 2 2 2 0 0 2 ...
## $ D_ANT_LAB : int 0 0 0 0 0 0 0 0 0 0 ...
## $ D_CEXP_EST: int 0 0 0 0 0 0 0 0 0 0 ...
## $ DUR_DES : int 0 0 0 0 0 0 0 0 0 0 ...
## $ SUB_O : int 0 0 0 0 0 0 0 0 0 0 ...
## $ S_CLASIFI : int 0 0 0 0 0 0 0 0 0 0 ...
## $ REMUNE2C : int 1 2 0 0 1 1 0 0 0 1 ...
## $ PRE_ASA : int 1 2 0 0 1 1 0 0 0 1 ...
## $ TIP_CON : int 3 5 0 0 3 5 0 0 0 3 ...
## $ DISPO : int 0 0 0 0 0 0 0 0 0 0 ...
## $ NODISPO : int 0 0 3 3 0 0 0 3 3 0 ...
## $ C_INAC5C : int 0 0 1 1 0 0 0 2 1 0 ...
## $ PNEA_EST : int 0 0 4 4 0 0 0 4 4 0 ...
## $ NIV_INS : int 4 4 2 2 4 4 4 3 2 4 ...
## $ EDA5C : int 3 3 0 0 2 2 2 2 0 2 ...
## $ EDA7C : int 5 4 0 0 3 2 3 3 0 3 ...
## $ EDA12C : int 8 7 0 0 4 3 5 4 0 5 ...
## $ EDA19C : int 13 12 5 5 9 8 10 9 5 10 ...
## $ HIJ5C : int 0 2 1 1 0 1 0 2 1 0 ...
## $ DOMESTICO : int 3 3 8 8 3 3 1 8 8 3 ...
## $ ANIOS_ESC : int 12 18 8 6 16 16 12 9 6 16 ...
## $ HRSOCUP : int 24 10 0 0 24 0 30 0 0 33 ...
## $ INGOCUP : int 1000 800 0 0 3000 5000 2000 0 0 6000 ...
## $ ING_X_HRS : num 9.69 18.6 0 0 29.07 ...
## $ TPG_P8A : int 0 0 0 0 0 0 0 0 0 0 ...
## $ TCCO : int 0 0 0 0 0 0 0 0 0 0 ...
## $ CP_ANOC : int 0 0 0 0 0 0 1 0 0 0 ...
## $ IMSSISSSTE: int 1 4 0 0 1 1 4 0 0 1 ...
## $ MA48ME1SM : int 0 0 0 0 0 0 0 0 0 0 ...
## $ P14APOYOS : int 0 0 0 0 0 0 0 0 0 0 ...
## $ SCIAN : int 5 16 0 0 12 15 7 0 0 9 ...
## $ T_TRA : int 1 1 1 1 1 1 1 1 1 1 ...
## $ EMP_PPAL : int 2 1 0 0 2 2 1 0 0 2 ...
## [list output truncated]
dim(data) #dimensiones: filas y columnas
## [1] 392257 104
Todas las instrucciones anteriores nos dan informacion sobre la base, el tipo de variable y demas, pero no sobre la informacion que cada variable contiene.
Podemos ver las primeras y ultimas lineas de cada variable usando:
head(data,n=10)
## R_DEF LOC MUN EST EST_D AGEB T_LOC CD_A ENT CON UPM D_SEM
## 1 0 1 2 10 109 0 1 1 9 40001 900471 101
## 2 0 1 2 10 109 0 1 1 9 40001 900471 101
## 3 0 1 2 10 109 0 1 1 9 40001 900471 101
## 4 0 1 2 10 109 0 1 1 9 40001 900471 101
## 5 0 1 2 10 109 0 1 1 9 40001 900471 101
## 6 0 1 2 10 109 0 1 1 9 40001 900471 101
## 7 0 1 2 10 109 0 1 1 9 40001 900471 101
## 8 0 1 2 10 109 0 1 1 9 40001 900471 101
## 9 0 1 2 10 109 0 1 1 9 40001 900471 101
## 10 0 1 2 10 109 0 1 1 9 40001 900471 101
## N_PRO_VIV V_SEL N_HOG H_MUD N_ENT PER N_REN C_RES PAR_C SEX EDA NAC_DIA
## 1 9 1 1 0 3 218 1 1 101 1 50 28
## 2 9 1 1 0 3 218 2 1 201 2 47 4
## 3 9 1 1 0 3 218 3 1 301 2 14 22
## 4 9 1 1 0 3 218 4 1 301 2 12 9
## 5 34 2 1 0 3 218 1 1 101 1 30 18
## 6 34 2 1 0 3 218 2 1 201 2 29 7
## 7 65 3 1 0 3 218 1 1 101 1 36 17
## 8 65 3 1 0 3 218 2 1 201 2 31 7
## 9 65 3 1 0 3 218 3 1 301 2 12 12
## 10 90 4 1 0 3 218 1 1 101 1 35 30
## NAC_MES NAC_ANIO L_NAC_C CS_P12 CS_P13_1 CS_P13_2 CS_P14_C CS_P15
## 1 6 1967 9 1 4 3 NA
## 2 7 1970 9 1 8 2 7713 NA
## 3 4 2003 9 1 3 2 NA
## 4 6 2005 9 1 2 6 NA
## 5 4 1987 9 1 7 4 5332 3
## 6 1 1989 9 1 7 4 5222 3
## 7 9 1981 9 1 4 3 NA
## 8 11 1986 9 1 3 3 NA
## 9 10 2005 15 1 2 6 NA
## 10 6 1982 9 1 7 4 5334 3
## CS_P16 CS_P17 N_HIJ E_CON CS_AD_MOT CS_P20_DES CS_AD_DES CS_NR_MOT
## 1 NA 2 NA 5 NA NA NA
## 2 1 2 2 5 NA NA NA
## 3 NA 1 0 6 NA NA NA
## 4 NA 1 0 6 NA NA NA
## 5 1 2 NA 5 NA NA NA
## 6 1 2 0 5 NA NA NA
## 7 NA 2 NA 1 NA NA NA
## 8 NA 2 1 1 NA NA NA
## 9 NA 1 0 6 NA NA NA
## 10 1 2 NA 1 NA NA NA
## CS_P22_DES CS_NR_ORI UR ZONA SALARIO FAC CLASE1 CLASE2 CLASE3 POS_OCU
## 1 NA 1 1 2651 482 1 1 1 1
## 2 NA 1 1 2651 482 1 1 1 1
## 3 NA 1 1 2651 482 2 4 0 0
## 4 NA 1 1 2651 482 2 4 0 0
## 5 NA 1 1 2651 482 1 1 1 1
## 6 NA 1 1 2651 482 1 1 3 1
## 7 NA 1 1 2651 482 1 1 1 3
## 8 NA 1 1 2651 482 2 4 0 0
## 9 NA 1 1 2651 482 2 4 0 0
## 10 NA 1 1 2651 482 1 1 1 1
## SEG_SOC RAMA C_OCU11C ING7C DUR9C EMPLE7C MEDICA5C BUSCAR5C RAMA_EST1
## 1 1 2 7 1 3 6 3 4 2
## 2 2 4 1 1 2 5 1 4 3
## 3 0 0 0 0 0 0 0 0 0
## 4 0 0 0 0 0 0 0 0 0
## 5 1 4 1 2 3 6 3 4 3
## 6 1 4 2 2 1 6 3 4 3
## 7 2 3 6 1 4 1 1 4 3
## 8 0 0 0 0 0 0 0 0 0
## 9 0 0 0 0 0 0 0 0 0
## 10 1 4 6 3 4 6 3 4 3
## RAMA_EST2 DUR_EST AMBITO1 AMBITO2 TUE1 TUE2 TUE3 BUSQUEDA D_ANT_LAB
## 1 3 3 2 6 1 1 0 2 0
## 2 9 2 2 4 1 1 0 2 0
## 3 0 0 0 0 0 0 0 0 0
## 4 0 0 0 0 0 0 0 0 0
## 5 8 3 2 5 1 1 0 2 0
## 6 9 1 2 5 2 3 0 2 0
## 7 5 3 2 2 3 5 0 2 0
## 8 0 0 0 0 0 0 0 0 0
## 9 0 0 0 0 0 0 0 0 0
## 10 7 3 2 5 1 1 0 2 0
## D_CEXP_EST DUR_DES SUB_O S_CLASIFI REMUNE2C PRE_ASA TIP_CON DISPO
## 1 0 0 0 0 1 1 3 0
## 2 0 0 0 0 2 2 5 0
## 3 0 0 0 0 0 0 0 0
## 4 0 0 0 0 0 0 0 0
## 5 0 0 0 0 1 1 3 0
## 6 0 0 0 0 1 1 5 0
## 7 0 0 0 0 0 0 0 0
## 8 0 0 0 0 0 0 0 0
## 9 0 0 0 0 0 0 0 0
## 10 0 0 0 0 1 1 3 0
## NODISPO C_INAC5C PNEA_EST NIV_INS EDA5C EDA7C EDA12C EDA19C HIJ5C
## 1 0 0 0 4 3 5 8 13 0
## 2 0 0 0 4 3 4 7 12 2
## 3 3 1 4 2 0 0 0 5 1
## 4 3 1 4 2 0 0 0 5 1
## 5 0 0 0 4 2 3 4 9 0
## 6 0 0 0 4 2 2 3 8 1
## 7 0 0 0 4 2 3 5 10 0
## 8 3 2 4 3 2 3 4 9 2
## 9 3 1 4 2 0 0 0 5 1
## 10 0 0 0 4 2 3 5 10 0
## DOMESTICO ANIOS_ESC HRSOCUP INGOCUP ING_X_HRS TPG_P8A TCCO CP_ANOC
## 1 3 12 24 1000 9.68992 0 0 0
## 2 3 18 10 800 18.60465 0 0 0
## 3 8 8 0 0 0.00000 0 0 0
## 4 8 6 0 0 0.00000 0 0 0
## 5 3 16 24 3000 29.06977 0 0 0
## 6 3 16 0 5000 0.00000 0 0 0
## 7 1 12 30 2000 15.50388 0 0 1
## 8 8 9 0 0 0.00000 0 0 0
## 9 8 6 0 0 0.00000 0 0 0
## 10 3 16 33 6000 42.28330 0 0 0
## IMSSISSSTE MA48ME1SM P14APOYOS SCIAN T_TRA EMP_PPAL TUE_PPAL TRANS_PPAL
## 1 1 0 0 5 1 2 2 0
## 2 4 0 0 16 1 1 2 0
## 3 0 0 0 0 1 0 0 0
## 4 0 0 0 0 1 0 0 0
## 5 1 0 0 12 1 2 2 0
## 6 1 0 0 15 1 2 2 0
## 7 4 0 0 7 1 1 1 0
## 8 0 0 0 0 1 0 0 0
## 9 0 0 0 0 1 0 0 0
## 10 1 0 0 9 1 2 2 0
## MH_FIL2 MH_COL SEC_INS
## 1 3 2 2
## 2 3 3 2
## 3 0 0 0
## 4 0 0 0
## 5 3 2 2
## 6 3 2 6
## 7 1 7 8
## 8 0 0 0
## 9 0 0 0
## 10 3 2 2
tail(data,n=10)
## R_DEF LOC MUN EST EST_D AGEB T_LOC CD_A ENT CON UPM D_SEM
## 392248 0 1 5 20 110 0 1 1 9 40246 905042 505
## 392249 0 1 32 30 141 0 2 83 11 50043 1107326 203
## 392250 0 1 124 10 282 0 3 84 20 50047 2002448 402
## 392251 0 41 97 20 186 0 3 84 14 50014 1414139 201
## 392252 0 272 10 10 49 0 4 86 4 60024 460207 503
## 392253 0 141 9 20 268 0 4 86 19 60001 1960148 101
## 392254 0 1 20 40 133 0 1 5 11 40110 1104691 203
## 392255 0 1 25 30 366 0 2 83 26 50096 2605713 401
## 392256 0 1 30 30 58 0 1 17 5 40170 502586 206
## 392257 0 1 22 20 449 0 2 83 32 50047 3201356 402
## N_PRO_VIV V_SEL N_HOG H_MUD N_ENT PER N_REN C_RES PAR_C SEX EDA
## 392248 59 5 1 0 4 218 7 2 NA NA NA
## 392249 56 20 1 0 2 218 5 2 NA NA NA
## 392250 103 17 1 0 5 218 8 2 NA NA NA
## 392251 225 13 1 0 2 218 6 2 NA NA NA
## 392252 41 10 1 0 4 218 3 2 NA NA NA
## 392253 124 20 1 0 3 218 8 2 NA NA NA
## 392254 52 4 1 0 2 218 2 2 NA NA NA
## 392255 155 2 1 0 5 218 5 2 NA NA NA
## 392256 116 5 1 0 2 218 5 2 NA NA NA
## 392257 73 10 1 0 5 218 2 2 NA NA NA
## NAC_DIA NAC_MES NAC_ANIO L_NAC_C CS_P12 CS_P13_1 CS_P13_2 CS_P14_C
## 392248 NA NA NA NA NA NA NA
## 392249 NA NA NA NA NA NA NA
## 392250 NA NA NA NA NA NA NA
## 392251 NA NA NA NA NA NA NA
## 392252 NA NA NA NA NA NA NA
## 392253 NA NA NA NA NA NA NA
## 392254 NA NA NA NA NA NA NA
## 392255 NA NA NA NA NA NA NA
## 392256 NA NA NA NA NA NA NA
## 392257 NA NA NA NA NA NA NA
## CS_P15 CS_P16 CS_P17 N_HIJ E_CON CS_AD_MOT CS_P20_DES
## 392248 NA NA NA NA NA 9
## 392249 NA NA NA NA NA 10 INDEPENDIZARSE
## 392250 NA NA NA NA NA 6
## 392251 NA NA NA NA NA 3
## 392252 NA NA NA NA NA 10 CAMBIO DOMICILIO
## 392253 NA NA NA NA NA 10 SE LO LLEVO SU MAMA
## 392254 NA NA NA NA NA 10 SU MARIDO COMPRO CASA
## 392255 NA NA NA NA NA 3
## 392256 NA NA NA NA NA 6
## 392257 NA NA NA NA NA 9
## CS_AD_DES CS_NR_MOT CS_P22_DES CS_NR_ORI UR ZONA SALARIO FAC
## 392248 NA NA NA 1 1 2651 723
## 392249 1 NA NA 2 1 2651 484
## 392250 1 NA NA 2 1 2651 522
## 392251 1 NA NA 2 1 2651 1044
## 392252 1 NA NA 2 1 2651 120
## 392253 1 NA NA 2 1 2651 350
## 392254 1 NA NA 1 1 2651 130
## 392255 1 NA NA 2 1 2651 467
## 392256 1 NA NA 1 1 2651 110
## 392257 NA NA NA 2 1 2651 206
## CLASE1 CLASE2 CLASE3 POS_OCU SEG_SOC RAMA C_OCU11C ING7C DUR9C
## 392248 0 0 0 0 0 0 0 0 0
## 392249 0 0 0 0 0 0 0 0 0
## 392250 0 0 0 0 0 0 0 0 0
## 392251 0 0 0 0 0 0 0 0 0
## 392252 0 0 0 0 0 0 0 0 0
## 392253 0 0 0 0 0 0 0 0 0
## 392254 0 0 0 0 0 0 0 0 0
## 392255 0 0 0 0 0 0 0 0 0
## 392256 0 0 0 0 0 0 0 0 0
## 392257 0 0 0 0 0 0 0 0 0
## EMPLE7C MEDICA5C BUSCAR5C RAMA_EST1 RAMA_EST2 DUR_EST AMBITO1
## 392248 0 0 0 0 0 0 0
## 392249 0 0 0 0 0 0 0
## 392250 0 0 0 0 0 0 0
## 392251 0 0 0 0 0 0 0
## 392252 0 0 0 0 0 0 0
## 392253 0 0 0 0 0 0 0
## 392254 0 0 0 0 0 0 0
## 392255 0 0 0 0 0 0 0
## 392256 0 0 0 0 0 0 0
## 392257 0 0 0 0 0 0 0
## AMBITO2 TUE1 TUE2 TUE3 BUSQUEDA D_ANT_LAB D_CEXP_EST DUR_DES SUB_O
## 392248 0 0 0 0 0 0 0 0 0
## 392249 0 0 0 0 0 0 0 0 0
## 392250 0 0 0 0 0 0 0 0 0
## 392251 0 0 0 0 0 0 0 0 0
## 392252 0 0 0 0 0 0 0 0 0
## 392253 0 0 0 0 0 0 0 0 0
## 392254 0 0 0 0 0 0 0 0 0
## 392255 0 0 0 0 0 0 0 0 0
## 392256 0 0 0 0 0 0 0 0 0
## 392257 0 0 0 0 0 0 0 0 0
## S_CLASIFI REMUNE2C PRE_ASA TIP_CON DISPO NODISPO C_INAC5C PNEA_EST
## 392248 0 0 0 0 0 0 0 0
## 392249 0 0 0 0 0 0 0 0
## 392250 0 0 0 0 0 0 0 0
## 392251 0 0 0 0 0 0 0 0
## 392252 0 0 0 0 0 0 0 0
## 392253 0 0 0 0 0 0 0 0
## 392254 0 0 0 0 0 0 0 0
## 392255 0 0 0 0 0 0 0 0
## 392256 0 0 0 0 0 0 0 0
## 392257 0 0 0 0 0 0 0 0
## NIV_INS EDA5C EDA7C EDA12C EDA19C HIJ5C DOMESTICO ANIOS_ESC HRSOCUP
## 392248 0 0 0 0 0 0 0 0 0
## 392249 0 0 0 0 0 0 0 0 0
## 392250 0 0 0 0 0 0 0 0 0
## 392251 0 0 0 0 0 0 0 0 0
## 392252 0 0 0 0 0 0 0 0 0
## 392253 0 0 0 0 0 0 0 0 0
## 392254 0 0 0 0 0 0 0 0 0
## 392255 0 0 0 0 0 0 0 0 0
## 392256 0 0 0 0 0 0 0 0 0
## 392257 0 0 0 0 0 0 0 0 0
## INGOCUP ING_X_HRS TPG_P8A TCCO CP_ANOC IMSSISSSTE MA48ME1SM
## 392248 0 0 0 0 0 0 0
## 392249 0 0 0 0 0 0 0
## 392250 0 0 0 0 0 0 0
## 392251 0 0 0 0 0 0 0
## 392252 0 0 0 0 0 0 0
## 392253 0 0 0 0 0 0 0
## 392254 0 0 0 0 0 0 0
## 392255 0 0 0 0 0 0 0
## 392256 0 0 0 0 0 0 0
## 392257 0 0 0 0 0 0 0
## P14APOYOS SCIAN T_TRA EMP_PPAL TUE_PPAL TRANS_PPAL MH_FIL2 MH_COL
## 392248 0 0 0 0 0 0 0 0
## 392249 0 0 0 0 0 0 0 0
## 392250 0 0 0 0 0 0 0 0
## 392251 0 0 0 0 0 0 0 0
## 392252 0 0 0 0 0 0 0 0
## 392253 0 0 0 0 0 0 0 0
## 392254 0 0 0 0 0 0 0 0
## 392255 0 0 0 0 0 0 0 0
## 392256 0 0 0 0 0 0 0 0
## 392257 0 0 0 0 0 0 0 0
## SEC_INS
## 392248 0
## 392249 0
## 392250 0
## 392251 0
## 392252 0
## 392253 0
## 392254 0
## 392255 0
## 392256 0
## 392257 0
Tambien se puede hacer para una varible en particular, por ejemplo, la variable “SEG_SOC”
head(data$CLASE1,n=10)
## [1] 1 1 2 2 1 1 1 2 2 1
tail(data$CLASE1,n=10)
## [1] 0 0 0 0 0 0 0 0 0 0
Para ver la información resumida
table(data$CLASE1)
##
## 0 1 2
## 82642 177248 132367
Y recuerden, para hacer una tabla proporcional:
prop.table(table(data$CLASE1))
##
## 0 1 2
## 0.2106833 0.4518670 0.3374497
Pero pueden ver que incluye todos los valores, ¿que significan 0,1 y 2? 0 - ??? 1 - PEA 2 - PNEA
Vamos a recordar de donde venia el 0.
table(data$EDA,data$CLASE1)
##
## 0 1 2
## 0 4759 0 0
## 1 5545 0 0
## 2 5816 0 0
## 3 6174 0 0
## 4 6319 0 0
## 5 6540 0 0
## 6 6617 0 0
## 7 6701 0 0
## 8 6701 0 0
## 9 6760 0 0
## 10 6868 0 0
## 11 6639 0 0
## 12 0 261 6524
## 13 1 398 6394
## 14 1 601 6218
## 15 0 1076 6161
## 16 1 1401 5507
## 17 1 2062 5235
## 18 0 2819 4542
## 19 1 3232 3575
## 20 2 3455 3199
## 21 2 3488 2866
## 22 0 3884 2655
## 23 3 4389 2303
## 24 1 4582 1900
## 25 2 4507 1708
## 26 2 4606 1571
## 27 1 4523 1476
## 28 2 4524 1344
## 29 4 4134 1302
## 30 1 4602 1307
## 31 1 4048 1298
## 32 2 4042 1231
## 33 2 4244 1206
## 34 1 3976 1096
## 35 0 4017 1207
## 36 3 4099 1176
## 37 1 3986 1162
## 38 0 4245 1204
## 39 2 3866 1152
## 40 1 4466 1280
## 41 2 4134 1183
## 42 0 4069 1152
## 43 0 4298 1244
## 44 0 3888 1153
## 45 1 3958 1260
## 46 1 3789 1201
## 47 1 3547 1116
## 48 1 3663 1173
## 49 1 3407 1153
## 50 3 3702 1347
## 51 2 3309 1230
## 52 0 3027 1121
## 53 1 3090 1237
## 54 1 2838 1283
## 55 2 2655 1436
## 56 0 2442 1346
## 57 4 2294 1416
## 58 0 2135 1370
## 59 0 1947 1335
## 60 0 1851 1700
## 61 0 1501 1575
## 62 1 1354 1514
## 63 0 1244 1545
## 64 0 1141 1455
## 65 2 1124 1544
## 66 1 946 1459
## 67 0 781 1362
## 68 0 750 1346
## 69 0 623 1172
## 70 1 586 1318
## 71 0 470 1184
## 72 0 425 1018
## 73 0 406 1153
## 74 0 338 1000
## 75 0 308 1037
## 76 0 284 924
## 77 0 222 830
## 78 0 185 826
## 79 0 176 735
## 80 0 129 750
## 81 0 104 685
## 82 0 96 591
## 83 0 66 581
## 84 0 61 541
## 85 0 53 495
## 86 0 35 424
## 87 0 44 385
## 88 0 21 342
## 89 0 22 240
## 90 0 4 216
## 91 0 7 140
## 92 0 2 129
## 93 0 6 106
## 94 0 5 103
## 95 0 1 70
## 96 0 1 73
## 97 0 5 148
## 98 0 146 96
## 99 35 0 0
Primero, tenemos muchas personas menores de 12 años que no tienen informacion sobre participacion, vamos a eliminar a estos menores
La forma mas simple, es hacer un subset de la base original. La instruccion debe señalar cuales renglones se van a usar, seguido de una coma “,” y después cuáles columnas. En el ejemplo estamos pidiendo que se mantengan las lineas para las cuales la variable EDA esmayor a 12 y menor a 98 y todas las columnas.
data2<-data[which(data$EDA>12 & data$EDA<98),]
Se podria asignar de nuevo al objeto “data” pero si algo sale mal perderemos la informacion, por eso es mejor asignarlo a data2.
dim(data2)
## [1] 302651 104
El problema es que la variable es de tipo cadena str, por lo que hay que convertirla en numerica antes de usarla como tal
data$EDA<-as.numeric(data$EDA)
Ahora si podemos hacer la submuestra
data2<-data[which(data$EDA>12 & data$EDA<98),]
Ahora, como se ve la variable?
table(data2$CLASE1)
##
## 0 1 2
## 63 176841 125747
Aun necesitamos eliminar esos 63 casos…
data2$CLASE1<-as.numeric(data2$CLASE1)
data2<-data2[which(data2$CLASE1>0),]
table(data2$CLASE1)
##
## 1 2
## 176841 125747
prop.table(table(data2$CLASE1))
##
## 1 2
## 0.5844283 0.4155717
y usando otra variable
prop.table(table(data2$SEX,data2$CLASE1))
##
## 1 2
## 1 0.3524330 0.1247307
## 2 0.2319953 0.2908410
prop.table(table(data2$SEX,data2$CLASE1),1)
##
## 1 2
## 1 0.7385998 0.2614002
## 2 0.4437246 0.5562754
prop.table(table(data2$SEX,data2$CLASE1),2)
##
## 1 2
## 1 0.6030389 0.3001423
## 2 0.3969611 0.6998577
Podemos empezar a asignar etiquetas a variables para no perdernos Por ejemplo, sabemos que la variable CLASE1 es sobre participacion en la actividad economica y la variable SEX es el sexo.
data2$CLASE1<-factor(data2$CLASE1,
levels = c(1,2),
labels = c("PEA","PNEA"))
data2$SEX<-factor(data2$SEX,
levels = c(1,2),
labels = c("Hombre","Mujer"))
#y ahora
prop.table(table(data2$SEX,data2$CLASE1))
##
## PEA PNEA
## Hombre 0.3524330 0.1247307
## Mujer 0.2319953 0.2908410
prop.table(table(data2$SEX,data2$CLASE1),1)
##
## PEA PNEA
## Hombre 0.7385998 0.2614002
## Mujer 0.4437246 0.5562754
prop.table(table(data2$SEX,data2$CLASE1),2)
##
## PEA PNEA
## Hombre 0.6030389 0.3001423
## Mujer 0.3969611 0.6998577
Ahora podemos empezar a hacernospreguntas: ¿Son distintos los porcentajes de hombres y mujere en la PEA? Para responde reso necesitamos una prueba de Chi-cuadrado
table<-table(data2$SEX,data2$CLASE1)
prop.table(table,1)
##
## PEA PNEA
## Hombre 0.7385998 0.2614002
## Mujer 0.4437246 0.5562754
chisq.test(table)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table
## X-squared = 27025, df = 1, p-value < 2.2e-16
Ahora veamos qué otras cosas básicas podemos hacer
Histogramas:
hist(data2$EDA)
Vamos a pimpearlo:
hist(data2$EDA,main="Distribución de la población
por edad",
xlab="Edad",ylab="Frecuencia")
¿y si lo queremos en proporciones?
hist(data2$EDA,main="Distribución de la población
por edad",
xlab="Edad",ylab="Frecuencia",prob=T)
hist(data2$EDA,main="Distribución de la población
por edad",
xlab="Edad",ylab="Frecuencia", prob =T,
col="green",border="blue",breaks=50)
hist(data2$EDA,main="Distribución de la población
por edad",
xlab="Edad",ylab="Frecuencia", prob =T,
col="green",border="blue",breaks=50,
las=2)
hist(data2$EDA,main="Distribución de la población
por edad",
xlab="Edad",ylab="Frecuencia", prob =T,
col="green",border="blue",breaks=20,
las=2)
hist(data2$EDA,main="Distribución de la población
por edad",
xlab="Edad",ylab="Frecuencia", prob =T,
col="green",border="blue",breaks=20,
las=2)
lines(density(data2$EDA))
Podemos preguntarnos otras cosas, por ejemplo, ¿Es diferente la edad de hombres y mujeres?
boxplot(EDA~SEX,data=data2)
o aun mejor! Es distinta la edad segun participacion laboral
boxplot(EDA~CLASE1,data=data2, main="Edad según PEA",
xlab="PEA/PNEA",ylab="Edad")
boxplot(EDA~CLASE1*SEX,data=data2, main="Edad según PEA",ylab="Edad",notch=T,
col=c("gold","green"),las=2)