Descripción
La base de datos “trabaj_dep.rda” en formato R, contiene información de 23,837 trabajadores dependientes entrevistados por el Instituto Nacional de Estadística de Informática, para la Encuesta Nacional de Hogares 2017.
Variables
sexo: sexo del entrevistado (Hombre; Mujer)
edad: edad del encuestado
nived: grado de instrucción
indig: condición de indígena (no indígena; indígena)
ing_m: ingreso mensual en soles
emp_informal: (formal; informal)
Exploración de base
Para empezar, podemos pedir los nombres de las variables con el comando “names” y el encabezado con “head”.
names(trabaj_dep)
## [1] "CONGLOME" "VIVIENDA" "HOGAR" "CODPERSO" "region"
## [6] "urbano" "sexo" "edad" "nivedu" "etnic"
## [11] "indig" "meses_w" "horas" "ing_mes" "emp_informal"
head(trabaj_dep)
## CONGLOME VIVIENDA HOGAR CODPERSO region urbano sexo edad nivedu etnic
## 4 005012 025 11 02 Sierra Urbano Mujer 46 8 M/B/O/Ns
## 5 005012 025 11 03 Sierra Urbano Hombre 19 6 M/B/O/Ns
## 8 005012 039 11 01 Sierra Urbano Hombre 31 11 M/B/O/Ns
## 9 005012 039 11 02 Sierra Urbano Mujer 29 8 M/B/O/Ns
## 11 005015 016 11 01 Sierra Urbano Mujer 54 10 M/B/O/Ns
## 12 005015 028 11 01 Sierra Urbano Hombre 51 10 M/B/O/Ns
## indig meses_w horas ing_mes emp_informal
## 4 No indigena 1 32 150 Informal
## 5 No indigena 1 42 900 Informal
## 8 No indigena 6 40 1500 Formal
## 9 No indigena 5 6 2000 Informal
## 11 No indigena 315 37 1700 Formal
## 12 No indigena 295 0 1700 Formal
Tablas simples
Ahora, podemos pedir una tabla de frecuencia simple de la variable empleo informal (“emp_inf”) con el comando “table”:
table(trabaj_dep$emp_informal)
##
## Informal Formal
## 15118 8719
Y con la flecha “<-” podemos grabar nuestra tabla:
tabla1 <- table(trabaj_dep$emp_informal)
Ahora, podemos pedir una tabla de frecuencia relativa, pero la multiplicamos por 100 para generar los porcentajes relativos:
tabla2 <- prop.table(tabla1)*100
Ahora, podemos ver nuestra tabla simplemente llamándola por su nombre “tabla2”:
tabla2
##
## Informal Formal
## 63.42241 36.57759
Gráfico de barras
Podemos pedir un gráfico de barras de la tabla de frecuencia simple “tabla1”.
barplot(tabla1)
Gráfico de barras de la tabla de porcentaje relativo
También podemos pedir una gráfico de barras de la tabla de porcentaje relativo; aprovechamos en ponerle título al gráfico con el argumento “main”:
barplot(tabla2, col = "skyblue", main = "Trabajo dependiente según condición laboral \n")
Gráfico pie de la tabla de porcentaje relativo
También podemos generar la misma información en un gráfico de pie:
pie(tabla2, labels = names(tabla2), col = 1:2)
legend("topright", legend = names(tabla2), fill = 1:2)
Tarea
Generar un barplot con porcentajes relativos para las variables “Ing_men” e “indig”
Coloque un título adecuado a su gráfico
Gráfico de cajas
Para el gráfico de caja, vamos a utilizar la variable cuantitativa de ingreso mensual “ing_mes” y una cualitativa de condición de empleo “emp_inf”:
Primero, podemos pedir los estadísticos descriptivos con la función “summary” para toda la muestra:
summary(trabaj_dep$ing_mes)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10 570 950 1019 1400 2500
Luego, podemos pedir los estadísticos descriptivos para cada uno de los grupos con la función “tapply”:
tapply(trabaj_dep$ing_mes, trabaj_dep$emp_informal, summary)
## $Informal
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10.0 400.0 720.0 757.6 1000.0 2500.0
##
## $Formal
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 160 1057 1450 1473 1800 2500
boxplot(trabaj_dep$ing_mes ~ trabaj_dep$emp_informal, main = "Salario del trabajador según condición de empleo \n")
Le colocamos los títulos al gráfico de cajas con el argumento “main”:
boxplot(trabaj_dep$ing_mes ~ trabaj_dep$emp_informal, main = "Salario del trabajador según condición de empleo \n", xlab = "Salario mensual (soles)", ylab = "Condición de empleo")
___
Tarea
Generar un boxplot con las variables “ing_m” e “indig”
Coloque un título adecuado a su gráfico
Categoríazación de variable cuantitativa y gráfico
Para categorizar la variable cuantitativa “edad”, inspeccionamos sus valores con el comando “table”:
table(trabaj_dep$edad)
##
## 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
## 164 222 280 432 522 546 635 655 738 717 724 651 630 603 620 568 602 546 511 509
## 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
## 568 591 487 535 540 522 546 516 510 471 439 459 460 455 456 417 418 415 361 339
## 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73
## 339 308 293 282 279 249 249 180 186 176 159 133 117 95 68 73 42 39 39 23
## 74 75 76 77 78 79 80 81 82 83 84 85 87 92 94
## 21 18 22 15 17 6 8 6 4 3 1 2 2 1 2
Para realizar la categorización, realizamos un primer corte considerando la regla vista en clase. Como el máximo valor es 94, tenemos que el valor de k es igual a 7.
Luego, tenemos que el ancho del intervalos sería 11.48, así que lo redondeamos a 12.
(max(trabaj_dep$edad) - min(trabaj_dep$edad))/7
## [1] 11.42857
Generamos grupos con ancho de 12:
trabaj_dep$edad.grupo <- cut(trabaj_dep$edad, breaks = 7)
table(trabaj_dep$edad.grupo)
##
## (13.9,25.4] (25.4,36.9] (36.9,48.3] (48.3,59.7] (59.7,71.1] (71.1,82.6]
## 6286 6235 5909 3700 1517 179
## (82.6,94.1]
## 11
Por ello, vamos a realizar una categorización más arbitraria:
trabaj_dep$edad.grupo <- cut(trabaj_dep$edad, breaks = c(13, 30, 50, 94), include.lowest = T)
table(trabaj_dep$edad.grupo )
##
## [13,30] (30,50] (50,94]
## 9309 9956 4572
Ahora, podemos pedir un gráfico de cajas considerando nuestra variable creada:
boxplot(trabaj_dep$ing_mes ~ trabaj_dep$edad.grupo, main = "Salario del trabajador según grupo de edad \n")
Tablas cruzadas y gráficos
Tabla cruzada para 2 variables
tabla3 <- table(trabaj_dep$emp_informal, trabaj_dep$indig )
Tabla cruzada en porcentaje relativo
tabla4 <- prop.table(tabla3,2)*100
round(tabla4,2)
##
## Indigena No indigena
## Informal 71.22 61.00
## Formal 28.78 39.00
Gráfico de barras para la tabla cruzada
colores = c("white", "skyblue")
barplot(tabla4, col = colores)
legend("topleft", legend = names(tabla2), fill = colores)