Estadistica Descriptiva

9/11/2020

Descripción

La base de datos “trabaj_dep.rda” en formato R, contiene información de 23,837 trabajadores dependientes entrevistados por el Instituto Nacional de Estadística de Informática, para la Encuesta Nacional de Hogares 2017.

Variables

Exploración de base

Para empezar, podemos pedir los nombres de las variables con el comando “names” y el encabezado con “head”.


names(trabaj_dep)
##  [1] "CONGLOME"     "VIVIENDA"     "HOGAR"        "CODPERSO"     "region"      
##  [6] "urbano"       "sexo"         "edad"         "nivedu"       "etnic"       
## [11] "indig"        "meses_w"      "horas"        "ing_mes"      "emp_informal"

head(trabaj_dep)
##    CONGLOME VIVIENDA HOGAR CODPERSO region urbano   sexo edad nivedu    etnic
## 4    005012      025    11       02 Sierra Urbano  Mujer   46      8 M/B/O/Ns
## 5    005012      025    11       03 Sierra Urbano Hombre   19      6 M/B/O/Ns
## 8    005012      039    11       01 Sierra Urbano Hombre   31     11 M/B/O/Ns
## 9    005012      039    11       02 Sierra Urbano  Mujer   29      8 M/B/O/Ns
## 11   005015      016    11       01 Sierra Urbano  Mujer   54     10 M/B/O/Ns
## 12   005015      028    11       01 Sierra Urbano Hombre   51     10 M/B/O/Ns
##          indig meses_w horas ing_mes emp_informal
## 4  No indigena       1    32     150     Informal
## 5  No indigena       1    42     900     Informal
## 8  No indigena       6    40    1500       Formal
## 9  No indigena       5     6    2000     Informal
## 11 No indigena     315    37    1700       Formal
## 12 No indigena     295     0    1700       Formal

Tablas simples

Ahora, podemos pedir una tabla de frecuencia simple de la variable empleo informal (“emp_inf”) con el comando “table”:


table(trabaj_dep$emp_informal)
## 
## Informal   Formal 
##    15118     8719

Y con la flecha “<-” podemos grabar nuestra tabla:


tabla1 <- table(trabaj_dep$emp_informal)

Ahora, podemos pedir una tabla de frecuencia relativa, pero la multiplicamos por 100 para generar los porcentajes relativos:


tabla2 <- prop.table(tabla1)*100

Ahora, podemos ver nuestra tabla simplemente llamándola por su nombre “tabla2”:


tabla2
## 
## Informal   Formal 
## 63.42241 36.57759

Gráfico de barras

Podemos pedir un gráfico de barras de la tabla de frecuencia simple “tabla1”.


barplot(tabla1)

Gráfico de barras de la tabla de porcentaje relativo

También podemos pedir una gráfico de barras de la tabla de porcentaje relativo; aprovechamos en ponerle título al gráfico con el argumento “main”:


barplot(tabla2, col = "skyblue", main = "Trabajo dependiente según condición laboral \n")

Gráfico pie de la tabla de porcentaje relativo

También podemos generar la misma información en un gráfico de pie:


pie(tabla2, labels = names(tabla2), col = 1:2)
legend("topright", legend = names(tabla2), fill = 1:2)

Tarea

Gráfico de cajas

Para el gráfico de caja, vamos a utilizar la variable cuantitativa de ingreso mensual “ing_mes” y una cualitativa de condición de empleo “emp_inf”:

Primero, podemos pedir los estadísticos descriptivos con la función “summary” para toda la muestra:

summary(trabaj_dep$ing_mes)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      10     570     950    1019    1400    2500

Luego, podemos pedir los estadísticos descriptivos para cada uno de los grupos con la función “tapply”:

tapply(trabaj_dep$ing_mes, trabaj_dep$emp_informal, summary)
## $Informal
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    10.0   400.0   720.0   757.6  1000.0  2500.0 
## 
## $Formal
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     160    1057    1450    1473    1800    2500

boxplot(trabaj_dep$ing_mes ~ trabaj_dep$emp_informal, main = "Salario del trabajador según condición de empleo \n")


Le colocamos los títulos al gráfico de cajas con el argumento “main”:


boxplot(trabaj_dep$ing_mes ~ trabaj_dep$emp_informal, main = "Salario del trabajador según condición de empleo \n", xlab = "Salario mensual (soles)", ylab = "Condición de empleo")

___

Tarea

Categoríazación de variable cuantitativa y gráfico

Para categorizar la variable cuantitativa “edad”, inspeccionamos sus valores con el comando “table”:


table(trabaj_dep$edad)
## 
##  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33 
## 164 222 280 432 522 546 635 655 738 717 724 651 630 603 620 568 602 546 511 509 
##  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53 
## 568 591 487 535 540 522 546 516 510 471 439 459 460 455 456 417 418 415 361 339 
##  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73 
## 339 308 293 282 279 249 249 180 186 176 159 133 117  95  68  73  42  39  39  23 
##  74  75  76  77  78  79  80  81  82  83  84  85  87  92  94 
##  21  18  22  15  17   6   8   6   4   3   1   2   2   1   2

Para realizar la categorización, realizamos un primer corte considerando la regla vista en clase. Como el máximo valor es 94, tenemos que el valor de k es igual a 7.

Luego, tenemos que el ancho del intervalos sería 11.48, así que lo redondeamos a 12.


(max(trabaj_dep$edad) - min(trabaj_dep$edad))/7
## [1] 11.42857

Generamos grupos con ancho de 12:


trabaj_dep$edad.grupo <- cut(trabaj_dep$edad, breaks = 7)

table(trabaj_dep$edad.grupo)
## 
## (13.9,25.4] (25.4,36.9] (36.9,48.3] (48.3,59.7] (59.7,71.1] (71.1,82.6] 
##        6286        6235        5909        3700        1517         179 
## (82.6,94.1] 
##          11

Por ello, vamos a realizar una categorización más arbitraria:


trabaj_dep$edad.grupo <- cut(trabaj_dep$edad, breaks = c(13, 30, 50, 94), include.lowest = T)

table(trabaj_dep$edad.grupo )
## 
## [13,30] (30,50] (50,94] 
##    9309    9956    4572

Ahora, podemos pedir un gráfico de cajas considerando nuestra variable creada:


boxplot(trabaj_dep$ing_mes ~ trabaj_dep$edad.grupo, main = "Salario del trabajador según grupo de edad \n")

Tablas cruzadas y gráficos

Tabla cruzada para 2 variables


tabla3 <- table(trabaj_dep$emp_informal, trabaj_dep$indig )

Tabla cruzada en porcentaje relativo


tabla4 <- prop.table(tabla3,2)*100

round(tabla4,2)
##           
##            Indigena No indigena
##   Informal    71.22       61.00
##   Formal      28.78       39.00

Gráfico de barras para la tabla cruzada


colores = c("white", "skyblue")

barplot(tabla4, col = colores)

legend("topleft", legend = names(tabla2), fill = colores)