rm(list=ls()) #Limpiar entorno de trabajo
setwd("/home/daniel/Dropbox/U CENTRAL/02 2020/01 Primer semestre 2020/Analisis de datos cuantitativos I/Clases/08") #Escribir el directorio en que va a trabajar
#Si su pc no tiene instalado los paquetes, primero ejecutar:
#install.packages("foreign")
library(foreign) #Cargar paquete de importación y exportación de datos
#Si su pc no tiene instalado los paquetes, primero ejecutar:
#install.packages("modeest") 
library(modeest) #Cargar paquete para calcular la moda
#Si su pc no tiene instalado los paquetes, primero ejecutar:
#install.packages("moments")
library(moments) #Cargar paquete para calcular asimetria y kurtosis
#Si su pc no tiene instalado los paquetes, primero ejecutar:
#install.packages("fBasics")
library(fBasics) #Cargar paquete para calcular rápidamente estadísticos descriptivos
#Si su pc no tiene instalado los paquetes, primero ejecutar:
#install.packages("Hmisc")
library(Hmisc) #Cargar paquete de tablas descriptivas con formato LaTex

Abrir base de datos Casen 2017.

casen2017 <- read.spss("/home/daniel/Dropbox/U CENTRAL/02 2020/01 Primer semestre 2020/Analisis de datos cuantitativos I/Bases de datos/casen_2017/Casen 2017.sav", to.data.frame = TRUE) #Ajustar la ruta a tu pc

Vamos a ilustrar la descripción numérica de variables continuas, analizando el ingreso total percápita de los hogares (ypch).

Medidas de posición

Media

mean(casen2017$ypch)
## [1] 328162.3

La media de ingreso total per cápita del hogar es $328,162.3.

Mediana

median(casen2017$ypch)
## [1] 218537

La mediana del ingreso total per cápita del hogar en Chile es $218,537.

¿Qué conclusión pueden extraer de que la media sea mayor que la mediana?

Moda

mlv(casen2017$ypch, method = "mfv")
## [1] 2e+05

La moda del ingreso total per cápita del hogar en Chile es $200,000.

Cuartiles

quantile(casen2017$ypch, prob=c(0,0.25,0.5,0.75,1))
##         0%        25%        50%        75%       100% 
##        0.0   140907.5   218537.0   355000.0 48898332.0

En Chile, el \(Q_1\) del ingreso per cápita del hogar es $140,907.5, el \(Q_2\) es $218,537 y el \(Q_3\) es $355,000.

Percentiles

Todos los percentiles.

quantile(casen2017$ypch, prob=seq(0, 1, length = 101))
##         0%         1%         2%         3%         4%         5%         6% 
##        0.0    34459.0    50336.0    60000.0    66667.0    73250.0    78380.0 
##         7%         8%         9%        10%        11%        12%        13% 
##    83113.0    87500.0    91592.0    95702.6    99764.0   101916.0   105000.0 
##        14%        15%        16%        17%        18%        19%        20% 
##   108096.0   111217.5   114596.0   117880.0   120772.0   123889.0   126526.0 
##        21%        22%        23%        24%        25%        26%        27% 
##   129820.0   132580.0   135331.0   138074.1   140907.5   143815.0   146667.0 
##        28%        29%        30%        31%        32%        33%        34% 
##   149996.0   151951.1   154929.0   157912.0   160964.7   163826.0   166667.0 
##        35%        36%        37%        38%        39%        40%        41% 
##   170000.0   173295.0   175703.0   178770.0   181645.0   184646.0   187631.4 
##        42%        43%        44%        45%        46%        47%        48% 
##   190522.8   194167.0   197778.0   200456.0   203749.0   207394.0   211000.0 
##        49%        50%        51%        52%        53%        54%        55% 
##   214750.0   218537.0   222334.0   226147.0   230000.0   233766.1   237778.0 
##        56%        57%        58%        59%        60%        61%        62% 
##   242274.6   246821.5   250417.0   255000.0   259900.0   264500.0   269407.0 
##        63%        64%        65%        66%        67%        68%        69% 
##   275000.0   279916.3   285386.0   291705.2   298198.0   303000.0   309162.0 
##        70%        71%        72%        73%        74%        75%        76% 
##   316526.0   323746.9   330546.0   338471.0   348033.0   355000.0   364330.4 
##        77%        78%        79%        80%        81%        82%        83% 
##   374036.0   383333.0   394289.0   404167.0   417500.0   431649.4   447500.0 
##        84%        85%        86%        87%        88%        89%        90% 
##   463058.0   481996.2   500842.0   525000.0   550000.0   580000.0   614167.0 
##        91%        92%        93%        94%        95%        96%        97% 
##   653183.0   700000.0   760000.0   833333.0   929167.0  1052203.0  1217470.9 
##        98%        99%       100% 
##  1497077.0  2000181.0 48898332.0

Sólo los deciles (percentiles múltiplos de 10).

quantile(casen2017$ypch, prob=seq(0, 1, length = 11))
##         0%        10%        20%        30%        40%        50%        60% 
##        0.0    95702.6   126526.0   154929.0   184646.0   218537.0   259900.0 
##        70%        80%        90%       100% 
##   316526.0   404167.0   614167.0 48898332.0

Medidas de dispersión

Recorrido

range(casen2017$ypch)
## [1]        0 48898332

El recorrido del ingreso total per cápita del hogar en Chile es de 48,898,332.

Desviación típica

sd(casen2017$ypch)
## [1] 479539.3

La desviación típica del ingreso total per cápita del hogar en Chile es de $479,539.3

Varianza

var(casen2017$ypch)
## [1] 229957933417

La varianza del ingreso total per cápita del hogar en Chile es de $229,957,933,417

Coeficiente de variación

cv <- sd(casen2017$ypch)/(abs(mean(casen2017$ypch)))
round(cv,2) # redondear a dos dígitos
## [1] 1.46

El coeficiente de variación del ingreso total per cápita del hogar en Chile es de 1.46.

Entonces, ¿la dispersión de los ingresos en Chile es alta o baja?

Medidas de forma

Asimetría

skewness(casen2017$ypch)
## [1] 20.87707
## attr(,"method")
## [1] "moment"

El coeficiente de asimetría del ingreso total per cápita del hogar en Chile es 20.88. Por lo tanto, la variable tiene una marcada asimetría positiva.

¿Qué nos dice esto?

Kurtosis

kurtosis(casen2017$ypch)
## [1] 1178.728
## attr(,"method")
## [1] "excess"

El coeficiente de kurtosis del ingreso total per cápita del hogar en Chile es 1181.74. Por lo tanto, la variable tiene una marcada forma leptocúrtica.

Reporte de descriptivos básicos

Formato básico.

Descriptivos <- basicStats(casen2017$ypch)
Descriptivos
##             X..casen2017.ypch
## nobs             2.164390e+05
## NAs              0.000000e+00
## Minimum          0.000000e+00
## Maximum          4.889833e+07
## 1. Quartile      1.409075e+05
## 3. Quartile      3.550000e+05
## Mean             3.281623e+05
## Median           2.185370e+05
## Sum              7.102712e+10
## SE Mean          1.030757e+03
## LCL Mean         3.261420e+05
## UCL Mean         3.301825e+05
## Variance         2.299579e+11
## Stdev            4.795393e+05
## Skewness         2.087707e+01
## Kurtosis         1.178728e+03
#un poco de formato
Descriptivos <- as.data.frame(Descriptivos[-c(9:12),])
names(Descriptivos)<- "Ingreso per cápita del hogar"
rownames(Descriptivos)<- c("N", "Casos perdidos", "Mínimo", "Máximo", "Q1", "Q3", "Media", "Mediana", "Varianza", "Desviación Estándar", "Asimetría", "Kurtosis")
Descriptivos
##                     Ingreso per cápita del hogar
## N                                   2.164390e+05
## Casos perdidos                      0.000000e+00
## Mínimo                              0.000000e+00
## Máximo                              4.889833e+07
## Q1                                  1.409075e+05
## Q3                                  3.550000e+05
## Media                               3.281623e+05
## Mediana                             2.185370e+05
## Varianza                            2.299579e+11
## Desviación Estándar                 4.795393e+05
## Asimetría                           2.087707e+01
## Kurtosis                            1.178728e+03

Formato avanzado con LaTeX.

latex(Descriptivos, digits=3)