El objetivo del documento es realizar un análisis descriptivo sobre la variable Puntaje Total de la Base de Datos de Variables Adicionales Hogar V3 entregado por la Secretaría de Planeación Distrital sobre la Encuesta Multipropósito del 2017.
install.packages("readr")
## Installing package into '/home/rstudio-user/R/x86_64-pc-linux-gnu-library/3.6'
## (as 'lib' is unspecified)
library(readr)
datos <- read_delim("variables_adicionales_hogar_v3.txt", delim =";")
## Parsed with column specification:
## cols(
## .default = col_double()
## )
## See spec(...) for full column specifications.
summary(datos$TOTAL_PUNTAJE)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 33.41 88.95 94.56 92.45 98.82 100.00
De acuerdo al valor del promedio y la mediana, además de sus valores límites (Máximo y Mínimo), se puede evidenciar de primera mano que la distribución está más hacia la derecha.
Para sustentar el análisis mencionado, podemos
Para mostrar un poco más acerca de los datos de Puntaje Total podemos realizar un boxplot:
boxplot(datos$TOTAL_PUNTAJE)
Esto nos indica que la gran mayoría de los datos están más cerca al valor máximo y existen muchos outliers por debajo del cuartil 25.
boxplot(datos$TOTAL_PUNTAJE~datos$ESTRATO_VIV
, main = 'Distribución de Puntaje por Estrato de Vivienda'
, xlab = 'Estrato de Vivienda'
, ylab = 'Total Puntaje')
Para tener un poco más de visión sobre la información, podemos ver la distribución de los deciles del campo en específico:
quantile(datos$TOTAL_PUNTAJE, seq(0,1,0.1))
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 33.41 82.03 87.16 90.09 92.98 94.56 95.75 98.25 99.71 100.00 100.00
Como medidas de desviación, podemos detectar:
sd(datos$TOTAL_PUNTAJE)
## [1] 7.736902
mean(abs(datos$TOTAL_PUNTAJE - mean(datos$TOTAL_PUNTAJE)))
## [1] 5.969834
mad(datos$TOTAL_PUNTAJE, constant=1)/median(datos$TOTAL_PUNTAJE)*100
## [1] 5.446277
Con estas variables podemos identificar que la desviación está muy alta ya que, el promedio está sobre 93 y su desviación de 7.7 lo que, al sumar los 2 valores el resultado está por encima del valor máximo.