Nombres: Jairo Iván Ordóñez y Cindy Naranjo

Fecha: 2020-02-20

Introducción

El objetivo del documento es realizar un análisis descriptivo sobre la variable Puntaje Total de la Base de Datos de Variables Adicionales Hogar V3 entregado por la Secretaría de Planeación Distrital sobre la Encuesta Multipropósito del 2017.

Instalación del Paquete y cargue de Datos

install.packages("readr")
## Installing package into '/home/rstudio-user/R/x86_64-pc-linux-gnu-library/3.6'
## (as 'lib' is unspecified)
library(readr)
datos <- read_delim("variables_adicionales_hogar_v3.txt", delim =";")
## Parsed with column specification:
## cols(
##   .default = col_double()
## )
## See spec(...) for full column specifications.

Resumen de la variable TOTAL_PUNTAJE

summary(datos$TOTAL_PUNTAJE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   33.41   88.95   94.56   92.45   98.82  100.00

De acuerdo al valor del promedio y la mediana, además de sus valores límites (Máximo y Mínimo), se puede evidenciar de primera mano que la distribución está más hacia la derecha.

Distribución gráfica de TOTAL_PUNTAJE

Para sustentar el análisis mencionado, podemos

Para mostrar un poco más acerca de los datos de Puntaje Total podemos realizar un boxplot:

boxplot(datos$TOTAL_PUNTAJE)

Esto nos indica que la gran mayoría de los datos están más cerca al valor máximo y existen muchos outliers por debajo del cuartil 25.

boxplot(datos$TOTAL_PUNTAJE~datos$ESTRATO_VIV
        , main = 'Distribución de Puntaje por Estrato de Vivienda'
        , xlab = 'Estrato de Vivienda'
        , ylab = 'Total Puntaje')

Para tener un poco más de visión sobre la información, podemos ver la distribución de los deciles del campo en específico:

quantile(datos$TOTAL_PUNTAJE, seq(0,1,0.1))
##     0%    10%    20%    30%    40%    50%    60%    70%    80%    90%   100% 
##  33.41  82.03  87.16  90.09  92.98  94.56  95.75  98.25  99.71 100.00 100.00

Medidas de Desviación:

Como medidas de desviación, podemos detectar:

sd(datos$TOTAL_PUNTAJE)
## [1] 7.736902
mean(abs(datos$TOTAL_PUNTAJE - mean(datos$TOTAL_PUNTAJE)))
## [1] 5.969834
mad(datos$TOTAL_PUNTAJE, constant=1)/median(datos$TOTAL_PUNTAJE)*100
## [1] 5.446277

Con estas variables podemos identificar que la desviación está muy alta ya que, el promedio está sobre 93 y su desviación de 7.7 lo que, al sumar los 2 valores el resultado está por encima del valor máximo.

Conclusiones

  1. El promedio del puntaje total de las viviendas está en 92.45 y el valor máximo es de 100 lo que nos da a entender que la mayoría de las viviendas están cerca del valor máximo.
  2. Al tomar la medida de tendencia central mediana el valor está en 94.56 lo que significa que existen valores muy alejados a la izquierda y por tal razón el promedio tiende a disminuir. Al organizar la información de menor a mayor e identificar sus valores medios, nos permite sustentar que el puntaje total está más cercano a su valor máximo.
  3. A mayor estrato, los puntajes de vivienda están más cercanos al 100. Los outliers son menores y el promedio tiende a aumentar.