Primer parcial Introducción a la Estadística con R

Base de datos “COLOMBIA - Medición de Pobreza Monetaria y Desigualdad 2020”

A continuación se hara un análisis de la base de datos COLOMBIA - Medición de Pobreza Monetaria y Desigualdad 2020, ubicada en la pagina web del DANE http://microdatos.dane.gov.co/index.php/catalog/708/get_microdata.

Se descargaron y limpiaron los respectivos datos, y se almacenaron en el archivo “HogaresIndigente.csv”. Para cargar estos datos a la variable “tabla”, hacemos uso de la función read.csv2( ).

tabla=read.csv2("HogaresIndigente.csv",header = T)
attach(tabla)

Es importante aclarar el significado de cada variable:

directorio: Identificación de la ciudad
dominio: Nombre de la ciudad
p5000: Cantidad de habitaciones del hogar, incluyendo sala-comedor.
p5090: Tipo de residencia.

Propia, totalmente pagada.
Propia, la están pagando.
En arriendo o subarriendo.
En usufructo.
Posesión sin título
Otra

nper: Número de personas en la vivienda
npersug: Número de personas en la unidad de gasto
ingtotug: Ingreso total de la unidad de gasto que resulta de sumar los ingresos de todos los integrantes de la unidad de gasto en los siguientes componentes: impa, isa, ie, imdi e iof (intereses, pensiones, ayudas, cesantias, arriendos y otros)
ingtotugarr: Ingreso total de la unidad de gasto con arriendo imputado a propietarios y usufructuarios.
ingpcug: Ingreso percápita de la unidad de gasto con imputación de arriendo a propietarios y usufructuarios
pobre: Si la persona es pobre = \(1\) o no es pobre = \(0\)

Aplicación de algunas fuciones a la base de datos

Asignamos a la variable “tabla1” las primeras \(6\) columnas de “tabla”, y con la función head( ) pedimos que se muestren los primeros \(n= 10\) registros de nuestra base de datos:

tabla1= tabla[,c(1:6)]
head(tabla1,10)

##    directorio     dominio p5000 p5090 nper npersug
## 1          43      BOGOTA     1     3    1       1
## 2          43      BOGOTA     3     1    2       2
## 3          43      BOGOTA     1     3    1       1
## 4          47 BUCARAMANGA     4     1    2       2
## 5          48    MONTERIA     3     1    3       3
## 6          64    MEDELLIN     4     3    1       1
## 7          72      CUCUTA     2     3    1       1
## 8          75    RIOHACHA     3     3    2       2
## 9          84      CUCUTA     3     1    4       4
## 10         95      CUCUTA     3     1    2       2

La variable “p5000” ubicada en la tercera columna, indica la cantidad de habitaciones del hogar (incluyendo sala-comedor). Si queremos cambiar el nombre de esta variable por “Ncuartos”, aplicamos la función rename( ) del paquete dplyr:

V1= rename(tabla1, Ncuartos = p5000)
head(V1,10)

##    directorio     dominio Ncuartos p5090 nper npersug
## 1          43      BOGOTA        1     3    1       1
## 2          43      BOGOTA        3     1    2       2
## 3          43      BOGOTA        1     3    1       1
## 4          47 BUCARAMANGA        4     1    2       2
## 5          48    MONTERIA        3     1    3       3
## 6          64    MEDELLIN        4     3    1       1
## 7          72      CUCUTA        2     3    1       1
## 8          75    RIOHACHA        3     3    2       2
## 9          84      CUCUTA        3     1    4       4
## 10         95      CUCUTA        3     1    2       2

Ahora consideremos el dataset “tabla”, y extraemos el nombre de su decima variable :

value =colnames(tabla) 
value[10]

## [1] "pobre"

La variable binaria “pobre” identifica los hogares en condiciones de pobreza. Toma el valor \(1\) si el hogar es pobre, y \(0\) sino lo es. Para saber cuantos hogares se clasificaron como “pobres” o “no pobres” dentro de esta base de datos, hacemos uso de la función table( ):

ColumnaPobre= tabla[10]
TablaPobreza = table(ColumnaPobre)
vector=as.vector(table(pobre)[])
TablaPobreza

## ColumnaPobre
##      0      1 
## 144452  85382

Procedemos a usar un gráfico tipo Waffle para hacer la comparativa sobre la población en condición de pobreza y los que no lo están.

waffle(c('No pobres = 62.85%' = 100*vector[1]/sum(vector), 'Pobres = 37.15%' =  100*vector[2]/sum(vector) ), rows = 10, colors = c("#3c55b3","#FF6100"),
       title = 'Pobreza en hogares Colombianos(%)', legend_pos="bottom")

Podemos evidenciar en la figura anterior que hay una mayor cantidad de hogares en condición de no pobreza, sin embargo la cifra de hogares en condición de pobreza es bastante alta y alarmante.

Dado que, al importar la bases de datos, las variables no quedan del tipo numérico y esto genera conflictos a la hora de generar gráficos, debemos convertirlas antes:

p5000=as.numeric(p5000) 
p5090=as.numeric(p5090) 
nper=as.numeric(nper)
npersug=as.numeric(npersug) 
ingtotug=as.numeric(ingtotug)  
ingtotugarr=as.numeric(ingtotugarr) 
ingpcug=as.numeric(ingpcug)
pobre=as.numeric(pobre)

Insertemos una figura de tipo torta y comparemos los tipos de residencia diferentes que tienen los hogares Colombianos.

nombres=names(table(p5090))
nombres=c("pagada:", "otra:", "pagando:",
          "arriendo:","usufructo:",
          "sin título:","otra:")
valores=as.vector(table(p5090)[])
pct <- round(valores/sum(valores)*100,2)
nombres <- paste(nombres, pct) 
nombres <- paste(nombres,"%",sep="") 
pie(valores,nombres, col=rainbow(length(nombres)),
    main="Relación con el inmueble")

Podemos concluir que el tipo de residencia que predomina es aquella donde el hogar está en casa propia, pero la están pagando todavia, en segundo lugar encontramos hogares que tienen casa y ya la terminaron de pagar y seguido a estas hogares que viven en arriendo.

Algunas conclusiones estadísticas.

A continuación aplicamos la función summary( ) para obtener una descripción estadística de cada varible de “tabla”:

summary(tabla[3:4])

##      p5000            p5090     
##  Min.   : 0.000   Min.   :1.00  
##  1st Qu.: 3.000   1st Qu.:1.00  
##  Median : 3.000   Median :3.00  
##  Mean   : 3.294   Mean   :2.45  
##  3rd Qu.: 4.000   3rd Qu.:3.00  
##  Max.   :99.000   Max.   :6.00

En relación a la variable “p5000”, este resultado nos indica que en promedio hay \(3.294\) habitaciones, aproximando esta cantidad a un número posible y real de habitaciones, nos damos cuenta que en promedio los hogares Colombianos cuentan con \(3\) habitaciones en total.

Además, relacionando la descripción de la variable “p5090” con la g´rafica relacionada a la misma, vemos que la vivienda promedio ocupada por los hogares esta entre los tipos “propia, la están pagando” y “en arriendo o subarriendo.”

summary(tabla[5:6])

##       nper           npersug      
##  Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 2.000  
##  Median : 3.000   Median : 3.000  
##  Mean   : 3.254   Mean   : 3.246  
##  3rd Qu.: 4.000   3rd Qu.: 4.000  
##  Max.   :25.000   Max.   :25.000

De la descripción de la variable “nper”, podemos concluir que en un hogar llegan a vivir hasta \(25\) personas. Y la variable “npersug” nos dice que en promedio, el número de personas en la unidad de gasto es \(3.246\).

Veamos un pequeño análisis de correlación, en esta matríz tenemos que entre más cercano a \(1\) esté el número, mayor correlación tendrán las variables, por el contrario si el número es negativo o cero, las variables no tendrán correlación.

tablaNumerica = tabla[,3:6]
corr <- round(cor(tablaNumerica), 1)
knitr::kable(head(corr[, 1:4]))

	p5000	p5090	nper	npersug
p5000	1.0	-0.2	0.2	0.2
p5090	-0.2	1.0	0.0	0.0
nper	0.2	0.0	1.0	1.0
npersug	0.2	0.0	1.0	1.0

Ahora podemos visualizar un gráfico de correlación, podemos evidenciar que las variables con color rojo intenso están correlacionadas, sin embargo como es de esperar la mayoría de variables no lo están, únicamente lo están aquellas que tienen relación con el número de habitantes del hogar.

Hacemos uso de la función ggcorrplot(corr) (Nota: el código de R corrió la figura a la perfección, sin embargo al correrla en rmarkdown salía error, por tal motivo lo pegamos como imagen)

Podemos concluir que los índices de pobreza en los hogares Colombianos son bastante altos, sin embargo, podemos evidenciar que gran parte de la sociedad Colombiana cuenta con vivienda propia ya sea pagada, o en proceso de pagarla.

Primer parcial Introducción a la Estadística con R

Juliana Pinzón: 20171167025 Alexander Fajardo: 20162167272 , Samuel Cruz: 20172167025

3/9/2021

Base de datos “COLOMBIA - Medición de Pobreza Monetaria y Desigualdad 2020”

Aplicación de algunas fuciones a la base de datos

Algunas conclusiones estadísticas.