Vuelva a guardar este Rmd con su nombre, apellido y código. Corra estos códigos para limpiar la base de datos y poder hacer los ejercicios sin problema:
#Abrimos la base:
library(rio)
original_data = import("Base de datos CAF 2013.dta")
#Filtro:
data = original_data[,c("k6a","k7","m2","edade","f1")]
#Eliminando casos perdidos:
data = data[data$k6a != 97,]
data = data[data$k6a != 99,]
data = data[data$k7 != 97,]
data = data[data$k7 != 99,]
data = data[data$f1 != 97,]
data = data[data$m2 != 98,]
data = data[data$m2 != 99,]
#Dando formato:
data$k6a = factor(data$k6a, levels = c(1:2), labels = c("Se encuentra cubierto","No se encuentra cubierto"))
data$k7 = factor(data$k7, levels = c(1:3), labels = c("Utiliza","No utiliza","No tiene"))
data$f1 = factor(data$f1, levels = c(1:7), labels = c("Usted","Usted y su pareja","Usted y otro miembro de la familia","Su pareja","Otro miembro de la familia", "Otra persona", "Nadie"))
data$m2 = factor(data$m2, levels = c(1:2), labels = c("Ha pasado","No ha pasado"))
#Limpia!
str(data)
## 'data.frame': 824 obs. of 5 variables:
## $ k6a : Factor w/ 2 levels "Se encuentra cubierto",..: 2 1 1 1 1 2 1 1 2 2 ...
## $ k7 : Factor w/ 3 levels "Utiliza","No utiliza",..: 2 3 2 3 3 2 2 2 2 2 ...
## $ m2 : Factor w/ 2 levels "Ha pasado","No ha pasado": 1 1 1 1 1 2 1 1 2 1 ...
## $ edade: num 40 32 22 39 45 30 49 36 20 55 ...
## $ f1 : Factor w/ 7 levels "Usted","Usted y su pareja",..: 2 2 1 3 2 2 2 5 5 2 ...
Solucionario:
#Ejercicio1
#Explore e interprete los estadísticos descriptivos de las siguientes variables: (k6a), (k7) y (m2). (5 puntos). Sugerencia: Recuerde que los estadísticos descriptivos hacen referencia a: medidas de tendencia central, dispersión y distribución)
#Variable k6a
library(DescTools)
library(e1071)
class(original_data$k6a)
## [1] "numeric"
original_data$k6a = factor(original_data$k6a, levels = c(1:4), labels = c("Sí se encuentra cubierto/asegurado","No se encuentra cubierto/asegurado", "No sabe", "No responde"))
#Medidas de tendendencia central
Mode(original_data$k6a)
## [1] NA
## attr(,"freq")
## [1] NA
table(original_data$k6a)
##
## Sí se encuentra cubierto/asegurado No se encuentra cubierto/asegurado
## 421 421
## No sabe No responde
## 0 0
#Interpretación: La variable nos indica si el encuestado tiene cubierto/ asegurado o si no lo está en caso de que su depósito en un banco, financiera o caja quiebre. Respecto a la moda, se observa que es bimodal: 421 personas marcaron que se encuentran cubiertoso asegurados en caso su banco, financiera o caja quiebren y 421 personas marcaron que no están cubiertos o asegurados
#Variable k7
class(original_data$k7)
## [1] "numeric"
original_data$k7 = factor(original_data$k7, levels = c(1:5), labels = c("Si utiliza","No utiliza", "No tiene teléfono celular","No sabe", "NR"))
#Medidas de tendendencia central
Mode(original_data$k7)
## [1] NA
## attr(,"freq")
## [1] NA
#Se observa que la mayoría de los encuestados indicaron que no utilizan su teléfono celular para realizar pagos por teléfono. En total fueron 1041 los que marcaron que "no utiliza"
#Variable m2
class(original_data$m2)
## [1] "numeric"
original_data$m2 = factor(original_data$k7, levels = c(1:4), labels = c("Sí le ha pasado","No le ha pasado","No aplica (no tiene ningún ingreso personal","No responde"))
#Medidas de tendendencia central
Mode(original_data$m2)
## [1] NA
## attr(,"freq")
## [1] NA
#Se observa que la mayoría de encuestados indicaron que les ha pasado que sus ingresos no les alcanzaron en los últimos 12 meses para cubrir sus gastos.Así, 785 personas marcaron "sí les ha pasado"
#Ejercicio 2
#Elabore un boxplot de la variable edad (edad) e interprete los resultados. (3 puntos). Sugerencia: Recuerde tomar en cuenta el percentil 25, el percentil 50 y el percentil 75
class(original_data$edade)
## [1] "numeric"
boxplot(original_data$edade, main="Edades de los encuestados",col="aquamarine")
summary(original_data$edade)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 18.00 26.00 36.00 38.19 48.00 84.00
grafico1=table(original_data$edade)
#interpretación:
#En primer lugar, con el comando "summary" podemos observar que el valor mínimo de edad de los encuestados es 18. Respecto a los percentiles, se observa que el percentil 25 es "26 años", el percentil 50 (la mediana) es "36 años", el percentil 75 es "48 años" y el valor máximo es 84 años.
#Al generar el diagrama de cajas, confirmamos que la mediana es 36. Respecto a la ubicación de la caja, se observa que se encuentra más pegada a la parte inferior. Ello nos indica que su asimetría es sesgada a la izquierda y, por lo tanto, muestra una asimetría menor a 0. 3
#Se observa que la caja es pequeña, lo cual significa que hay una mayor concentración de datos.
#Vemos que hay datos atípicos solo por encima del límite superior. Ello confirma el hecho de que mi curva está sesgada a la izqueirda
#Ejercicio 3
#Conocer quién es la persona que aparece con mayor frecuencia como responsable de tomar las decisiones relacionadas con el manejo diario del dinero en el hogar (variable f1). (2 puntos). Sugerencia: Puede usar la función table()
class(original_data$f1)
## [1] "numeric"
original_data$f1 = factor(original_data$f1, levels = c(1:9), labels = c("Usted", "Usted y su pareja","Usted y otro miembro de la familia (o familiares","Su pareja","Otro miembro de la familia (o familiares)","Otra persona (no familiar)","Nadie", "No sabe", "No responde"))
class(original_data$f1)
## [1] "factor"
table(original_data$f1)
##
## Usted
## 450
## Usted y su pareja
## 343
## Usted y otro miembro de la familia (o familiares
## 63
## Su pareja
## 94
## Otro miembro de la familia (o familiares)
## 257
## Otra persona (no familiar)
## 0
## Nadie
## 1
## No sabe
## 0
## No responde
## 0
#Interpretación: De acuerdo a los resultados obtenidos, se observa que la mayoría de encuestados son, ellos mismos, los responsables de las decisiones relacionadas con el manejo diario del dinero en su hogar. Por lo tanto, 450 personas, de UN total de 1210 personas, son responsables del manejo diario del dinero.