library(dplyr)
library(ggplot2)
library(descriptr)
library(knitr)
library(modeest)
library(fdth)
library(readxl)

Primero se cagaran las librerias a usar Primero descargar la base de datos del parcial, despues la muestra 150 registros de esa base

Encuesta_ciu <- read_excel("Downloads/Encuesta_ciu.xlsx")
set.seed(61)
datos_p <- Encuesta_ciu
datos_p <- sample_n(Encuesta_ciu, size=150, replace= FALSE)

Pregunta 1

Con base en la muestra determine cuál Zona tiene un mayor nivel educativo y exprese la cantidad

t1 <- table(datos_p$Nivel_Educativo, datos_p$Zona)
t1 <- addmargins(t1)  # agrega totales
t1
##           
##            Centro Norte Oriente Sur Sum
##   Básico       13     2       7  21  43
##   Medio        16     3       4  39  62
##   Superior     10     0       8  27  45
##   Sum          39     5      19  87 150
kable(t1, caption = "Tabla cruzada con totales") 
Tabla cruzada con totales
Centro Norte Oriente Sur Sum
Básico 13 2 7 21 43
Medio 16 3 4 39 62
Superior 10 0 8 27 45
Sum 39 5 19 87 150

Pregunta 2

Elabore un diagrama de caja y bigotes para la variable Horas_Trabajo en función de la variable Nivel_Educativo. Y concluya cuál de los tres niveles educativos presenta mayor asimetría y si existen datos sospechosos o atípicos

attach(datos_p)
boxplot(datos_p$Horas_Trabajo ~ datos_p$Nivel_Educativo, xlab = "Niveles educativo", ylab = "Horas de trabajo", main= "Diagrama de caja P2", col= c("pink", "lavender", "lightblue"))

## Pregunta 3.a Elabore un diagrama de barras para la variable Zona y concluya donde se encuentra asentada la mayor parte de los encuestados.

tabla_zona <- table(datos_p$Zona) 
tabla_zona
## 
##  Centro   Norte Oriente     Sur 
##      39       5      19      87
barplot(tabla_zona, col = c("mistyrose","antiquewhite1","#F0FFFF","#EEAEEE"),
        horiz=FALSE, density= NULL ,ylab= "Zona" , border = TRUE,
        ylim=c(0,110),xlab="Zona",main= "Gráfico de barras para zona")

## Pregunta 3.b Elabore una tabla de frecuencias, el histograma, y el Box Plot, para la variable Ingreso_Mensual

tabla1 <- fdt(datos_p$Ingreso_Mensual)
tabla_frec <- as.data.frame(tabla1$table)
colnames(tabla_frec) <- c("Intervalo", "Frecuencia", "Frecuencia Relativa", 
                          "Frecuencia Acumulada", "Frecuencia Relativa Acumulada")
kable(tabla_frec, caption = "Tabla de frecuencia (Ingreso Mensual)")
Tabla de frecuencia (Ingreso Mensual)
Intervalo Frecuencia Frecuencia Relativa Frecuencia Acumulada Frecuencia Relativa Acumulada NA
[1011.711,1797.03) 18 0.1200000 12.000000 18 12.00000
[1797.03,2582.35) 14 0.0933333 9.333333 32 21.33333
[2582.35,3367.669) 24 0.1600000 16.000000 56 37.33333
[3367.669,4152.989) 21 0.1400000 14.000000 77 51.33333
[4152.989,4938.308) 17 0.1133333 11.333333 94 62.66667
[4938.308,5723.627) 12 0.0800000 8.000000 106 70.66667
[5723.627,6508.947) 14 0.0933333 9.333333 120 80.00000
[6508.947,7294.266) 14 0.0933333 9.333333 134 89.33333
[7294.266,8079.586) 16 0.1066667 10.666667 150 100.00000
hist(datos_p$Ingreso_Mensual, breaks = "sturges", main= 'Histograma Ingreso', xlab="Ingreso Mensual", col = "pink",ylab="Frecuencia")

boxplot(datos_p$Ingreso_Mensual, breaks = "sturges", main= 'Histograma Ingreso', xlab="Ingreso Mensual", col = "pink",ylab="Frecuencia")

## Pregunta 3.c Muestre en una tabla,el resumen de todas las medidas descriptivas numéricas para la variable Ingreso_Mensual que incluya, además, el ingreso mensual que supera el 90% de los ingresos.

resumen <- ds_tidy_stats(datos_p,Ingreso_Mensual)
kable(resumen, caption = "Medidas descriptivas de Ingreso Mensual")
Medidas descriptivas de Ingreso Mensual
vars min max mean t_mean median mode range variance stdev skew kurtosis coeff_var q1 q3 iqrange
Ingreso_Mensual 1021.93 7999.59 4379.213 4366.48 4101.2 1021.93 6977.66 4193759 2047.867 0.1796608 -1.145967 46.76336 2817.775 6290.818 3473.043
perc.90 <- quantile(datos_p$Ingreso_Mensual, probs=0.9)
perc.90
##     90% 
## 7348.06
plot(datos_p$Edad, datos_p$Horas_Trabajo, breaks = "sturges", main = 'Gráfica de dispersión',col='#668B8B', xlab = "Edad", ylab = "Horas de Trabajo")
## Warning in plot.window(...): "breaks" is not a graphical parameter
## Warning in plot.xy(xy, type, ...): "breaks" is not a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "breaks" is not a
## graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "breaks" is not a
## graphical parameter
## Warning in box(...): "breaks" is not a graphical parameter
## Warning in title(...): "breaks" is not a graphical parameter