library(dplyr)
library(ggplot2)
library(descriptr)
library(knitr)
library(modeest)
library(fdth)
library(readxl)
Primero se cagaran las librerias a usar Primero descargar la base de datos del parcial, despues la muestra 150 registros de esa base
Encuesta_ciu <- read_excel("Downloads/Encuesta_ciu.xlsx")
set.seed(61)
datos_p <- Encuesta_ciu
datos_p <- sample_n(Encuesta_ciu, size=150, replace= FALSE)
Con base en la muestra determine cuál Zona tiene un mayor nivel educativo y exprese la cantidad
t1 <- table(datos_p$Nivel_Educativo, datos_p$Zona)
t1 <- addmargins(t1) # agrega totales
t1
##
## Centro Norte Oriente Sur Sum
## Básico 13 2 7 21 43
## Medio 16 3 4 39 62
## Superior 10 0 8 27 45
## Sum 39 5 19 87 150
kable(t1, caption = "Tabla cruzada con totales")
Centro | Norte | Oriente | Sur | Sum | |
---|---|---|---|---|---|
Básico | 13 | 2 | 7 | 21 | 43 |
Medio | 16 | 3 | 4 | 39 | 62 |
Superior | 10 | 0 | 8 | 27 | 45 |
Sum | 39 | 5 | 19 | 87 | 150 |
Elabore un diagrama de caja y bigotes para la variable Horas_Trabajo en función de la variable Nivel_Educativo. Y concluya cuál de los tres niveles educativos presenta mayor asimetrÃa y si existen datos sospechosos o atÃpicos
attach(datos_p)
boxplot(datos_p$Horas_Trabajo ~ datos_p$Nivel_Educativo, xlab = "Niveles educativo", ylab = "Horas de trabajo", main= "Diagrama de caja P2", col= c("pink", "lavender", "lightblue"))
## Pregunta 3.a Elabore un diagrama de barras para la variable Zona y
concluya donde se encuentra asentada la mayor parte de los
encuestados.
tabla_zona <- table(datos_p$Zona)
tabla_zona
##
## Centro Norte Oriente Sur
## 39 5 19 87
barplot(tabla_zona, col = c("mistyrose","antiquewhite1","#F0FFFF","#EEAEEE"),
horiz=FALSE, density= NULL ,ylab= "Zona" , border = TRUE,
ylim=c(0,110),xlab="Zona",main= "Gráfico de barras para zona")
## Pregunta 3.b Elabore una tabla de frecuencias, el histograma, y el
Box Plot, para la variable Ingreso_Mensual
tabla1 <- fdt(datos_p$Ingreso_Mensual)
tabla_frec <- as.data.frame(tabla1$table)
colnames(tabla_frec) <- c("Intervalo", "Frecuencia", "Frecuencia Relativa",
"Frecuencia Acumulada", "Frecuencia Relativa Acumulada")
kable(tabla_frec, caption = "Tabla de frecuencia (Ingreso Mensual)")
Intervalo | Frecuencia | Frecuencia Relativa | Frecuencia Acumulada | Frecuencia Relativa Acumulada | NA |
---|---|---|---|---|---|
[1011.711,1797.03) | 18 | 0.1200000 | 12.000000 | 18 | 12.00000 |
[1797.03,2582.35) | 14 | 0.0933333 | 9.333333 | 32 | 21.33333 |
[2582.35,3367.669) | 24 | 0.1600000 | 16.000000 | 56 | 37.33333 |
[3367.669,4152.989) | 21 | 0.1400000 | 14.000000 | 77 | 51.33333 |
[4152.989,4938.308) | 17 | 0.1133333 | 11.333333 | 94 | 62.66667 |
[4938.308,5723.627) | 12 | 0.0800000 | 8.000000 | 106 | 70.66667 |
[5723.627,6508.947) | 14 | 0.0933333 | 9.333333 | 120 | 80.00000 |
[6508.947,7294.266) | 14 | 0.0933333 | 9.333333 | 134 | 89.33333 |
[7294.266,8079.586) | 16 | 0.1066667 | 10.666667 | 150 | 100.00000 |
hist(datos_p$Ingreso_Mensual, breaks = "sturges", main= 'Histograma Ingreso', xlab="Ingreso Mensual", col = "pink",ylab="Frecuencia")
boxplot(datos_p$Ingreso_Mensual, breaks = "sturges", main= 'Histograma Ingreso', xlab="Ingreso Mensual", col = "pink",ylab="Frecuencia")
## Pregunta 3.c Muestre en una tabla,el resumen de todas las medidas
descriptivas numéricas para la variable Ingreso_Mensual que incluya,
además, el ingreso mensual que supera el 90% de los ingresos.
resumen <- ds_tidy_stats(datos_p,Ingreso_Mensual)
kable(resumen, caption = "Medidas descriptivas de Ingreso Mensual")
vars | min | max | mean | t_mean | median | mode | range | variance | stdev | skew | kurtosis | coeff_var | q1 | q3 | iqrange |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Ingreso_Mensual | 1021.93 | 7999.59 | 4379.213 | 4366.48 | 4101.2 | 1021.93 | 6977.66 | 4193759 | 2047.867 | 0.1796608 | -1.145967 | 46.76336 | 2817.775 | 6290.818 | 3473.043 |
perc.90 <- quantile(datos_p$Ingreso_Mensual, probs=0.9)
perc.90
## 90%
## 7348.06
plot(datos_p$Edad, datos_p$Horas_Trabajo, breaks = "sturges", main = 'Gráfica de dispersión',col='#668B8B', xlab = "Edad", ylab = "Horas de Trabajo")
## Warning in plot.window(...): "breaks" is not a graphical parameter
## Warning in plot.xy(xy, type, ...): "breaks" is not a graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "breaks" is not a
## graphical parameter
## Warning in axis(side = side, at = at, labels = labels, ...): "breaks" is not a
## graphical parameter
## Warning in box(...): "breaks" is not a graphical parameter
## Warning in title(...): "breaks" is not a graphical parameter