knitr::opts_chunk$set(echo = TRUE)
#####De la base de datos adjunta llamada
Base_Estadistica_Descriptiva, tome una muestra de 160 registros usando
como semilla los dos últimos dígitos de la cédula y, con base en la
muestra encontrada, conteste las siguientes preguntas
1) Determine el porcentaje de hombres que tienen estudios
universitarios y muestre cuál es la cantidad total de mujeres
participantes.
set.seed(49)
datos_sz <- Base_Estadistica_Descriptiva_2
datos_sz <- sample_n(Base_Estadistica_Descriptiva_2, size=160, replace =FALSE)
p1 <- table(datos_sz$Genero,datos_sz$NivelEducativo); p1
##
## Primaria Secundaria Técnico Universitario
## Femenino 11 15 12 9
## Masculino 13 10 15 11
## Otro 13 15 20 16
p1 <- round(prop.table(p1)*100, 3); p1
##
## Primaria Secundaria Técnico Universitario
## Femenino 6.875 9.375 7.500 5.625
## Masculino 8.125 6.250 9.375 6.875
## Otro 8.125 9.375 12.500 10.000
p1 <- addmargins(p1); p1
##
## Primaria Secundaria Técnico Universitario Sum
## Femenino 6.875 9.375 7.500 5.625 29.375
## Masculino 8.125 6.250 9.375 6.875 30.625
## Otro 8.125 9.375 12.500 10.000 40.000
## Sum 23.125 25.000 29.375 22.500 100.000
rm(p1)
#####El 6.875 % de los participantes son hombres con estudios universitarios. La cantidad total de mujeres participantes es 47.
2)Elabore un diagrama de caja y bigotes para la variable estatura en
función del género y analice la gráfica
tabla_frec_esta_genero <- table(datos_sz$Estatura, datos_sz$Genero)
boxplot(datos_sz$Estatura ~ datos_sz$Genero,main="Relación de la estatura con respecto el genero",ylab="Estatura",xlab="Genero", col=c("cadetblue","blue","salmon"), horizontal =FALSE)

####La estatura promedio en relación a la mediana es bastante homogénea entre los géneros, con diferencias mínimas (menos de 2 cm entre ellos).La variabilidad también es similar, lo cual indica que la dispersión de la estatura no depende del género. No hay evidencia de valores atípicos significativos, por lo que los datos son bastante consistentes.
3a) Elabore un diagrama de barras para la variable Hermanos y
determine qué cantidad es la más frecuente.
tabla_Hermanos <- table(datos_sz$Hermanos)
tabla_Hermanos
##
## 0 1 2 3 4 5 6
## 36 23 19 19 21 22 20
barplot(tabla_Hermanos,
col = c("#FFF68F","palegreen1","#FF83FA","pink", "purple", "cadetblue1"),
border = "white",
ylim = c(0, 160),
xlab = "Cantidad de hermanos",
ylab = "Frecuencia de la población de la muestra",
main = "Gráfico de barras para las varible hermanos")

##### la cantidad más frecuente de las personas que hacen parte de la muestra indican que tienen 0 hermanos, es decri que osn hijos unicos, seguidos por las personas que indican que tienen 6 hermanos
3b) niVEL EDUCATIVO
Nivel_educativo <- table(datos_sz$NivelEducativo)
Nivel_educativo
##
## Primaria Secundaria Técnico Universitario
## 37 40 47 36
pie(Nivel_educativo,labels = names(Nivel_educativo),
edges = 45, radius = 1, density =NULL,
col = c("aquamarine2","cadetblue1","purple"),
clockwise = TRUE, main = "Nivel Educativo",
border = "blue")

Torta2<- pie3D(Nivel_educativo,labels=names(Nivel_educativo),radius = 0.5,border = "blue",
explode=0, height=0.3,labelcex = 1.0,theta=pi/4,
main="Nivel Educativo de las personas")

3c) Elabore una tabla de frecuencias, el histograma y el polígono de
frecuencias para la variable HorasDeTrabajo.
tabla_frec_horas_trabajo <- fdt(x=datos_sz$HorasDeTrabajo, k= 4)
tabla_frec_horas_trabajo
## Class limits f rf rf(%) cf cf(%)
## [13.167,25.657) 10 0.06 6.25 10 6.25
## [25.657,38.146) 53 0.33 33.12 63 39.38
## [38.146,50.636) 80 0.50 50.00 143 89.38
## [50.636,63.125) 17 0.11 10.62 160 100.00
kable(tabla_frec_horas_trabajo)
[13.167,25.657) |
10 |
0.06250 |
6.250 |
10 |
6.250 |
[25.657,38.146) |
53 |
0.33125 |
33.125 |
63 |
39.375 |
[38.146,50.636) |
80 |
0.50000 |
50.000 |
143 |
89.375 |
[50.636,63.125) |
17 |
0.10625 |
10.625 |
160 |
100.000 |
|
start |
13.1670 |
end |
63.1250 |
h |
12.4895 |
right |
0.0000 |
|
hist(datos_sz$HorasDeTrabajo,
breaks = 12,
main = "Histograma de horas de trabajo",
ylab = "Frecuencia",xlab="Ingreso Mensual",
col = "mediumorchid3")

####El histograma muestra que la mayoría de las personas trabajan entre 35 y 50 horas, concentrándose alrededor de las 40 horas, que corresponde a una jornada laboral típica. Se observa que pocos trabajan menos de 20 horas o más de 55, lo que indica que los casos extremos son poco frecuentes.
tabla_frec_horas_trabajo <- fdt(datos_sz$HorasDeTrabajo,k = 4)
tabla_frec_horas_trabajo
## Class limits f rf rf(%) cf cf(%)
## [13.167,25.657) 10 0.06 6.25 10 6.25
## [25.657,38.146) 53 0.33 33.12 63 39.38
## [38.146,50.636) 80 0.50 50.00 143 89.38
## [50.636,63.125) 17 0.11 10.62 160 100.00
plot(tabla_frec_horas_trabajo, type = "fp", col = "blue",main = "Polígono de Frecuencias hora de trabajo", xlab = "Horas de Trabajo",
ylab ="Frecuencia")

###### El mayor grupo de trabajadores se concentra en el rango 38–50 horas semanales, lo cual coincide con una jornada laboral estándar en muchos contextos. Por otro lado Existen pocos casos extremos en los dos extremos: tanto en los que trabajan muy pocas horas entre 13–25 como en los que trabajan demasiadas horas entre 50–63.
3d) Elabore un dataframe con las medidas de tendencia central, de
variabilidad, Q1 ,Q3 y las medidas de forma para la variable
IngresoMensual.
##### tendencia central
media_a <- mean(datos_sz$IngresoMensual)
mediana <- median(datos_sz$IngresoMensual)
moda <- mlv1(datos_sz$IngresoMensual, method = "mfv")
df <- data.frame(media_a, mediana, moda)
df
## media_a mediana moda
## 1 2046.202 2077.665 -274.41
###### medidas de variabilidad
"Varianza"
## [1] "Varianza"
var_datos_sz <- var(datos_sz$IngresoMensual)
cat("la varianza de los ingresos mensuales es:", var_datos_sz)
## la varianza de los ingresos mensuales es: 567877.6
"La desviacion estándar"
## [1] "La desviacion estándar"
ds_datos_sz <- sqrt(var(datos_sz$IngresoMensual))
cat("la desv estandar de los ingresos mensuales es:", ds_datos_sz)
## la desv estandar de los ingresos mensuales es: 753.5766
"Coeficiente de variación"
## [1] "Coeficiente de variación"
CV <- (sd(datos_sz$IngresoMensual)/ mean(datos_sz$IngresoMensual))*100
cat("El coeficiente de variación de los ingresos mensuales es",CV)
## El coeficiente de variación de los ingresos mensuales es 36.82807
##### Medida de posición
d <- ds_tidy_stats(datos_sz,IngresoMensual)
kable(d)
IngresoMensual |
-274.41 |
3707.4 |
2046.202 |
2056.678 |
2077.665 |
-274.41 |
3981.81 |
567877.6 |
753.5766 |
-0.1971345 |
0.0005996 |
36.82807 |
1522.467 |
2560.423 |
1037.955 |
percentiles <- quantile(datos_sz$IngresoMensual, probs = c(0.25, 0.75), type = 6)
percentiles
## 25% 75%
## 1521.543 2564.128