knitr::opts_chunk$set(echo = TRUE)

#####De la base de datos adjunta llamada Base_Estadistica_Descriptiva, tome una muestra de 160 registros usando como semilla los dos últimos dígitos de la cédula y, con base en la muestra encontrada, conteste las siguientes preguntas

1) Determine el porcentaje de hombres que tienen estudios universitarios y muestre cuál es la cantidad total de mujeres participantes.
set.seed(49)

datos_sz <- Base_Estadistica_Descriptiva_2
datos_sz <- sample_n(Base_Estadistica_Descriptiva_2, size=160, replace =FALSE)

p1 <- table(datos_sz$Genero,datos_sz$NivelEducativo); p1
##            
##             Primaria Secundaria Técnico Universitario
##   Femenino        11         15      12             9
##   Masculino       13         10      15            11
##   Otro            13         15      20            16
p1 <- round(prop.table(p1)*100, 3); p1
##            
##             Primaria Secundaria Técnico Universitario
##   Femenino     6.875      9.375   7.500         5.625
##   Masculino    8.125      6.250   9.375         6.875
##   Otro         8.125      9.375  12.500        10.000
p1 <- addmargins(p1); p1
##            
##             Primaria Secundaria Técnico Universitario     Sum
##   Femenino     6.875      9.375   7.500         5.625  29.375
##   Masculino    8.125      6.250   9.375         6.875  30.625
##   Otro         8.125      9.375  12.500        10.000  40.000
##   Sum         23.125     25.000  29.375        22.500 100.000
rm(p1)

#####El 6.875 % de los participantes son hombres con estudios universitarios. La cantidad total de mujeres participantes es 47.
2)Elabore un diagrama de caja y bigotes para la variable estatura en función del género y analice la gráfica
tabla_frec_esta_genero <- table(datos_sz$Estatura, datos_sz$Genero)

boxplot(datos_sz$Estatura ~ datos_sz$Genero,main="Relación de la estatura con respecto el genero",ylab="Estatura",xlab="Genero", col=c("cadetblue","blue","salmon"), horizontal =FALSE)

####La estatura promedio en relación a la mediana es bastante homogénea entre los géneros, con diferencias mínimas (menos de 2 cm entre ellos).La variabilidad también es similar, lo cual indica que la dispersión de la estatura no depende del género. No hay evidencia de valores atípicos significativos, por lo que los datos son bastante consistentes.
3a) Elabore un diagrama de barras para la variable Hermanos y determine qué cantidad es la más frecuente.
tabla_Hermanos <- table(datos_sz$Hermanos)
tabla_Hermanos
## 
##  0  1  2  3  4  5  6 
## 36 23 19 19 21 22 20
barplot(tabla_Hermanos,
        col = c("#FFF68F","palegreen1","#FF83FA","pink", "purple", "cadetblue1"),
        border = "white", 
        ylim = c(0, 160), 
        xlab = "Cantidad de hermanos",
        ylab = "Frecuencia de la población de la muestra",
        main = "Gráfico de barras para las varible hermanos")

##### la cantidad más frecuente de las personas que hacen parte de la muestra indican que tienen 0 hermanos, es decri que osn hijos unicos, seguidos por las personas que indican que tienen 6 hermanos
3b) niVEL EDUCATIVO
Nivel_educativo <- table(datos_sz$NivelEducativo)
Nivel_educativo
## 
##      Primaria    Secundaria       Técnico Universitario 
##            37            40            47            36
pie(Nivel_educativo,labels = names(Nivel_educativo),
    edges = 45, radius = 1, density =NULL,
    col = c("aquamarine2","cadetblue1","purple"),
    clockwise = TRUE, main = "Nivel Educativo",
    border = "blue")

Torta2<- pie3D(Nivel_educativo,labels=names(Nivel_educativo),radius = 0.5,border = "blue",
               explode=0, height=0.3,labelcex = 1.0,theta=pi/4,
               main="Nivel Educativo de las personas")

3c) Elabore una tabla de frecuencias, el histograma y el polígono de frecuencias para la variable HorasDeTrabajo.
tabla_frec_horas_trabajo <- fdt(x=datos_sz$HorasDeTrabajo, k= 4)
tabla_frec_horas_trabajo
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [13.167,25.657) 10 0.06  6.25  10   6.25
##  [25.657,38.146) 53 0.33 33.12  63  39.38
##  [38.146,50.636) 80 0.50 50.00 143  89.38
##  [50.636,63.125) 17 0.11 10.62 160 100.00
kable(tabla_frec_horas_trabajo)
Class limits f rf rf(%) cf cf(%)
[13.167,25.657) 10 0.06250 6.250 10 6.250
[25.657,38.146) 53 0.33125 33.125 63 39.375
[38.146,50.636) 80 0.50000 50.000 143 89.375
[50.636,63.125) 17 0.10625 10.625 160 100.000
x
start 13.1670
end 63.1250
h 12.4895
right 0.0000
hist(datos_sz$HorasDeTrabajo,
     breaks = 12, 
     main = "Histograma de horas de trabajo",
     ylab = "Frecuencia",xlab="Ingreso Mensual",
     col = "mediumorchid3")

####El histograma muestra que la mayoría de las personas trabajan entre 35 y 50 horas, concentrándose alrededor de las 40 horas, que corresponde a una jornada laboral típica. Se observa que pocos trabajan menos de 20 horas o más de 55, lo que indica que los casos extremos son poco frecuentes. 

tabla_frec_horas_trabajo <- fdt(datos_sz$HorasDeTrabajo,k = 4)
tabla_frec_horas_trabajo
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [13.167,25.657) 10 0.06  6.25  10   6.25
##  [25.657,38.146) 53 0.33 33.12  63  39.38
##  [38.146,50.636) 80 0.50 50.00 143  89.38
##  [50.636,63.125) 17 0.11 10.62 160 100.00
plot(tabla_frec_horas_trabajo, type = "fp", col = "blue",main = "Polígono de Frecuencias hora de trabajo", xlab = "Horas de Trabajo", 
     ylab ="Frecuencia")

###### El mayor grupo de trabajadores se concentra en el rango 38–50 horas semanales, lo cual coincide con una jornada laboral estándar en muchos contextos. Por otro lado Existen pocos casos extremos en los dos extremos: tanto en los que trabajan muy pocas horas entre 13–25 como en los que trabajan demasiadas horas entre 50–63.
3d) Elabore un dataframe con las medidas de tendencia central, de variabilidad, Q1 ,Q3 y las medidas de forma para la variable IngresoMensual.
##### tendencia central

media_a  <- mean(datos_sz$IngresoMensual)
mediana  <- median(datos_sz$IngresoMensual)
moda     <- mlv1(datos_sz$IngresoMensual, method = "mfv")

df <- data.frame(media_a, mediana, moda)
df
##    media_a  mediana    moda
## 1 2046.202 2077.665 -274.41
###### medidas de variabilidad

"Varianza"
## [1] "Varianza"
var_datos_sz <- var(datos_sz$IngresoMensual)
cat("la varianza de los ingresos mensuales es:", var_datos_sz)
## la varianza de los ingresos mensuales es: 567877.6
"La desviacion estándar"
## [1] "La desviacion estándar"
ds_datos_sz <- sqrt(var(datos_sz$IngresoMensual))
cat("la desv estandar de los ingresos mensuales es:", ds_datos_sz)
## la desv estandar de los ingresos mensuales es: 753.5766
"Coeficiente de variación"
## [1] "Coeficiente de variación"
CV <- (sd(datos_sz$IngresoMensual)/ mean(datos_sz$IngresoMensual))*100
cat("El coeficiente de variación de los ingresos mensuales es",CV)
## El coeficiente de variación de los ingresos mensuales es 36.82807
##### Medida de posición

d <- ds_tidy_stats(datos_sz,IngresoMensual)
kable(d)
vars min max mean t_mean median mode range variance stdev skew kurtosis coeff_var q1 q3 iqrange
IngresoMensual -274.41 3707.4 2046.202 2056.678 2077.665 -274.41 3981.81 567877.6 753.5766 -0.1971345 0.0005996 36.82807 1522.467 2560.423 1037.955
 percentiles <- quantile(datos_sz$IngresoMensual, probs = c(0.25, 0.75), type = 6)
 percentiles
##      25%      75% 
## 1521.543 2564.128