library(datos)
library(dplyr)
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(descriptr)
library(ggplot2)
library(readxl)
library(fdth)
## 
## Adjuntando el paquete: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
library(modeest)
## 
## Adjuntando el paquete: 'modeest'
## The following object is masked from 'package:fdth':
## 
##     mfv
library(knitr)
library(plotrix)
Base_Estadistica_Descriptiva_1_ <- read_excel("C:/Users/User/Downloads/Base_Estadistica_Descriptiva (1).xlsx")
View(Base_Estadistica_Descriptiva_1_)

#####De la base de datos adjunta llamada Base_Estadistica_Descriptiva, tome una muestra de 160 registros usando como semilla los dos últimos dígitos de la cédula y, con base en la muestra encontrada, conteste las siguientes preguntas ###1)Determine el porcentaje de hombres que tienen estudios universitarios y muestre cuál es la cantidad total de mujeres participantes. ### 1) Determine el porcentaje de hombres que tienen estudios universitarios y muestre cuál es la cantidad total de mujeres participantes.

set.seed(49)
datos_sz <- Base_Estadistica_Descriptiva_1_
datos_sz <- sample_n(Base_Estadistica_Descriptiva_1_, size=160, replace =FALSE)
hombres_universitarios <-sum(datos_sz$Genero == "Masculino" )
hombres_universitarios
## [1] 49
porcentaje_hombres <- (hombres_universitarios / 160) * 100
porcentaje_hombres
## [1] 30.625
print(paste("Porcentaje de hombres con estudios universitarios:", porcentaje_hombres))
## [1] "Porcentaje de hombres con estudios universitarios: 30.625"

2)Elabore un diagrama de caja y bigotes para la variable estatura en función

del género y analice la gráfica

tabla_frec_esta_genero <- table(datos_sz$Estatura,datos_sz$Genero)
boxplot(datos_sz$Estatura ~ datos_sz$Genero,main="Relación de la estatura con respecto el genero",ylab="Estatura",xlab="Genero", col=c("cadetblue","blue","salmon"), horizontal =FALSE)

####La estatura promedio en relación a la mediana es bastante homogénea entre los géneros, con diferencias mínimas (menos de 2 cm entre ellos).La variabilidad también es similar, lo cual indica que la dispersión de la estatura no depende del género. No hay evidencia de valores atípicos significativos, por lo que los datos son bastante consistentes.

3) Resuelva los siguientes puntos

3a) Elabore un diagrama de barras para la variable Hermanos y determine

qué cantidad es la más frecuente.

tabla_Hermanos <- table(datos_sz$Hermanos)
tabla_Hermanos
## 
##  0  1  2  3  4  5  6 
## 36 23 19 19 21 22 20
barplot(tabla_Hermanos,
        col = c("#FFF68F","palegreen1","#FF83FA","pink", "purple", "cadetblue1"),
        border = "white", 
        ylim = c(0, 160), 
        xlab = "Cantidad de hermanos",
        ylab = "Frecuencia de la población de la muestra",
        main = "Gráfico de barras para las varible hermanos")

la cantidad más frecuente de las personas que hacen parte de la muestra indican que tienen 0 hermanos, es decri que osn hijos unicos, seguidos por las personas que indican que tienen 6 hermanos

###3b) Elabore un diagrama de torta en 3D para la variable NivelEducativo.

Nivel_educativo <- table(datos_sz$NivelEducativo)
Nivel_educativo
## 
##      Primaria    Secundaria       Técnico Universitario 
##            37            40            47            36
pie(Nivel_educativo,labels = names(Nivel_educativo),
    edges = 45, radius = 1, density =NULL,
    col = c("aquamarine2","cadetblue1","purple"),
    clockwise = TRUE, main = "Nivel Educativo",
    border = "blue")

Torta2<- pie3D(Nivel_educativo,labels=names(Nivel_educativo),radius = 0.5,border = "blue",
               explode=0, height=0.3,labelcex = 1.0,theta=pi/4,
               main="Nivel Educativco de las personas")

3c) Elabore una tabla de frecuencias, el histograma y el polígono de frecuencias para la variable HorasDeTrabajo.

tabla_frec_horas_trabajo <- fdt(x=datos_sz$HorasDeTrabajo, k= 4)
tabla_frec_horas_trabajo
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [13.167,25.657) 10 0.06  6.25  10   6.25
##  [25.657,38.146) 53 0.33 33.12  63  39.38
##  [38.146,50.636) 80 0.50 50.00 143  89.38
##  [50.636,63.125) 17 0.11 10.62 160 100.00
kable(tabla_frec_horas_trabajo)
Class limits f rf rf(%) cf cf(%)
[13.167,25.657) 10 0.06250 6.250 10 6.250
[25.657,38.146) 53 0.33125 33.125 63 39.375
[38.146,50.636) 80 0.50000 50.000 143 89.375
[50.636,63.125) 17 0.10625 10.625 160 100.000
x
start 13.1670
end 63.1250
h 12.4895
right 0.0000
hist(datos_sz$HorasDeTrabajo,
     breaks = 12, 
     main = "Histograma de horas de trabajo",
     ylab = "Frecuencia",xlab="Ingreso Mensual",
     col = "mediumorchid3")

tabla_frec_horas_trabajo <- fdt(datos_sz$HorasDeTrabajo,k = 4)
tabla_frec_horas_trabajo
##     Class limits  f   rf rf(%)  cf  cf(%)
##  [13.167,25.657) 10 0.06  6.25  10   6.25
##  [25.657,38.146) 53 0.33 33.12  63  39.38
##  [38.146,50.636) 80 0.50 50.00 143  89.38
##  [50.636,63.125) 17 0.11 10.62 160 100.00
plot(tabla_frec_horas_trabajo, type = "fp", col = "blue",main = "Polígono de Frecuencias hora de trabajo", xlab = "Horas de Trabajo", ylab="Frecuencia")

### 3d) Elabore un dataframe con las medidas de tendencia central, de variabilidad, Q1 ,Q3 y las medidas de forma para la variable IngresoMensual.

p <- ds_tidy_stats(datos_sz,IngresoMensual)
kable(p)
vars min max mean t_mean median mode range variance stdev skew kurtosis coeff_var q1 q3 iqrange
IngresoMensual -274.41 3707.4 2046.202 2056.678 2077.665 -274.41 3981.81 567877.6 753.5766 -0.1971345 0.0005996 36.82807 1522.467 2560.423 1037.955