Parcial 1

Primero se cargan las librerias a usar:

library(dplyr)

## 
## Adjuntando el paquete: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library (ggplot2)
library(descriptr)
library(knitr)
library(modeest)
library(fdth)

## 
## Adjuntando el paquete: 'fdth'

## The following object is masked from 'package:modeest':
## 
##     mfv

## The following objects are masked from 'package:stats':
## 
##     sd, var

library(readxl)
library(plotrix)

##Lo primero es cargar la base de datos del parcial, después tomar una muestra aleatoria de 160 registro de esa base

Base_Estadistica_Descriptiva_1_ <- read_excel("C:/Users/Usuario/Downloads/Base_Estadistica_Descriptiva (1).xlsx")

set.seed(94)
datos_p <- Base_Estadistica_Descriptiva_1_
datos_p <- sample_n(Base_Estadistica_Descriptiva_1_, size = 160, replace = FALSE)

is.data.frame(datos_p)

## [1] TRUE

##1.Determine el porcentaje de hombres que tienen estudios universitarios y muestre cuál es la cantidad total de mujeres participantes.

t1 <- table(datos_p$NivelEducativo, datos_p$Genero)
t1 <- addmargins(t1)
kable(t1)

	Femenino	Masculino	Otro	Sum
Primaria	7	11	9	27
Secundaria	17	18	18	53
Técnico	11	16	13	40
Universitario	10	10	20	40
Sum	45	55	60	160

#Respuesta: la cantidad total de mujeres participantes es 45 y el porcentaje de hombres que tienen estudios universitarios es del 18,18%

##2.Elabore un diagrama de caja y bigotes para la variable estatura en función del género y analice la gráfica

boxplot(datos_p$Estatura ~ datos_p$Genero, xlab= "Genero", horizontal = TRUE,
        ylab = "Estatura", main="Diagrama de caja P2", col=c("lightblue", "blue4", "blue3") )

##3.a Elabore un diagrama de barras para la variable Hermanos y determine qué cantidad es la más frecuente.

table_Hermanos <- table(datos_p$Hermanos)

barplot(table_Hermanos,col = c("cadetblue", "darkblue", "red", "purple" ),
        xlab = "Hermanos",
        ylab = "Frecuencia",
        main = "Diagrama de Barras para la Variable Hermanos",
        ylim = c(0,100),
        density=(125),
        space = NULL,)

#Respuesta: La frecuencia que mas se repite es un hermano

##3.b Elabore un diagrama de torta en 3D para la variable NivelEducativo.

t2 <- table(datos_p$NivelEducativo, datos_p$Genero)
t2 <- addmargins(t2)
kable(t2)

	Femenino	Masculino	Otro	Sum
Primaria	7	11	9	27
Secundaria	17	18	18	53
Técnico	11	16	13	40
Universitario	10	10	20	40
Sum	45	55	60	160

frec_NivelEducativo <- c(40, 25, 20, 15)
etiquetas <- c("Universitario", "Técnico", "Primaria", "Secundaria")


pie3D(frec_NivelEducativo, radius=1.1, theta=pi/4,
      labels=etiquetas, border="purple",
      main="Diagrama de torta en 3D")

##3.c Elabore una tabla de frecuencias, el histograma y el polígono de frecuencias para la variable HorasDeTrabajo

tabla_HorasDeTrabajo <- fdt(x =datos_p$HorasDeTrabajo,k =10)

kable(tabla_HorasDeTrabajo)

Class limits	f	rf	rf(%)	cf	cf(%)
[15.939,20.678)	4	0.02500	2.500	4	2.500
[20.678,25.417)	5	0.03125	3.125	9	5.625
[25.417,30.155)	16	0.10000	10.000	25	15.625
[30.155,34.894)	18	0.11250	11.250	43	26.875
[34.894,39.633)	23	0.14375	14.375	66	41.250
[39.633,44.372)	32	0.20000	20.000	98	61.250
[44.372,49.111)	34	0.21250	21.250	132	82.500
[49.111,53.849)	16	0.10000	10.000	148	92.500
[53.849,58.588)	9	0.05625	5.625	157	98.125
[58.588,63.327)	3	0.01875	1.875	160	100.000

	x
start	15.9390
end	63.3270
h	4.7388
right	0.0000

plot(tabla_HorasDeTrabajo, col=c("red","orange","yellow","blue", "deepskyblue2",
                          "green","darkgreen", "purple",
                          "pink", "pink4"),
     type = "fh", main = "Histograma de Horas de Trabajo")

plot(tabla_HorasDeTrabajo, col=c("red","orange","yellow","blue", "deepskyblue2",
                          "green","darkgreen", "purple",
                          "pink", "pink4"),
     type = "fp", main = "Histograma de Horas de Trabajo")

##3.d Elabore un dataframe con las medidas de tendencia central, de variabilidad, Q1 ,Q3 y las medidas de forma para la variable IingresoMensual.

##Medidas de tendencia central
media_ingreso <- mean(datos_p$IngresoMensual)
mediana_ingreso <-  median(datos_p$IngresoMensual)
moda_ingreso <- mlv1(datos_p$IngresoMensual)

## Warning: argument 'method' is missing. Data are supposed to be continuous. 
##             Default method 'shorth' is used

df_tc <- data.frame (media_ingreso, mediana_ingreso, moda_ingreso)
kable(df_tc, caption = "Medidas de Tendencia Central")

Medidas de Tendencia Central
media_ingreso	mediana_ingreso	moda_ingreso
1947.96	1911.61	1848.375

##Medidas de variabilidad
rango_ingreso <- max(datos_p$IngresoMensual) -min(datos_p$IngresoMensual)
varianza_ingreso <-  var(datos_p$IngresoMensual)
ds_ingreso <- sqrt(var(datos_p$IngresoMensual))
CV_ingreso <-  (sd(datos_p$IngresoMensual) / mean(datos_p$IngresoMensual))*100

df_v <- data.frame (rango_ingreso, varianza_ingreso, ds_ingreso, CV_ingreso)
kable(df_v, caption = "Medidas de Variabilidad")

Medidas de Variabilidad
rango_ingreso	varianza_ingreso	ds_ingreso	CV_ingreso
5191.3	654443.5	808.9768	41.52943

##Medidas de posición 
percentil_ingreso <- quantile(datos_p$IngresoMensual, 
                              probs = c(0.25, 0.75), type= 6)
percentil_ingreso

##      25%      75% 
## 1481.023 2472.342

#Medidas de Forma
asim_ingreso <- ds_skewness(datos_p$IngresoMensual)
curt_ingreso <- ds_kurtosis(datos_p$IngresoMensual)

df_f <- data.frame (asim_ingreso, curt_ingreso)
kable(df_f, caption = "Medidas de Forma")

Medidas de Forma
asim_ingreso	curt_ingreso
0.1251171	0.9279549

#Resumen
resumen_ingreso <- ds_tidy_stats(datos_p, IngresoMensual)
kable(resumen_ingreso)

vars	min	max	mean	t_mean	median	mode	range	variance	stdev	skew	kurtosis	coeff_var	q1	q3	iqrange
IngresoMensual	-434.51	4756.79	1947.96	1946.122	1911.61	-434.51	5191.3	654443.5	808.9768	0.1251171	0.9279549	41.52943	1492.408	2457.307	964.9

Parcial 1

Sarah Gonzalez y Mariana Ricaurte

2025-08-29