Primero se cargan las librerias a usar:
library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library (ggplot2)
library(descriptr)
library(knitr)
library(modeest)
library(fdth)
##
## Adjuntando el paquete: 'fdth'
## The following object is masked from 'package:modeest':
##
## mfv
## The following objects are masked from 'package:stats':
##
## sd, var
library(readxl)
library(plotrix)
##Lo primero es cargar la base de datos del parcial, después tomar una muestra aleatoria de 160 registro de esa base
Base_Estadistica_Descriptiva_1_ <- read_excel("C:/Users/Usuario/Downloads/Base_Estadistica_Descriptiva (1).xlsx")
set.seed(94)
datos_p <- Base_Estadistica_Descriptiva_1_
datos_p <- sample_n(Base_Estadistica_Descriptiva_1_, size = 160, replace = FALSE)
is.data.frame(datos_p)
## [1] TRUE
##1.Determine el porcentaje de hombres que tienen estudios universitarios y muestre cuál es la cantidad total de mujeres participantes.
t1 <- table(datos_p$NivelEducativo, datos_p$Genero)
t1 <- addmargins(t1)
kable(t1)
| Femenino | Masculino | Otro | Sum | |
|---|---|---|---|---|
| Primaria | 7 | 11 | 9 | 27 |
| Secundaria | 17 | 18 | 18 | 53 |
| Técnico | 11 | 16 | 13 | 40 |
| Universitario | 10 | 10 | 20 | 40 |
| Sum | 45 | 55 | 60 | 160 |
#Respuesta: la cantidad total de mujeres participantes es 45 y el porcentaje de hombres que tienen estudios universitarios es del 18,18%
##2.Elabore un diagrama de caja y bigotes para la variable estatura en función del género y analice la gráfica
boxplot(datos_p$Estatura ~ datos_p$Genero, xlab= "Genero", horizontal = TRUE,
ylab = "Estatura", main="Diagrama de caja P2", col=c("lightblue", "blue4", "blue3") )
##3.a Elabore un diagrama de barras para la variable Hermanos y
determine qué cantidad es la más frecuente.
table_Hermanos <- table(datos_p$Hermanos)
barplot(table_Hermanos,col = c("cadetblue", "darkblue", "red", "purple" ),
xlab = "Hermanos",
ylab = "Frecuencia",
main = "Diagrama de Barras para la Variable Hermanos",
ylim = c(0,100),
density=(125),
space = NULL,)
#Respuesta: La frecuencia que mas se repite es un hermano
##3.b Elabore un diagrama de torta en 3D para la variable NivelEducativo.
t2 <- table(datos_p$NivelEducativo, datos_p$Genero)
t2 <- addmargins(t2)
kable(t2)
| Femenino | Masculino | Otro | Sum | |
|---|---|---|---|---|
| Primaria | 7 | 11 | 9 | 27 |
| Secundaria | 17 | 18 | 18 | 53 |
| Técnico | 11 | 16 | 13 | 40 |
| Universitario | 10 | 10 | 20 | 40 |
| Sum | 45 | 55 | 60 | 160 |
frec_NivelEducativo <- c(40, 25, 20, 15)
etiquetas <- c("Universitario", "Técnico", "Primaria", "Secundaria")
pie3D(frec_NivelEducativo, radius=1.1, theta=pi/4,
labels=etiquetas, border="purple",
main="Diagrama de torta en 3D")
##3.c Elabore una tabla de frecuencias, el histograma y el polígono de
frecuencias para la variable HorasDeTrabajo
tabla_HorasDeTrabajo <- fdt(x =datos_p$HorasDeTrabajo,k =10)
kable(tabla_HorasDeTrabajo)
|
|
plot(tabla_HorasDeTrabajo, col=c("red","orange","yellow","blue", "deepskyblue2",
"green","darkgreen", "purple",
"pink", "pink4"),
type = "fh", main = "Histograma de Horas de Trabajo")
plot(tabla_HorasDeTrabajo, col=c("red","orange","yellow","blue", "deepskyblue2",
"green","darkgreen", "purple",
"pink", "pink4"),
type = "fp", main = "Histograma de Horas de Trabajo")
##3.d Elabore un dataframe con las medidas de tendencia central, de variabilidad, Q1 ,Q3 y las medidas de forma para la variable IingresoMensual.
##Medidas de tendencia central
media_ingreso <- mean(datos_p$IngresoMensual)
mediana_ingreso <- median(datos_p$IngresoMensual)
moda_ingreso <- mlv1(datos_p$IngresoMensual)
## Warning: argument 'method' is missing. Data are supposed to be continuous.
## Default method 'shorth' is used
df_tc <- data.frame (media_ingreso, mediana_ingreso, moda_ingreso)
kable(df_tc, caption = "Medidas de Tendencia Central")
| media_ingreso | mediana_ingreso | moda_ingreso |
|---|---|---|
| 1947.96 | 1911.61 | 1848.375 |
##Medidas de variabilidad
rango_ingreso <- max(datos_p$IngresoMensual) -min(datos_p$IngresoMensual)
varianza_ingreso <- var(datos_p$IngresoMensual)
ds_ingreso <- sqrt(var(datos_p$IngresoMensual))
CV_ingreso <- (sd(datos_p$IngresoMensual) / mean(datos_p$IngresoMensual))*100
df_v <- data.frame (rango_ingreso, varianza_ingreso, ds_ingreso, CV_ingreso)
kable(df_v, caption = "Medidas de Variabilidad")
| rango_ingreso | varianza_ingreso | ds_ingreso | CV_ingreso |
|---|---|---|---|
| 5191.3 | 654443.5 | 808.9768 | 41.52943 |
##Medidas de posición
percentil_ingreso <- quantile(datos_p$IngresoMensual,
probs = c(0.25, 0.75), type= 6)
percentil_ingreso
## 25% 75%
## 1481.023 2472.342
#Medidas de Forma
asim_ingreso <- ds_skewness(datos_p$IngresoMensual)
curt_ingreso <- ds_kurtosis(datos_p$IngresoMensual)
df_f <- data.frame (asim_ingreso, curt_ingreso)
kable(df_f, caption = "Medidas de Forma")
| asim_ingreso | curt_ingreso |
|---|---|
| 0.1251171 | 0.9279549 |
#Resumen
resumen_ingreso <- ds_tidy_stats(datos_p, IngresoMensual)
kable(resumen_ingreso)
| vars | min | max | mean | t_mean | median | mode | range | variance | stdev | skew | kurtosis | coeff_var | q1 | q3 | iqrange |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| IngresoMensual | -434.51 | 4756.79 | 1947.96 | 1946.122 | 1911.61 | -434.51 | 5191.3 | 654443.5 | 808.9768 | 0.1251171 | 0.9279549 | 41.52943 | 1492.408 | 2457.307 | 964.9 |