La variable Experiencia es una variable discreta pero debido a su gran cantidad de diferentes años se decidio agruparlos en intervalos, La cual la trabajaremos como una variable continua

1 CARGA DE DATOS

# CARGAR DATOS

datos <- read.csv(
  "Datos Mineros.csv",
  header = TRUE,
  sep = ";",
  dec = ".",
  fileEncoding = "latin1"
)

1.1 CARGA DE LIBRERIAS

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(knitr)
library(gt)

2 EXTRAER VARIABLE

# EXTRAER VARIABLE
Experto_Mina<- as.numeric(datos$MINE_EXPER)

2.1 TABLA DE DISTRIBUCION DE FRECUENCIA

# Crear un histograma para extraer información
histograma <- hist(Experto_Mina,
                   plot = FALSE)
 
# Frecuencia absoluta (ni)
ni <- histograma$counts

# Frecuencia relativa (hi)
hi <- ni / sum(ni) * 100

# Intervalos
intervalos <- paste0(
  "[", round(histograma$breaks[-length(histograma$breaks)], 2),
  ", ",
  round(histograma$breaks[-1], 2),
  ")"
)

# TABLA FINAL
tabla_frecuencias <- data.frame(
  Intervalo = intervalos,
  ni = ni,
  hi = round(hi, 2)
)

# Mostrar la tabla
tabla_frecuencias
##    Intervalo   ni    hi
## 1     [0, 5) 2785 65.48
## 2    [5, 10)  605 14.23
## 3   [10, 15)  348  8.18
## 4   [15, 20)  164  3.86
## 5   [20, 25)   93  2.19
## 6   [25, 30)  113  2.66
## 7   [30, 35)   83  1.95
## 8   [35, 40)   43  1.01
## 9   [40, 45)   16  0.38
## 10  [45, 50)    2  0.05
## 11  [50, 55)    0  0.00
## 12  [55, 60)    1  0.02
# Mejorar la Tabla

tabla_exp_gt <- tabla_frecuencias %>%
  gt() %>%
  tab_header(
    title = md("**Tabla N° 1**"),
    subtitle = md("**Distribución de frecuencias de Expericia en cada mina de Estados Unidos**")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 1")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black",
    row.striping.include_table_body = TRUE
  )

tabla_exp_gt
Tabla N° 1
Distribución de frecuencias de Expericia en cada mina de Estados Unidos
Intervalo ni hi
[0, 5) 2785 65.48
[5, 10) 605 14.23
[10, 15) 348 8.18
[15, 20) 164 3.86
[20, 25) 93 2.19
[25, 30) 113 2.66
[30, 35) 83 1.95
[35, 40) 43 1.01
[40, 45) 16 0.38
[45, 50) 2 0.05
[50, 55) 0 0.00
[55, 60) 1 0.02
Autor: Grupo 1

3 GRÁFICA DE DISTRIBUCIÓN DE PROBABILIDAD

#Gráfica de la variable
histograma<-hist(Experto_Mina,
                 freq = TRUE ,
                 main="Gráfica 1.Distribucion de cantidad de Experiencia Minera en minas 
                 de los Estados Unidos",
                 xlab="Experiencia Minera (Años)",
                 ylab="Cantidad",
                 col="lightblue")

4 CONJETURA DEL MODELO

“Debido a la similitud de las barras asociamos con el modelo de probabilidad exponencial”

#Gráfica de modelo de probabilidad exponencial
hist(Experto_Mina,
     freq = FALSE,
     main = "Gráfica 2. Comparación de la realidad con el modelo exponencial",
     xlab = "Experiencia Minera (Años)",
     ylab = "Densidad de probabilidad",
     col = "lightblue",
     border = "black")

# Parámetros exponenciales
media <- mean(Experto_Mina, na.rm = TRUE)
lambda <- 1 / media

# Secuencia para la curva
x <- seq(
  min(Experto_Mina, na.rm = TRUE),
  max(Experto_Mina, na.rm = TRUE),
  0.01
)

# Curva exponencial
lines(x, dexp(x, lambda),
      col = "black",
      lwd = 2)

# FRECUENCIAS OBSERVADAS
Fo <- histograma$counts
Fo
##  [1] 2785  605  348  164   93  113   83   43   16    2    0    1
# Número de intervalos
h <- length(Fo)
# FRECUENCIAS ESPERADAS
P <- numeric(h)

for (i in 1:h) {
  P[i] <- pexp(histograma$breaks[i + 1], rate = lambda) -
    pexp(histograma$breaks[i], rate = lambda)
}

Fe <- P * length(Experto_Mina)
Fe
##  [1] 2732.6653074 1222.5622372  546.9599295  244.7034231  109.4774262
##  [6]   48.9789096   21.9125866    9.8034329    4.3859403    1.9622180
## [11]    0.8778732    0.3927501

5 TEST DE APROBACIÓN

5.1 TEST DE PEARSON

#Tamaño muestral
n<-length(Experto_Mina)
n
## [1] 4945
#Representar la frecuencia observada y esperada en porcentaje
Fo<-(Fo/n)*100
Fo
##  [1] 56.31951466 12.23458038  7.03741153  3.31648129  1.88068756  2.28513650
##  [7]  1.67846309  0.86956522  0.32355915  0.04044489  0.00000000  0.02022245
Fe<-(Fe/n)*100
Fe
##  [1] 55.261179117 24.723199943 11.060868139  4.948501985  2.213901439
##  [6]  0.990473399  0.443126120  0.198249401  0.088694444  0.039680849
## [11]  0.017752744  0.007942368
#Grafica de correlación 

plot(Fo, Fe,
     main="Gráfica 3: Correlación de frecuencias en el modelo exponencial
     de Experiencia Minera",
     xlab="Frecuencia Observada(%)",
     ylab="Frecuencia esperada(%)",
     col="blue3")

abline(lm(Fe ~ 0 + Fo), col="red", lwd=2)

#Aprueba test de pearson con mas del 80%
Correlación<-cor(Fo,Fe)*100
Correlación
## [1] 97.22623

“APRUEBA EL TEST”

5.2 TEST DE CHI-CUADRADO

#Gardos de libertad
grados_libertad <- (length(histograma$counts)-1)
grados_libertad
## [1] 11
#Nivel de significancia
nivel_significancia <- 0.95
#Formula de chi-cuadrado
x2<-sum((Fe-Fo)^2/Fe)
x2
## [1] 16.44871
#Umbral de aceptación
umbral_aceptacion <- qchisq(nivel_significancia, grados_libertad)
umbral_aceptacion
## [1] 19.67514
#Aprueba test de chi cuadrado con true
x2<umbral_aceptacion
## [1] TRUE

“APRUEBA TEST DE CHI-CUADRADO”

5.3 TABLA DE RESUMEN

Variable <- c("Experiencia minera")

tabla_resumen <- data.frame(
  Variable,
  round(Correlación, 2),
  round(x2, 2),
  round(umbral_aceptacion, 2)
)

colnames(tabla_resumen) <- c(
  "Variable",
  "Test Pearson (%)",
  "Chi Cuadrado",
  "Umbral de aceptación"
)

kable(
  tabla_resumen,
  format = "markdown",
  caption = "Tabla. Resumen de test de bondad al modelo de probabilidad"
)
Tabla. Resumen de test de bondad al modelo de probabilidad
Variable Test Pearson (%) Chi Cuadrado Umbral de aceptación
Experiencia minera 97.23 16.45 19.68

6 CÁLCULO DE PROBABILIDADES

“¿Cuál es la probabilidad de que un trabajador del sector minero en Estados Unidos posea entre 5 y 15 años de experiencia minera?

# Probabilidad entre 5 y 15 años
probabilidad <- pexp(15, rate = lambda) -
  pexp(5, rate = lambda)

# En porcentaje
probabilidad * 100
## [1] 35.78407
# Rango para la curva
x <- seq(min(Experto_Mina, na.rm = TRUE),
         max(Experto_Mina, na.rm = TRUE),
         0.01)

# Curva exponencial
plot(x, dexp(x, lambda),
     col = "skyblue3", lwd = 2, type = "l",
     main = "Gráfica 4. Cálculo de probabilidades del tiempo laborado en la mina actual",
     ylab = "Densidad de probabilidad",
     xlab = "Tiempo laborado en la mina (años)")

# Área de probabilidad (5–15 años)
x_area <- seq(5, 15, 0.01)
y_area <- dexp(x_area, lambda)

# Línea del área
lines(x_area, y_area, col = "red", lwd = 2)

# Área sombreada
polygon(c(x_area, rev(x_area)),
        c(y_area, rep(0, length(y_area))),
        col = rgb(1, 0, 0, 0.5),
        border = NA)

# Leyenda
legend("topright",
       legend = c("Modelo exponencial", "Área de probabilidad"),
       col = c("skyblue3", "red"),
       lwd = 2,
       cex = 0.7)

# Probabilidad
probabilidad <- pexp(15, rate = lambda) -
  pexp(5, rate = lambda)

# Texto de probabilidad
texto_prob <- paste0("Probabilidad = ",
                     round(probabilidad * 100, 2), " %")

text(x = max(x)*0.6,
     y = max(dexp(x, lambda)) * 0.7,
     labels = texto_prob,
     col = "black",
     cex = 0.9,
     font = 2)

“De 200 trabajadores de una mina, cuántos tendrían un tiempo laborado en la mina actual entre 5 y 15 años?”

probabilidad <- pexp(15, rate = lambda) -
  pexp(5, rate = lambda)

# Resultado en porcentaje
probabilidad * 200
## [1] 71.56814

7 INTERVALO DE CONFIANZA

El Intervalo de Confianza nos indica que, aunque las variables individuales no sigan una distribución normal, la distribución de las medias aritméticas de n conjuntos muestrales, sean normal, y por lo tanto, podemos obtener la media poblacional mediante intervalos de confianza

Donde, x es la media aritmética muestral y es el margen de error (desviación estándar poblacional)l)

# Eliminar valores NA
Experto_Mina_limpio <- na.omit(Experto_Mina)
# Media aritmética
x <- mean(Experto_Mina_limpio)
x
## [1] 6.216365
# Desviación estándar poblacional
sigma <- sd(Experto_Mina_limpio)
sigma
## [1] 8.483874
# Tamaño muestral
n <- length(Experto_Mina_limpio)
n
## [1] 4253
# Error estándar
e <- sigma / sqrt(n)
e
## [1] 0.1300908
# Intervalo del 95%
li <- x - 2 * e
li
## [1] 5.956183
ls <- x + 2 * e
ls
## [1] 6.476546
# Tabla resumen
tabla_media <- data.frame(
  round(li, 2),
  "Experiencia minera",
  round(ls, 2),
  round(e, 2)
)

colnames(tabla_media) <- c(
  "Límite inferior",
  "Media poblacional",
  "Límite superior",
  "Desviación estándar poblacional"
)


kable(
  tabla_media,
  format = "markdown",
  caption = "Tabla Nro.3: Media poblacional"
)
Tabla Nro.3: Media poblacional
Límite inferior Media poblacional Límite superior Desviación estándar poblacional
5.96 Experiencia minera 6.48 0.13

8 CONCLUSIÓN

La variable experiencia minera explica a través del modelo exponencial siendo la media aritmética de 6.12 que se encuentra en un intervalo definido por una desviación estandar de 13.

Aplicando el Teorema del Límite Central, se determinó que la media poblacional de la experiencia minera se encuentra entre 5.96 y 6.48 años, con un 95 % de confianza, lo cual indica que el promedio real de experiencia minera de los trabajadores se sitúa dentro de este rango.