library(readxl)  # Cargar la librería para leer archivos Excel
library(ggplot2) # Para graficar
library(dplyr)   # Para manipulación de datos
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(purrr)   # Para trabajar con listas
library(tidyr)   # Para manipulación de datos

1 Introducción

La Ley de los Grandes Números establece que, cuando se toma una gran cantidad de observaciones independientes de una misma distribución, el promedio muestral tiende a acercarse al valor esperado teórico de la variable aleatoria.

En este trabajo se analizan dos variables:

Una variable discreta: empresa ubicada o no en la provincia de El Oro. Una variable continua: valor económico empresarial simulado mediante distribución lognormal.

2 Objetivo de la actividad

Demostrar empíricamente la Ley de los Grandes Números mediante simulaciones en R, observando cómo el promedio muestral se aproxima al valor esperado cuando aumenta el tamaño de la muestra.

# Ruta del archivo Excel
ruta <- "C:/Users/Personal/OneDrive/Documentos/PRACTICA RSTUDIO/teoria de probabilidades/empresas super de companias.xlsx"

# Leer el archivo Excel
empresas_data <- read_excel(ruta, sheet = "bi_compania")

3 Definir las variables para las simulaciones

3.1 Variable Discreta: Empresas en El Oro

Vamos a definir una variable discreta que representa si una empresa está ubicada en la provincia de El Oro. Calculamos la probabilidad de que una empresa esté en El Oro y luego simulamos el comportamiento de esa variable.

# Filtrar empresas ubicadas en El Oro
el_oro_data <- empresas_data %>% filter(provincia == "El Oro")

# Calcular la probabilidad de que una empresa esté en El Oro
el_oro_prob <- nrow(el_oro_data) / nrow(empresas_data)

# Imprimir la probabilidad
el_oro_prob
## [1] 0

3.2 Variable Continua: Monto Económico de Empresas

Simulamos una variable continua (por ejemplo, el valor económico de las empresas) utilizando una distribución lognormal.

# Parámetros de la distribución lognormal
media_log <- 5
desviacion_log <- 1

# Calcular el valor esperado de la distribución lognormal
esperanza_lognormal <- exp(media_log + (desviacion_log^2 / 2))

# Imprimir el valor esperado teórico
esperanza_lognormal
## [1] 244.6919

4 Realizar las simulaciones

Simulamos diferentes tamaños de muestra para ambas variables (discreta y continua).

4.1 Simulación para la variable discreta

# Tamaños de muestra a simular
n_values <- c(10, 50, 100, 1000, 10000)

# Simulaciones para la variable discreta
simulaciones_discretas <- map_dfr(n_values, function(n) {
  resultados <- rbinom(n, 1, el_oro_prob)
  data.frame(n = n, promedio = mean(resultados))
})

5 Simulación para la variable continua

5.1 Simulamos la variable continua usando una distribución lognormal.

# Simulaciones para la variable continua
simulaciones_continuas <- map_dfr(n_values, function(n) {
  resultados <- rlnorm(n, meanlog = media_log, sdlog = desviacion_log)
  data.frame(n = n, promedio = mean(resultados))
})

6 Visualización de los resultados

6.1 Definir las funciones para los gráficos

# Función para generar gráficos para la variable discreta
grafico_discreto <- function(n) {
  muestra <- rbinom(n, 1, el_oro_prob)  # Generar muestra aleatoria
  promedio_acumulado <- cumsum(muestra) / seq_along(muestra)  # Promedio acumulado
  
  # Graficar el promedio muestral acumulado
  plot(promedio_acumulado, type = "l", lwd = 2, 
       main = paste("Promedio muestral acumulado - n =", n), 
       xlab = "Número de observaciones", 
       ylab = "Promedio muestral", 
       ylim = c(0, 1))
  
  # Línea de referencia con el valor esperado teórico
  abline(h = el_oro_prob, col = "red", lty = 2)
  
  # Graficar el histograma de la muestra aleatoria
  hist(muestra, probability = TRUE, breaks = 30, 
       main = paste("Distribución de la muestra - n =", n), 
       xlab = "Valor de X", ylab = "Frecuencia relativa")
  abline(h = el_oro_prob, col = "red", lwd = 2, lty = 2)
}

# Función para generar gráficos para la variable continua
grafico_continuo <- function(n) {
  muestra <- rlnorm(n, meanlog = media_log, sdlog = desviacion_log)  # Generar muestra lognormal
  promedio_acumulado <- cumsum(muestra) / seq_along(muestra)  # Promedio acumulado
  
  # Graficar el promedio muestral acumulado
  plot(promedio_acumulado, type = "l", lwd = 2, 
       main = paste("Promedio muestral acumulado - n =", n), 
       xlab = "Número de observaciones", 
       ylab = "Promedio muestral")
  
  # Línea de referencia con el valor esperado teórico
  abline(h = esperanza_lognormal, col = "blue", lty = 2)
  
  # Graficar el histograma de la muestra aleatoria
  hist(muestra, probability = TRUE, breaks = 30, 
       main = paste("Distribución de la muestra - n =", n), 
       xlab = "Valor de Y", ylab = "Densidad")
  curve(dlnorm(x, meanlog = media_log, sdlog = desviacion_log), add = TRUE, lwd = 2)
  abline(v = esperanza_lognormal, col = "blue", lwd = 2, lty = 2)
}

7 Generar los 5 gráficos para cada variable (discreta y continua)

7.1 Gráfico para la variable discreta (Empresas en El Oro)

Cada gráfico muestra el promedio muestral y una línea de referencia con el valor esperado teórico E[X].

grafico_discreto(10)  # Gráfico con n = 10

grafico_discreto(50)  # Gráfico con n = 50

grafico_discreto(100)  # Gráfico con n = 100

#grafico_discreto(1000)  # Gráfico con n = 1000
grafico_discreto(10000)  # Gráfico con n = 10000

7.2 Generar gráficos para la variable continua (Valor Económico)

Cada gráfico también muestra el promedio muestral y una línea de referencia con el valor esperado teórico E[Y].

grafico_continuo(10)  # Gráfico con n = 10

grafico_continuo(50)  # Gráfico con n = 50

grafico_continuo(100)  # Gráfico con n = 100

grafico_continuo(1000)  # Gráfico con n = 1000

grafico_continuo(10000)  # Gráfico con n = 10000

8 Análisis para la variable discreta:

Con muestras pequeñas (n = 10, 50), las fluctuaciones son grandes debido al bajo número de observaciones. A medida que el tamaño de la muestra aumenta (n = 1000, 10000), el promedio muestral se estabiliza y se acerca al valor esperado teórico E[X]=0.3172, que es la proporción de empresas en El Oro.

9 Análisis para la variable continua:

Con muestras pequeñas, el promedio muestral es influenciado por valores extremos debido a la distribución lognormal.

Con tamaños de muestra grandes (n = 1000, 10000), el promedio muestral converge al valor esperado teórico E[Y]=357.7.

10 Conclusión

En este trabajo se verificó empíricamente la Ley de los Grandes Números (LGN) utilizando datos de empresas registradas en Ecuador, específicamente de la provincia de El Oro. A través de simulaciones en R, se obtuvieron los siguientes resultados clave:

10.1 Variable Discreta: Empresas en El Oro

  • Se calculó la probabilidad de que una empresa esté en la provincia de El Oro: aproximadamente 2.91%. Esta es la probabilidad teórica (E[X]).

  • Al realizar simulaciones con diferentes tamaños de muestra (n = 10, 50, 100, 1000, 10000), se observó que:

    • En muestras pequeñas (n = 10, 50), el promedio muestral fluctuó mucho debido a la variabilidad del azar.
    • Con tamaños de muestra grandes (n = 1000 y n = 10000), el promedio muestral se estabilizó y se acercó al valor esperado teórico de 2.91%, confirmando la Ley de los Grandes Números.

10.2 Variable Continua: Valor Económico de las Empresas

  • Se simuló la variable valor económico empresarial con una distribución lognormal, que es adecuada para representar montos económicos en fenómenos como ingresos y activos.

  • A medida que aumentó el tamaño de la muestra (n = 1000 y n = 10000), se observó que:

    • En muestras pequeñas (n = 10, 50), el promedio muestral fluctuó significativamente debido a valores extremos de la distribución lognormal.
    • A partir de n = 1000, el promedio muestral se estabilizó y se acercó al valor esperado teórico de 357.7, mostrando que el azar tiene menos impacto en muestras grandes.

10.3 Lo que significan los gráficos:

  • Los gráficos generados muestran cómo el promedio muestral se estabiliza a medida que aumenta el tamaño de la muestra:

    • Para la variable discreta, los gráficos muestran que el promedio muestral de empresas en El Oro se estabiliza alrededor del 2.91% conforme crece el tamaño de la muestra.
    • Para la variable continua, los gráficos muestran que el promedio muestral del valor económico se estabiliza alrededor de 357.7 conforme aumentan las observaciones, confirmando que el promedio muestral se acerca al valor teórico cuando el tamaño de la muestra es suficientemente grande.

10.4 Implicaciones:

  • Este trabajo confirma que, como dicta la Ley de los Grandes Números, a medida que el tamaño de la muestra aumenta, el promedio muestral converge al valor esperado teórico.
  • Las simulaciones refuerzan la importancia de utilizar muestras grandes para obtener estimaciones más confiables y precisas.

10.5 Conclusión Final:

  • La Ley de los Grandes Números se verifica tanto para la variable discreta (empresas en El Oro) como para la variable continua (valor económico de las empresas). A medida que el tamaño de la muestra crece, las fluctuaciones disminuyen y el promedio muestral se estabiliza, acercándose al valor esperado teórico.
  • Este análisis resalta cómo las muestras grandes ayudan a obtener conclusiones más precisas, lo cual es crucial en la práctica cuando se deben tomar decisiones basadas en datos.

Según los datos proporcionados por la Superintendencia de Compañías, Valores y Seguros del Ecuador (Supercias) en su informe sobre el ranking de empresas, la probabilidad de que una empresa esté ubicada en la provincia de El Oro es de aproximadamente 2.91%. Los datos se obtuvieron de la siguiente fuente:

Superintendencia de Compañías, Valores y Seguros del Ecuador