library(readxl) # Cargar la librería para leer archivos Excel
library(ggplot2) # Para graficar
library(dplyr) # Para manipulación de datos
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(purrr) # Para trabajar con listas
library(tidyr) # Para manipulación de datos
La Ley de los Grandes Números establece que, cuando se toma una gran cantidad de observaciones independientes de una misma distribución, el promedio muestral tiende a acercarse al valor esperado teórico de la variable aleatoria.
En este trabajo se analizan dos variables:
Una variable discreta: empresa ubicada o no en la provincia de El Oro. Una variable continua: valor económico empresarial simulado mediante distribución lognormal.
Demostrar empíricamente la Ley de los Grandes Números mediante simulaciones en R, observando cómo el promedio muestral se aproxima al valor esperado cuando aumenta el tamaño de la muestra.
# Ruta del archivo Excel
ruta <- "C:/Users/Personal/OneDrive/Documentos/PRACTICA RSTUDIO/teoria de probabilidades/empresas super de companias.xlsx"
# Leer el archivo Excel
empresas_data <- read_excel(ruta, sheet = "bi_compania")
Vamos a definir una variable discreta que representa si una empresa está ubicada en la provincia de El Oro. Calculamos la probabilidad de que una empresa esté en El Oro y luego simulamos el comportamiento de esa variable.
# Filtrar empresas ubicadas en El Oro
el_oro_data <- empresas_data %>% filter(provincia == "El Oro")
# Calcular la probabilidad de que una empresa esté en El Oro
el_oro_prob <- nrow(el_oro_data) / nrow(empresas_data)
# Imprimir la probabilidad
el_oro_prob
## [1] 0
Simulamos una variable continua (por ejemplo, el valor económico de las empresas) utilizando una distribución lognormal.
# Parámetros de la distribución lognormal
media_log <- 5
desviacion_log <- 1
# Calcular el valor esperado de la distribución lognormal
esperanza_lognormal <- exp(media_log + (desviacion_log^2 / 2))
# Imprimir el valor esperado teórico
esperanza_lognormal
## [1] 244.6919
Simulamos diferentes tamaños de muestra para ambas variables (discreta y continua).
# Tamaños de muestra a simular
n_values <- c(10, 50, 100, 1000, 10000)
# Simulaciones para la variable discreta
simulaciones_discretas <- map_dfr(n_values, function(n) {
resultados <- rbinom(n, 1, el_oro_prob)
data.frame(n = n, promedio = mean(resultados))
})
# Simulaciones para la variable continua
simulaciones_continuas <- map_dfr(n_values, function(n) {
resultados <- rlnorm(n, meanlog = media_log, sdlog = desviacion_log)
data.frame(n = n, promedio = mean(resultados))
})
# Función para generar gráficos para la variable discreta
grafico_discreto <- function(n) {
muestra <- rbinom(n, 1, el_oro_prob) # Generar muestra aleatoria
promedio_acumulado <- cumsum(muestra) / seq_along(muestra) # Promedio acumulado
# Graficar el promedio muestral acumulado
plot(promedio_acumulado, type = "l", lwd = 2,
main = paste("Promedio muestral acumulado - n =", n),
xlab = "Número de observaciones",
ylab = "Promedio muestral",
ylim = c(0, 1))
# Línea de referencia con el valor esperado teórico
abline(h = el_oro_prob, col = "red", lty = 2)
# Graficar el histograma de la muestra aleatoria
hist(muestra, probability = TRUE, breaks = 30,
main = paste("Distribución de la muestra - n =", n),
xlab = "Valor de X", ylab = "Frecuencia relativa")
abline(h = el_oro_prob, col = "red", lwd = 2, lty = 2)
}
# Función para generar gráficos para la variable continua
grafico_continuo <- function(n) {
muestra <- rlnorm(n, meanlog = media_log, sdlog = desviacion_log) # Generar muestra lognormal
promedio_acumulado <- cumsum(muestra) / seq_along(muestra) # Promedio acumulado
# Graficar el promedio muestral acumulado
plot(promedio_acumulado, type = "l", lwd = 2,
main = paste("Promedio muestral acumulado - n =", n),
xlab = "Número de observaciones",
ylab = "Promedio muestral")
# Línea de referencia con el valor esperado teórico
abline(h = esperanza_lognormal, col = "blue", lty = 2)
# Graficar el histograma de la muestra aleatoria
hist(muestra, probability = TRUE, breaks = 30,
main = paste("Distribución de la muestra - n =", n),
xlab = "Valor de Y", ylab = "Densidad")
curve(dlnorm(x, meanlog = media_log, sdlog = desviacion_log), add = TRUE, lwd = 2)
abline(v = esperanza_lognormal, col = "blue", lwd = 2, lty = 2)
}
Cada gráfico muestra el promedio muestral y una línea de referencia con el valor esperado teórico E[X].
grafico_discreto(10) # Gráfico con n = 10
grafico_discreto(50) # Gráfico con n = 50
grafico_discreto(100) # Gráfico con n = 100
#grafico_discreto(1000) # Gráfico con n = 1000
grafico_discreto(10000) # Gráfico con n = 10000
Cada gráfico también muestra el promedio muestral y una línea de referencia con el valor esperado teórico E[Y].
grafico_continuo(10) # Gráfico con n = 10
grafico_continuo(50) # Gráfico con n = 50
grafico_continuo(100) # Gráfico con n = 100
grafico_continuo(1000) # Gráfico con n = 1000
grafico_continuo(10000) # Gráfico con n = 10000
Con muestras pequeñas (n = 10, 50), las fluctuaciones son grandes debido al bajo número de observaciones. A medida que el tamaño de la muestra aumenta (n = 1000, 10000), el promedio muestral se estabiliza y se acerca al valor esperado teórico E[X]=0.3172, que es la proporción de empresas en El Oro.
Con muestras pequeñas, el promedio muestral es influenciado por valores extremos debido a la distribución lognormal.
Con tamaños de muestra grandes (n = 1000, 10000), el promedio muestral converge al valor esperado teórico E[Y]=357.7.
En este trabajo se verificó empíricamente la Ley de los Grandes Números (LGN) utilizando datos de empresas registradas en Ecuador, específicamente de la provincia de El Oro. A través de simulaciones en R, se obtuvieron los siguientes resultados clave:
Se calculó la probabilidad de que una empresa esté en la provincia de El Oro: aproximadamente 2.91%. Esta es la probabilidad teórica (E[X]).
Al realizar simulaciones con diferentes tamaños de muestra (n = 10, 50, 100, 1000, 10000), se observó que:
Se simuló la variable valor económico empresarial con una distribución lognormal, que es adecuada para representar montos económicos en fenómenos como ingresos y activos.
A medida que aumentó el tamaño de la muestra (n = 1000 y n = 10000), se observó que:
Los gráficos generados muestran cómo el promedio muestral se estabiliza a medida que aumenta el tamaño de la muestra:
Según los datos proporcionados por la Superintendencia de Compañías, Valores y Seguros del Ecuador (Supercias) en su informe sobre el ranking de empresas, la probabilidad de que una empresa esté ubicada en la provincia de El Oro es de aproximadamente 2.91%. Los datos se obtuvieron de la siguiente fuente:
Superintendencia de Compañías, Valores y Seguros del Ecuador