En econometría, uno de los supuestos fundamentales del modelo de regresión lineal clásico es la insesgadez del estimador de Mínimos Cuadrados Ordinarios. Este principio establece que el valor esperado del estimador es igual al verdadero parámetro poblacional.
En este trabajo se realiza una simulación en RMarkdown utilizando un loop for para generar 100 muestras aleatorias, estimar en cada una el coeficiente y calcular su promedio. Con ello se busca comprobar empíricamente el cumplimiento del supuesto de insesgadez, eficiencia y consistencia.
En programación, un loop o bucle es una estructura que permite repetir un bloque de instrucciones varias veces de forma automática. En el lenguaje R, los loops se utilizan con frecuencia para ejecutar procesos iterativos, como simulaciones, cálculos repetidos o análisis sobre varios conjuntos de datos.
for: repite un conjunto de instrucciones para cada elemento de una secuencia (por ejemplo, para cada número del 1 al 100).
while: ejecuta un bloque de código mientras una condición lógica se mantenga verdadera.
repeat: repite el código indefinidamente hasta que se cumpla una condición de salida mediante la instrucción break.
set.seed(1)
x <- round(rnorm(1000, 20, 2), 1)
error <- round(rnorm(1000, 0, 0.2), 1)
y <- 50 - (2 * x) + error
datos <- data.frame(y, x)
# Crear vector para guardar los betas (pendientes)
betas <- numeric(100)
# Bucle: cambia la semilla de 1 a 100
for (i in 1:100) {
set.seed(i)
muestra <- datos[sample(nrow(datos), 20), ] # toma muestra aleatoria
modelo <- lm(y ~ x, data = muestra)
betas[i] <- coef(modelo)[2] # guarda la pendiente (beta1)
}
# Calcular el valor esperado (promedio de betas)
media_betas<-mean(betas)
media_betas## [1] -1.999236
## [1] 0.0006047676
El valor verdadero del parámetro en el modelo poblacional es \(\beta_1 = -2\).
Luego de realizar 100 simulaciones (cada una con una muestra aleatoria y su respectiva estimación de \(\hat{\beta}_1\)), se obtuvo un promedio de los estimadores igual a -1.999236.
Este resultado es muy cercano al valor verdadero de -2, lo cual indica que, en promedio,no presenta sesgo. En otras palabras, aunque cada estimación individual de \(\hat{\beta}_1\) puede diferir ligeramente debido al azar de las muestras, el promedio de todas las estimaciones converge al valor real del parámetro.
El valor obtenido para la varianza de los estimadores de \(\hat{\beta}_1\) es
0.0006048, lo que indica que las estimaciones presentan
muy poca dispersión alrededor del valor promedio.
Según el supuesto de eficiencia, el estimador de
Mínimos Cuadrados Ordinarios es el estimador lineal insesgado
con la varianza mínima posible
Por tanto, el resultado obtenido confirma que, además de ser insesgado, el estimador OLS es eficiente, ya que la varianza entre las distintas estimaciones de \(\hat{\beta}_1\) es muy baja.
El supuesto de consistencia establece que, a medida que el tamaño de la muestra aumenta, el estimador \(\hat{\beta}_1\) se aproxima al verdadero valor poblacional \(\beta_1\). En otras palabras, el estimador OLS es consistente si, con más observaciones, el error de estimación tiende a cero.
# Gráfico de dispersión de los betas
hist(betas, main = "Distribución de los Betas", xlab = "Beta estimado", col = "lightblue", border = "white")
abline(v = mean(betas), col = "green", lwd = 2)
# Línea del promedio
abline(v = media_betas, col = "green", lwd = 2)El gráfico muestra la distribución de los valores estimados de \(\hat{\beta}_1\) obtenidos en las 100 simulaciones. Cada barra representa la frecuencia con la que se repiten los valores del coeficiente estimado en los distintos experimentos.
Se observa que la mayoría de los estimadores se concentran alrededor de -2, valor que corresponde al parámetro verdadero del modelo poblacional. La línea verde vertical representa el promedio de los \(\hat{\beta}_1\), el cual se ubica casi exactamente en -2, mostrando que el estimador de Mínimos Cuadrados Ordinarios (OLS) es insesgado.
Además, la forma compacta del histograma indica que la variabilidad de las estimaciones es baja, lo que refleja eficiencia en el estimador. En conjunto, el gráfico confirma de manera visual que el estimador OLS cumple los supuestos de insesgadez y eficiencia, ya que los valores estimados se distribuyen de forma simétrica y concentrada alrededor del valor verdadero de \(\beta_1\).