Taller Loops en R

1 Introducción

En econometría, uno de los supuestos fundamentales del modelo de regresión lineal clásico es la insesgadez del estimador de Mínimos Cuadrados Ordinarios. Este principio establece que el valor esperado del estimador es igual al verdadero parámetro poblacional.

En este trabajo se realiza una simulación en RMarkdown utilizando un loop for para generar 100 muestras aleatorias, estimar en cada una el coeficiente y calcular su promedio. Con ello se busca comprobar empíricamente el cumplimiento del supuesto de insesgadez, eficiencia y consistencia.

2 Definición de los loops

En programación, un loop o bucle es una estructura que permite repetir un bloque de instrucciones varias veces de forma automática. En el lenguaje R, los loops se utilizan con frecuencia para ejecutar procesos iterativos, como simulaciones, cálculos repetidos o análisis sobre varios conjuntos de datos.

3 Tipos de loops

for: repite un conjunto de instrucciones para cada elemento de una secuencia (por ejemplo, para cada número del 1 al 100).

while: ejecuta un bloque de código mientras una condición lógica se mantenga verdadera.

repeat: repite el código indefinidamente hasta que se cumpla una condición de salida mediante la instrucción break.

4 Simulación con 100 muestras aleatorias

set.seed(1)
x <- round(rnorm(1000, 20, 2), 1)
error <- round(rnorm(1000, 0, 0.2), 1)
y <- 50 - (2 * x) + error
datos <- data.frame(y, x)

# Crear vector para guardar los betas (pendientes)
betas <- numeric(100)

# Bucle: cambia la semilla de 1 a 100
for (i in 1:100) {
  
  set.seed(i)
  
  muestra <- datos[sample(nrow(datos), 20), ] # toma muestra aleatoria
  
  modelo <- lm(y ~ x, data = muestra)
  
  betas[i] <- coef(modelo)[2]  # guarda la pendiente (beta1)
  
}

# Calcular el valor esperado (promedio de betas)

media_betas<-mean(betas)
media_betas

## [1] -1.999236

# Calcular la varianza (eficiencia)

varianza_betas<- var(betas)
varianza_betas

## [1] 0.0006047676

4.1 Interpretación

4.1.1 Supuesto de insesgadez

El valor verdadero del parámetro en el modelo poblacional es \(\beta_1 = -2\).

Luego de realizar 100 simulaciones (cada una con una muestra aleatoria y su respectiva estimación de \(\hat{\beta}_1\)), se obtuvo un promedio de los estimadores igual a -1.999236.

Este resultado es muy cercano al valor verdadero de -2, lo cual indica que, en promedio,no presenta sesgo. En otras palabras, aunque cada estimación individual de \(\hat{\beta}_1\) puede diferir ligeramente debido al azar de las muestras, el promedio de todas las estimaciones converge al valor real del parámetro.

4.1.2 Supuesto de eficiencia

El valor obtenido para la varianza de los estimadores de \(\hat{\beta}_1\) es 0.0006048, lo que indica que las estimaciones presentan muy poca dispersión alrededor del valor promedio.
Según el supuesto de eficiencia, el estimador de Mínimos Cuadrados Ordinarios es el estimador lineal insesgado con la varianza mínima posible

Por tanto, el resultado obtenido confirma que, además de ser insesgado, el estimador OLS es eficiente, ya que la varianza entre las distintas estimaciones de \(\hat{\beta}_1\) es muy baja.

4.1.3 Supuesto de consistencia

El supuesto de consistencia establece que, a medida que el tamaño de la muestra aumenta, el estimador \(\hat{\beta}_1\) se aproxima al verdadero valor poblacional \(\beta_1\). En otras palabras, el estimador OLS es consistente si, con más observaciones, el error de estimación tiende a cero.

5 Gráfico

# Gráfico de dispersión de los betas

hist(betas, main = "Distribución de los Betas", xlab = "Beta estimado", col = "lightblue", border = "white")

abline(v = mean(betas), col = "green", lwd = 2)

# Línea del promedio

abline(v = media_betas, col = "green", lwd = 2)

5.1 Interpretación del gráfico

El gráfico muestra la distribución de los valores estimados de \(\hat{\beta}_1\) obtenidos en las 100 simulaciones. Cada barra representa la frecuencia con la que se repiten los valores del coeficiente estimado en los distintos experimentos.

Se observa que la mayoría de los estimadores se concentran alrededor de -2, valor que corresponde al parámetro verdadero del modelo poblacional. La línea verde vertical representa el promedio de los \(\hat{\beta}_1\), el cual se ubica casi exactamente en -2, mostrando que el estimador de Mínimos Cuadrados Ordinarios (OLS) es insesgado.

Además, la forma compacta del histograma indica que la variabilidad de las estimaciones es baja, lo que refleja eficiencia en el estimador. En conjunto, el gráfico confirma de manera visual que el estimador OLS cumple los supuestos de insesgadez y eficiencia, ya que los valores estimados se distribuyen de forma simétrica y concentrada alrededor del valor verdadero de \(\beta_1\).