¿Qué Es La Regresión Lineal Simple?

La Regresión Lineal Simple (RLS) es un método estadístico fundamental que se utiliza para modelar la relación lineal entre dos variables continuas. Es una técnica de aprendizaje supervisado.

El modelo de RLS involucra dos tipos de variables:

1) Variable Dependiente (Y): También conocida como variable de respuesta o resultado. Es la variable que queremos predecir o explicar.
2) Variable Independiente (X): También conocida como variable predictora o explicativa. Es la variable que se utiliza para influir o predecir el valor de la variable dependiente.

Objetivo

El objetivo principal de la Regresión Lineal Simple es encontrar la línea recta que mejor se ajusta a los datos, de manera que esta línea pueda usarse para:

✔️ Predecir el valor de Y para un valor dado de X.
✔️ Comprender la fuerza y dirección de la relación entre X y Y.

Ecuación del Modelo

El modelo de regresión lineal simple se representa matemáticamente con la ecuación de una línea recta:

\[Y = \beta _{0} + \beta _{1}X + \varepsilon\]

Donde:

Y: Es el valor de la variable dependiente.
X: Es el valor de la variable independiente.
$\beta_0$ (Intersección o Intercepto): Es el valor esperado de Y cuando X es 0 (donde la línea cruza el eje Y).
$\beta_1$ (Pendiente o Coeficiente de Regresión): Indica cuánto cambia Y por cada unidad de cambio en X. Este valor define la pendiente de la línea.
$\epsilon$ (Término de Error): Representa la diferencia entre el valor real de Y y el valor predicho por el modelo. Incluye todos los factores no observados que afectan Y.

Hipótesis

1.Salario vs. Años de Experiencia

Este modelo predice el salario (Y) basándose en los años de experiencia (X).

El entorno real de esta hipótesis es el mercado laboral y la gestión de recursos humanos. La prueba de si $\mathbf{\beta_1}$ es diferente de cero no es un mero ejercicio académico; es la base para la toma de decisiones económicas y de política corporativa.

Contexto de la Decisión Empresarial y de Política Pública

Política Salarial y Retención de Talento: En la vida real, las empresas utilizan modelos de regresión para asegurar que sus escalas salariales sean justas y competitivas. Si se confirma que $\beta_1$ es significativo y positivo, la empresa sabe que debe establecer una estructura de aumentos anuales que recompense la experiencia. Si una empresa ignora este $\beta_1$ positivo, corre el riesgo de que sus empleados más experimentados (y valiosos) se marchen a la competencia, donde el premio por la antigüedad es mayor.
Negociación Individual: Un empleado no solo observa su sueldo, sino cómo este evoluciona con el tiempo. El valor de $\beta_1$ se convierte en una herramienta de negociación objetiva: al saber que “el mercado paga $X por año de experiencia”, el empleado tiene argumentos sólidos para pedir un aumento que se ajuste a esa tasa.
Análisis de Brechas (Gap Analysis): En el contexto social, los gobiernos y economistas utilizan $\beta_1$ para estudiar si ciertos grupos (minorías, mujeres) reciben un $\beta_1$ diferente. Un $\beta_1$ menor para un grupo específico sugiere una brecha salarial que requiere intervención regulatoria.

library(knitr)
library(kableExtra)

Hipotesis_1 <- data.frame(
  "Años_De_Experiencia(X)" = c("1.1", "3.2", "5.1" , "7.4" , "10.3" , "12.0"),
  "Salario_Anual(Y)" = c("39.34", "55.79", "75.80" , "98.27" , "122.39" , "143.01"),
  stringsAsFactors = FALSE
)

kable(Hipotesis_1, "html", caption = "Datos relacionados:") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    font_size = 20
  )

Datos relacionados:
Años_De_Experiencia.X.	Salario_Anual.Y.
1.1	39.34
3.2	55.79
5.1	75.80
7.4	98.27
10.3	122.39
12.0	143.01

plot(Hipotesis_1,
     xlab = "Años de experiencia",
     ylab = "Salario anual",
     main = "Relación entre años de experiencia & salario anual")

Hipótesis a Contrastar

Hipótesis Nula ($\mathbf{H_0}$): $\mathbf{\beta_1 = 0}$. Los años de experiencia no tienen un efecto lineal en el salario.
Hipótesis Alternativa ($\mathbf{H_1}$): $\mathbf{\beta_1 \ne 0}$. Los años de experiencia sí tienen un efecto lineal en el salario.

Interpretación

Supongamos que el modelo de RLS ajustado nos da la siguiente ecuación:

\[Y = 25.79 + 9.49X\]

$\mathbf{\beta_1 = 9.49}$: La pendiente es positiva. Esto sugiere que por cada año adicional de experiencia (X), el salario aumenta en promedio 9.49 miles de USD (o $9,490).
Decisión sobre $H_0$: Si el análisis estadístico (usando el valor p) resulta en un valor significativo (p-value < 0.05), rechazaríamos $H_0$ y concluiríamos que sí existe una relación lineal positiva entre la experiencia y el salario.

library(knitr)
library(kableExtra)

Hipotesis_1 <- data.frame(
  "Parámetro" = c("P-Valor"),
  "Resultado" = c("2.2 x 10^-16"),
  stringsAsFactors = FALSE
)

kable(Hipotesis_1, "html", caption = "Resultados:") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    font_size = 20
  )

Resultados:
Parámetro	Resultado
P-Valor	2.2 x 10^-16

Este valor es extremadamente alto. Significa que el 94.89% de la variabilidad observada en el Salario (Y) puede ser explicada por el modelo de Regresión Lineal Simple utilizando los Años de Experiencia (X). Solo el 5.11% de la varianza del salario se debe a otros factores o al error no modelado.

library(knitr)
library(kableExtra)

Hipotesis_1 <- data.frame(
  "Parámetro" = c(" $R^2$ Ajustado"),
  "Resultado" = c("0,95 ó 95%"),
  stringsAsFactors = FALSE
)

kable(Hipotesis_1, "html", caption = " $R^2$") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    font_size = 20
  )

$R^2$
Parámetro	Resultado
$R^2$ Ajustado	0,95 ó 95%

2.Consumo Eléctrico vs. Temperatura Media

Este modelo predice el consumo eléctrico ($Y$) basándose en la temperatura media diaria ($X$), asumiendo que el consumo aumenta con el uso de aire acondicionado o calefacción.

El entorno real de esta hipótesis es el de la gestión de infraestructuras energéticas y la planificación de servicios públicos. La prueba de la hipótesis es fundamental para garantizar el suministro y la eficiencia operativa.

Contexto de la Planificación y Gestión de Riesgos

Previsión de Carga (Load Forecasting): En la vida real, las empresas eléctricas (distribuidoras y generadoras) deben predecir con precisión cuánta electricidad se consumirá en las próximas horas, días e incluso semanas. Al confirmar que $\beta_1$ es significativo (especialmente si es alto, indicando gran sensibilidad a la temperatura), la compañía puede usar los pronósticos meteorológicos para activar plantas de generación de respaldo, comprar energía en el mercado mayorista o incluso pedir a grandes industrias que reduzcan temporalmente su consumo.
Evitar Colapsos de Red: La vida real demuestra que si $\beta_1$ es alto y no se gestiona correctamente, una ola de calor puede llevar a picos de demanda masivos (debido al aire acondicionado) que sobrecargan la red eléctrica, causando apagones que afectan a miles de personas. La significación de $\beta_1$ es, por lo tanto, una métrica de riesgo operativo.
Eficiencia de Inversión: Las compañías utilizan el valor de $\beta_1$ para justificar inversiones en infraestructura. Si $\beta_1$ es alto, saben que deben invertir en nuevas subestaciones o almacenamiento de energía en zonas donde la demanda es muy sensible al clima, en lugar de gastar el capital en zonas menos sensibles.

library(knitr)
library(kableExtra)

Hipotesis_2 <- data.frame(
  "Temperatura_Media_Diaria(X)" = c("5", "10", "15" , "20" , "25" , "30"),
  "Consumo_Eléctrico(Y)" = c("18.5", "16.0", "20.2" , "25.5" , "32.1" , "40.8"),
  stringsAsFactors = FALSE
)

kable(Hipotesis_2, "html", caption = "Datos relacionados:") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    font_size = 20
  )

Datos relacionados:
Temperatura_Media_Diaria.X.	Consumo_Eléctrico.Y.
5	18.5
10	16.0
15	20.2
20	25.5
25	32.1
30	40.8

plot(Hipotesis_2,
  xlab = "Temperatura Media Diaria",
  ylab = "Consumo eléctrico",
  main = "Relación entre temperatura y consumo eléctrico")

Hipótesis a contrastar

Hipótesis Nula ($\mathbf{H_0}$): $\mathbf{\beta_1 = 0}$. La temperatura media diaria no está relacionada linealmente con el consumo eléctrico.
Hipótesis Alternativa ($\mathbf{H_1}$): $\mathbf{\beta_1 \ne 0}$. La temperatura media diaria sí está relacionada linealmente con el consumo eléctrico.

Interpretación

Supongamos que el modelo de RLS ajustado nos da la siguiente ecuación:

\[Y = 5.23 + 1.05X\]

$\mathbf{\beta_1 = 1.05}$: La pendiente es positiva. Esto sugiere que por cada aumento de 1°C en la temperatura media diaria (X), el consumo eléctrico aumenta en promedio 1.05 kWh (Y).
Decisión sobre $H_0$: Si el valor p es bajo, rechazaríamos $H_0$. Concluiríamos que existe una relación lineal significativa y positiva entre la temperatura media y el consumo eléctrico, lo cual tiene sentido debido al uso de sistemas de climatización.

library(knitr)
library(kableExtra)

Hipotesis_1 <- data.frame(
  "Parámetro" = c("P-Valor"),
  "Resultado" = c("2.2 x 10^-18"),
  stringsAsFactors = FALSE
)

kable(Hipotesis_1, "html", caption = "Resultados:") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    font_size = 20
  )

Resultados:
Parámetro	Resultado
P-Valor	2.2 x 10^-18

Este valor es muy alto y demuestra una fuerte capacidad predictiva del modelo. Significa que el 86.72% de la variabilidad en el Consumo Eléctrico (Y) puede ser explicada por la Temperatura Media Diaria (X). El 13.28% restante se debe a variables que el modelo no considera (como la hora del día, el día de la semana, o el uso industrial).

library(knitr)
library(kableExtra)

Hipotesis_1 <- data.frame(
  "Parámetro" = c(" $R^2$ Ajustado"),
  "Resultado" = c("0,86 ó 86%"),
  stringsAsFactors = FALSE
)

kable(Hipotesis_1, "html", caption = " $R^2$") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    font_size = 20
  )

$R^2$
Parámetro	Resultado
$R^2$ Ajustado	0,86 ó 86%

Conclusión

Ambos análisis de Regresión Lineal Simple demostraron que las relaciones modeladas son estadísticamente robustas y predictivas, ya que en ambos casos se obtuvo un ajuste excelente (con altos valores de $R^2$ ajustado) y una significancia extrema (p-valores cercanos a cero). Estos resultados permiten rechazar la Hipótesis Nula ($\mathbf{H_0}: \beta_1 = 0$) con alta confianza. En esencia, la prueba valida que la variable independiente elegida tiene un impacto real y cuantificable sobre la variable dependiente, confirmando que la linealidad es un modelo apropiado y altamente útil para la predicción y la toma de decisiones en entornos tan diversos como la gestión de recursos humanos y la planificación de infraestructuras energéticas.

Referencias

Datos Abiertos Colombia. (s/f). la plataforma de datos abiertos del gobierno colombiano. https://www.datos.gov.co/browse?sortBy=newest&utf8=%E2%9C%93&pageSize=20&page=1

Representantes, C. (2020). Integrantes de las Unidades de Trabajo Legislativo (UTL) de los Representantes a la Cámara [Data set] https://www.datos.gov.co/Funci-n-p-blica/Integrantes-de-las-Unidades-de-Trabajo-Legislativo/7w3p-s9ve/about_data

Evaluación del Clima Global en 2024. (2025, enero 9). National Centers for Environmental Information (NCEI) https://www.ncei.noaa.gov/news/clima-global-202413

Mínimos, S., & Ontrato, (C. (s/f). ESCALA M ÍNI MOS DE REMUN ERACIÓN 2024 https://www.fumc.edu.co/documentos/egresados/escala_remuneracion.pdf

Ayuda Epidat. (2014, octubre). Distribuciones de probabilidad. Servicio Galego de Saúde (SERGAS). https://www.sergas.es/Saude-publica/Documents/1899/Ayuda_Epidat_4_Distribuciones_de_probabilidad_Octubre2014.pdf

Regresión Lineal Simple

Esteban Gomez Cruz

2025-11-24

¿Qué Es La Regresión Lineal Simple?

La Regresión Lineal Simple (RLS) es un método estadístico fundamental que se utiliza para modelar la relación lineal entre dos variables continuas. Es una técnica de aprendizaje supervisado.

El modelo de RLS involucra dos tipos de variables:

1) Variable Dependiente (Y): También conocida como variable de respuesta o resultado. Es la variable que queremos predecir o explicar.

2) Variable Independiente (X): También conocida como variable predictora o explicativa. Es la variable que se utiliza para influir o predecir el valor de la variable dependiente.

Objetivo

El objetivo principal de la Regresión Lineal Simple es encontrar la línea recta que mejor se ajusta a los datos, de manera que esta línea pueda usarse para:

Ecuación del Modelo

El modelo de regresión lineal simple se representa matemáticamente con la ecuación de una línea recta:

Donde:

Y: Es el valor de la variable dependiente.

X: Es el valor de la variable independiente.

\(\beta_0\) (Intersección o Intercepto): Es el valor esperado de Y cuando X es 0 (donde la línea cruza el eje Y).

\(\beta_1\) (Pendiente o Coeficiente de Regresión): Indica cuánto cambia Y por cada unidad de cambio en X. Este valor define la pendiente de la línea.

\(\epsilon\) (Término de Error): Representa la diferencia entre el valor real de Y y el valor predicho por el modelo. Incluye todos los factores no observados que afectan Y.

Hipótesis

1.Salario vs. Años de Experiencia

Este modelo predice el salario (Y) basándose en los años de experiencia (X).

El entorno real de esta hipótesis es el mercado laboral y la gestión de recursos humanos. La prueba de si \(\mathbf{\beta_1}\) es diferente de cero no es un mero ejercicio académico; es la base para la toma de decisiones económicas y de política corporativa.

Contexto de la Decisión Empresarial y de Política Pública

Hipótesis a Contrastar

Hipótesis Nula (\(\mathbf{H_0}\)): \(\mathbf{\beta_1 = 0}\). Los años de experiencia no tienen un efecto lineal en el salario.

Hipótesis Alternativa (\(\mathbf{H_1}\)): \(\mathbf{\beta_1 \ne 0}\). Los años de experiencia sí tienen un efecto lineal en el salario.

Interpretación

Supongamos que el modelo de RLS ajustado nos da la siguiente ecuación:

\(\mathbf{\beta_1 = 9.49}\): La pendiente es positiva. Esto sugiere que por cada año adicional de experiencia (X), el salario aumenta en promedio 9.49 miles de USD (o $9,490).

Decisión sobre \(H_0\): Si el análisis estadístico (usando el valor p) resulta en un valor significativo (p-value < 0.05), rechazaríamos \(H_0\) y concluiríamos que sí existe una relación lineal positiva entre la experiencia y el salario.

Este valor es extremadamente alto. Significa que el 94.89% de la variabilidad observada en el Salario (Y) puede ser explicada por el modelo de Regresión Lineal Simple utilizando los Años de Experiencia (X). Solo el 5.11% de la varianza del salario se debe a otros factores o al error no modelado.

2.Consumo Eléctrico vs. Temperatura Media

Este modelo predice el consumo eléctrico (\(Y\)) basándose en la temperatura media diaria (\(X\)), asumiendo que el consumo aumenta con el uso de aire acondicionado o calefacción.

El entorno real de esta hipótesis es el de la gestión de infraestructuras energéticas y la planificación de servicios públicos. La prueba de la hipótesis es fundamental para garantizar el suministro y la eficiencia operativa.

Contexto de la Planificación y Gestión de Riesgos

Hipótesis a contrastar

Hipótesis Nula (\(\mathbf{H_0}\)): \(\mathbf{\beta_1 = 0}\). La temperatura media diaria no está relacionada linealmente con el consumo eléctrico.

Hipótesis Alternativa (\(\mathbf{H_1}\)): \(\mathbf{\beta_1 \ne 0}\). La temperatura media diaria sí está relacionada linealmente con el consumo eléctrico.

Interpretación

Supongamos que el modelo de RLS ajustado nos da la siguiente ecuación:

\(\mathbf{\beta_1 = 1.05}\): La pendiente es positiva. Esto sugiere que por cada aumento de 1°C en la temperatura media diaria (X), el consumo eléctrico aumenta en promedio 1.05 kWh (Y).

Decisión sobre \(H_0\): Si el valor p es bajo, rechazaríamos \(H_0\). Concluiríamos que existe una relación lineal significativa y positiva entre la temperatura media y el consumo eléctrico, lo cual tiene sentido debido al uso de sistemas de climatización.

Conclusión

Referencias

Datos Abiertos Colombia. (s/f). la plataforma de datos abiertos del gobierno colombiano. https://www.datos.gov.co/browse?sortBy=newest&utf8=%E2%9C%93&pageSize=20&page=1

Representantes, C. (2020). Integrantes de las Unidades de Trabajo Legislativo (UTL) de los Representantes a la Cámara [Data set] https://www.datos.gov.co/Funci-n-p-blica/Integrantes-de-las-Unidades-de-Trabajo-Legislativo/7w3p-s9ve/about_data

Evaluación del Clima Global en 2024. (2025, enero 9). National Centers for Environmental Information (NCEI) https://www.ncei.noaa.gov/news/clima-global-202413

Mínimos, S., & Ontrato, (C. (s/f). ESCALA M ÍNI MOS DE REMUN ERACIÓN 2024 https://www.fumc.edu.co/documentos/egresados/escala_remuneracion.pdf

Ayuda Epidat. (2014, octubre). Distribuciones de probabilidad. Servicio Galego de Saúde (SERGAS). https://www.sergas.es/Saude-publica/Documents/1899/Ayuda_Epidat_4_Distribuciones_de_probabilidad_Octubre2014.pdf