Permite determinar la mejor relación funcional entre dos o más variables que están relacionadas entre sí. En adición, estudia el grado de asociación de dos o más variables. Una de estas variables es la variable respuesta o dependiente (Y), mientras que la otra es la variable explicativa o independiente (x). Se explica mediante el modelo de regresión lineal simple de: Y = ßo + ß1X + ε, donde “ε” son los errores cometidos en el intento de observar la característica en estudio,“ßo” es el valor de la ordenada de la línea de regresión, ß1 es el coeficiente de de regresión poblacional y “Y” es la proyección. Aquí, la relación funcional entre las variables es una línea recta Un ejemplo que emplee este modelo sería la nota de los estudiantes de un curso (y) con base en la cantidad de horas que se dedicaron a estudiar (x).
Suposiciones de la regresión lineal: Los valores de la variable explicativa son “fijos.” Se desprecia el error de X. Para cada valor de X, hay una subpoblación de Y con una distribución normal. Las varianzas de las subpoblaciones de Y son iguales y están sobre la misma recta. Valores de Y son independientes estadísticamente. En otras palabras, los errores son aleatorios, se distribuyen normalmente con promedio de 0 y varianza de σ².
Estimación de parámetros: se emplea el método de mínimos cuadrados para determinar los valores de bo y b1 de la muestra, son los estimadores, que representan a ßo y ß1, respectivamente. Posteriormente, se obtiene la ecuación: y = bo + b1X, con b1 como coeficiente de regresión. Si este es igual a 0, quiere decir que no existe una relación lineal entre las dos variables (“x” y “y”).
Fuentes de variación en la regresión lineal: son la suma total de cuadrados. Suma de Cuadrados Total: permite calcular la varianza de la muestra. Mide la dispersión (variación total) de los valores de Y. Suma de Cuadrados Explicada por la Regresión: mide la variabilidad total de los valores de “y” en consideración de la relación entre “x” y “y.” Suma de Cuadrados Residual (inexplicada, del error): mide la dispersión de “y” respecto a la recta de regresión de “y.” La varianza en la regresión lineal se analiza con ANVA.
Hipótesis: Hipótesis nula: ß1=0, no existe regresión lineal entre “x” y “y.” Compara el valor de F calculado (Fc) con el valor F tabular (Fo), donde Fc=CMR/CME y Fo=Fα(1,n-2)gl. Si Fc>Fo, se rechaza la hipóteis planteada. Hipótesis alternativa: ß1 ≠ 0, existe regresión lineal entre “x” y “y.” Se utiliza el t de Student, donde tc = (b1-ß10)/Sb1. Si tc > tα se rechaza la hipótesis planteada, donde tα es el valor de la tabla al nivel α y n-2 gl.
Intervalos de confianza:entre qué valores se encuentra ß1 para un cierto grado de confianza. b1 - t0 Sb1 ≤ ß1 ≤ b1 + to Sb1, donde t0 es el valor “t” tabular al nivel de significación α y n-2 grados de libertad ( t0 = tα,n-2).
Mide el nivel de intensidad en el que se asocian dos o más variables. El concepto de correlación está estrechamente vinculado al concepto de regresión, pues, para que una ecuación de regresión sea razonable los puntos muestrales deben estar ceñidos a la ecuación de regresión. El coeficiente de correlación es grande cuando la asociación es alta e independiente de las unidades en que se miden las variables.
Coeficiente de correlación lineal simple (r): indica el grado o intensidad de asociación entre “x” y “y.” Si r = -1, hay una asociación inversa perfecta. Si r = +1, hay una asociación directa perfecta. Si r = 0, no hay asociación entre las variables.
Coeficiente de determinación (R²): mide el porcentaje de variación en “y,” explicada por “x.” Se interpreta como una medida de ajuste de los datos observados y proporciona el porcentaje de la variación total explicada por la regresión. Siempre es positivo. Tambien se puede obtener el R² ajustado, el cual sí puede ser negativo en algunos casos. Se busca que ambos valores sean similares para dar confianza al coeficiente de determinación.