Dentro de las regresiones, es el caso mas sencillo, ya que la función que relaciona X e Y es una linea recta:
\[ Y=a+bX \]
a es la ordenada en el origen; es decir, la altura a la que la recta corta el eje Y
b es la inclinacion o pendiente de la recta; es decir, el aumento que se produce en Y cuando X aumenta en una unidad. Tambien se le conoce como coeficiente de regresión.
En primer lugar representamos una variable de puntos (xi,yi) de las dos variables aleatorias X e Y
¿Que condiciones debe de cumplir la mejor recta?
Las distancias verticales (ei) se llaman errores o residuos
Entonces el criterio de minimos cuadrados puede expresarse de la siguiente manera:
\[ D=\sum_{i=1}^n e_i \]
Para que la recta sea la linea media de los puntos, la suma de las distancias debe anularse. Con el fin de evaluar la dispersión, se trabaja con dichas distancias elevadas al cuadrado, por lo que la función que hay que minizar finalmente, es:
\[D=\sum_{i=1}^{n} e_{i}^{2}=\sum_{i=1}^{n}\left(y_{i}-y_{i}^{*}\right)^{2}=\sum_{i=1}^{n}\left(y_{i}-a-b x_{i}\right)^{2}\]
Donde yi* son los valores estimados mediante el modelo \(Y=a+bX\)
En la expresión anterior todo es conocido, menos a y b. Para encontrar esos valores Hay que calcular las derivadas parciales respecto de D con respecto a y b, igualarlas a 0 y resolver . Es decir, el problema de mínimos:
\[\frac{\partial \mathrm{D}}{\partial \mathrm{a}}-2 \sum_{\mathrm{i}=1}^{n}\left(\mathrm{y}_{1}-\mathrm{a}-\mathrm{b \textrm {x } _ { 1 }}\right)(-1)=0\]
\[\frac{\partial \mathrm{D}}{\partial \mathrm{b}}=2 \sum_{\mathrm{i}=1}^{n}\left(\mathrm{y}_{1}-\mathrm{a}-\mathrm{bx_{1 }}\right)\left(-\mathrm{x}_{1}\right)=0\]
Reorganizando las ecuaciones se obtienen las siguientes:
\[\sum_{1=1}^{n}\left(y_{i}-a-b x_{1}\right)=0\]
\[\sum_{i=1}^{n}\left(y_{i}-a-b x_{i}\right)\left(x_{i}\right)=0\]
Operando y reorganizando de nuevo, se obtienen las ecuaciones normales de Gauss:
\[n a+b \sum_{i=1}^{n} x_{i}=\sum_{i=1}^{n} y_{i}\]
\[a \sum_{i=1}^{n} x_{i}+b \sum_{i=1}^{n} x_{i}^{2}=\sum_{i=1}^{n} x_{i} y_{i}\]
Resolviendo el sistema se obtienen las expresiones para a y b:
\[a=\bar{y}-b \bar{x}\] \[b=\frac{S_{X Y}}{s_{X}^{2}}\]
En el numerador de b aparece la covarianza, y en el denominador aparece la varianza de la variable independiente. Por eso, el signo de b es igual al de la covarianza, es decir:
Si \(b>0\), existe relación directa entre las variables
Si \(b<0\), existe relación inversa entre las variables.
Una vez conocidos los valores de a y b, se puede utilizar la ecuación del modelo para predecir un valor yi a partir de un valor xi:
\[ Yi=a +bxi \]