1 Introducción

El análisis de regresión tiene como objetivo modelar de forma matemática el comportamiento de una variable de respuesta en función de una o más variables independientes (factores). Por ejemplo, suponga que el rendimiento de un proceso químico está relacionado con la temperatura de operación. Si mediante el modelo matemático es posible describir tal relación, entonces este modelo puede usarse para propósitos de predicción, optimización o control.
Para estimar los parámetros de un modelo de regresión son necesarios los datos, los cuales pueden obtenerse de experimentos planeados, de observaciones de fenómenos no controlados o de registros históricos(Pulido & Vara Salazar, 2012).

2 Regresión Lineal Simple

Sean dos variables \(X\) y \(Y\), suponga que se quiere explicar el comportamiento de \(Y\) con base en los valores que toma \(X\). Para esto, se mide el valor de \(Y\) sobre un conjunto de \(n\) valores de \(X\), con lo que se obtienen \(n\) parejas o pares ordenados de puntos \((x_1,y_1),(x_2,y_2),...,(x_n,y_n)\). A \(Y\) se le llama la variable dependiente o la variable de respuesta y a \(X\) se le conoce como la variable independiente o la variable regresora. La variable \(X\) no necesariamente es aleatoria, ya que en muchas ocasiones el investigador fija sus valores; en cambio, \(Y\) sí es una variable aleatoria. Una manera de estudia r el comportamiento de \(Y\) con respecto a \(X\) es mediante un modelo de regresión que consiste en ajustar un modelo de la forma:
\[Y=f(X)\] a las \(n\) parejas de puntos. Con ello, se puede ver si dado un valor de la variable independiente \(X\) es posible predecir el valor promedio de \(Y\)(Pulido & Vara Salazar, 2012).
El supuesto fundamental de este análisis en particular es que las variables \(Y\) y \(X\) están relacionadas mediante un modelo lineal de la forma:
\[Y={\beta_0}+{\beta_1}X+{\varepsilon}\] donde \(\varepsilon\) es un error aleatorio con media cero y varianza \({\sigma^2}\),\({\beta_0}\) y \({\beta_1}\) son los parámetros del modelo, los cuales son constantes que es necesario estimar. También suponga que los errores aleatorios no están correlacionados. La ecuación anterior entonces es conocida como Ecuación de Regresión Lineal Simple. Bajo el supuesto de que este modelo es adecuado y como el valor esperado del error es cero, se puede ver que el valor esperado de la variable \(Y\), para cada valor de \(X\), está dado por una línea recta que tiene la siguiente ecuación:
\[E(Y|X)={\beta_0}+{\beta_1}X\] para tener bien especificada la ecuación que relaciona las dos variables será necesario estimar los dos parámetros, que tienen el siguiente significado:

  • \({\beta_0}\) es el punto en el cual la línea recta intercepta el eje y, es decir, la ordenada al origen.
  • \({\beta_1}\) es la pendiente de la recta, es decir, la cantidad que incrementa o decrementa la variable \(Y\) para cada unidad de cambio de \(X\).

La estimación de los parámetros de la recta de regresión se hace mediante la técnica de Mínimos Cuadrados, la cual no se desarrollará en este documento, dado que el objetivo del mismo es la comprensión de los conceptos estadísticos implícitos en él, para poder ver el procedimiento de estimación de los parámetros se recomienda ver el siguiente enlace:

Ver enlace

para efectos de este documento, dividiremos el análisis de regresión lineal simple en tres etapas, a saber:

  • Pruebas de hipótesis, intervalos de confianza y calidad de ajuste del modelo.
  • Análisis de Varianza.
  • Pruebas de Adecuación.

Esto con el objetivo de darle al análisis un enfoque práctico sin perder de vista la fundamentación teórica.

3 Análisis de Regresión Lineal Simple

3.1 Pruebas de hipótesis, intervalos de confianza y calidad de ajuste del modelo

3.1.1 Pruebas de hipótesis

En cualquier análisis de Regresión Lineal Simple (RLS) no basta con estimar adecuadamente los parámetros de la recta de regresión, si no que además resulta necesario realizar los cálculos estadísticos que acompañan a una estimación, como lo son las pruebas de hipótesis y los intervalos de confianza para evaluar qué tan bien el modelo explica la relación entre \(X\) y \(Y\). Una primera forma de evaluar esta relación es probar una serie de hipótesis sobre los parámetros del modelo. Para ello, supondremos que el el error \({\varepsilon}\) se ditribuye en forma normal, independiente, con media cero y varianza constante \({\sigma^2}\).
Por lo general, la hipótesis de mayor interés plantea que la pendiente es significativamente diferente de cero, esto se logra al probar la siguiente hipótesis:
\[{H_0}:~{\beta_1}=0\] \[{H_1}:~{\beta_1}{\neq}~0\] Si la hipótesis nula es verdadera, el siguiente estadístico:
\[{t_0}={\frac{\widehat{\beta}_1}{\sqrt{{CM_E}/{S_{xx}}}}}\] donde: \[{\widehat{\beta}_1}={\frac{S_{xy}}{S_{xx}}}\] \[{CM_E}={\frac{SC_E}{n-2}}\] \[{SC_E}={\sum_{i=1}^{n}{({y_i}-[{\widehat{\beta}_0}+{\widehat{\beta}_1}{x_i}])^2}}\] \[{S_{xy}}={\sum_{i=1}^{n}}{x_i}{y_i}-{\frac{(\sum_{i=1}^{n}{x_i})(\sum_{i=1}^{n}{y_i})}{n}}\] \[{S_{xx}}={\sum_{i=1}^{n}}{x_i^2}-{\frac{(\sum_{i=1}^{n}{x_i})^2}{n}}\]

Para realizar interpretar la prueba de hipótesis utilizaremos el método del \(valor_p\), en donde dicho valor es la probabilidad del estadístico de prueba, es decir, \(P(t_0)\), el cual tiene una distribución t-Student con \(n-2\) grados de libertad, para el cual utilizaremos la siguiente tabla de referencia tomada de el documento de Matthias Vallentin (Vallentin, 2011):

Tabla 1. Niveles para \(Valor-p\)
Valor_p Evidencia estadística
\(Valor-p< 0.01\) Evidencia muy fuerte en contra de \(H_0\)
\(0.01~{\leq}~Valor-p~<~0.05\) Evidencia fuerte en contra de \(H_0\)
\(0.05~{\leq}~Valor-p~<~0.1\) Evidencia débil en contra de \(H_0\)
\(Valor-p~{\geq}~0.1\) Poca o ninguna evidencia en contra de \(H_0\)

En este caso, se da la oportunidad al decisor de establecer el grado de incertidumbre con que se realiza el rechazo o la aceptación, de acuerdo a la evidencia estadística presentada por los datos. En el caso de que el decisor rechace la hipótesis nula, la interpretación deberá ser que la pendiente de la recta es estadísticamente diferente de cero, lo que implica que los cambios en la variable independiente \(X\) provocan cambios significativos en la variable dependiente \(Y\). Caso contrario, si se decide aceptar la hipótesis nula se deberá interpretar que los valores de la variable \(Y\) se mueven en una banda horizontal, comportandose como una función constante, lo que lleva a concluir que los valores de la variable \(X\) no tienen efectos significativos sobre la variable dependiente \(Y\).
En ocasiones, en lugar de probar que \({\beta_1}=0\) puede ser de interés probar que es igual a cierta constante \(c\), en este caso, la adaptación del estadístico t-Student quedaría definida de la siguiente manera:
\[{t_0}={\frac{\widehat{\beta}_1-c}{\sqrt{{CM_E}/{S_{xx}}}}}\] en este caso, las hipótesis a probar se escriben de la siguiente forma:

\[{H_0}:~{\beta_1}=c\] \[{H_1}:~{\beta_1}{\neq}~c\] Por otro lado, con respecto al parámetro \({\beta_0}\), suele ser de interés probar la siguiente hipótesis:
\[{H_0}:~{\beta_0}=0\] \[{H_1}:~{\beta_0}~{\neq}~0\] Si la hipótesis nula es verdadera, el siguiente estadístico:
\[{t_0}={\frac{\widehat{\beta}_0}{\sqrt{{CM_E}[\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}]}}}\] tiene una distribución t-Student con \(n-2\) grados de libertad, para tomar la decisión de la aceptación o rechazo, tomaremos de referencia los niveles de la Tabla 1.
La aceptación de \(H_0\) indica que el punto de corte de la recta al eje de las ordenadas pasa por el origen, es decir, por la coordenada \((0,0)\), caso contrario, el rechazo de \(H_0\) implica que el punto de corte de la recta pasa por cualquier otro punto. en ocasiones también es conveniente probar la hipótesis de que:
\[{H_0}:~{\beta_0}=c\] \[{H_0}:~{\beta_0}~{\neq}~c\] para lo cual, el estadístico de prueba se reecribe de la siguiente manera:
\[{t_0}={\frac{\widehat{\beta}_0-c}{\sqrt{{CM_E}[\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}]}}}\]

3.1.2 Estimación por intervalo

Dada la estrecha relación entre las pruebas de hipótesis y los intervalos de confianza, no resulta dificil establecer que, me manera natural, haciendo los despejes adecuados y fijando un nivel \({\alpha}\) de significancia, se pueden escribir de manera sencilla dichos intervalos, de la siguiente manera:

3.1.2.1 Intervalo de confianza de (1-\(\alpha\))*100 % para la ordenada al origen

\[P[{{\widehat{\beta}_0}-{t_{\alpha/2}}{\sqrt{{\sigma^2}[\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}]}}~{\leq}~{\beta_0}~{\leq}~{\widehat{\beta}_0}+{t_{\alpha/2}}{\sqrt{{\sigma^2}[\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}]}}}]= (1-\alpha)100{\%}\]

3.1.2.2 Intervalo de confianza de (1-\(\alpha\))*100 % para la pendiente

\[P[{{\widehat{\beta}_1}-{t_{\alpha/2}}{\sqrt{{\frac{\widehat{\sigma}^2}{S_{xx}}}}}~{\leq}~{\beta_1}~{\leq}~{\widehat{\beta}_1}+{t_{\alpha/2}}}{\sqrt{\frac{\widehat{\sigma}^2}{S_{xx}}}}] = (1-\alpha)100{\%}\]

3.1.2.3 Intervalo de confianza de (1-\(\alpha\))*100 % para la respuesta media

\[P[{\widehat{\mu}_{Y|x_0}}-{{t_{\alpha/2}}{\sqrt{{\widehat{\sigma}^2}[\frac{1}{n}+\frac{(x_0-\bar{x})^2}{S_{xx}}]}}}~{\leq}~{\mu_{Y|x_0}}~{\leq}~{{\widehat{\mu}_{Y|x_0}}+{{t_{\alpha/2}}{\sqrt{{\widehat{\sigma}^2}[\frac{1}{n}+\frac{(x_0-\bar{x})^2}{S_{xx}}]}}}}]=(1-\alpha)100\%\]

3.1.2.4 Intervalo de confianza de (1-\(\alpha\))*100 % para una observación futura \(y_0\) para el valor \(x_0\)

\[P[{\widehat{y}_0-{t_{\alpha/2}}{\sqrt{{\widehat{\sigma}^2}[1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{S_{xx}}]}}}~{\leq}~{y_0}~{\leq}~{\widehat{y}_0+{t_{\alpha/2}}{\sqrt{{\widehat{\sigma}^2}[1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{S_{xx}}]}}}]=(1-\alpha)100\%\]

3.1.3 Calidad del ajuste del modelo

Las ecuaciones descritas anteriormente sólo nos permiten verificar la significación de los coeficientes de regresión y estimarlos con cierto nivel de confianza, sin embargo, aún no tenemos una medida específica que nos permita estimar cuál es la calidad del ajuste de los datos al modelo matemático propuesto. Para este fin, se utilizarán dos medidas, a saber:

  • Coeficiente de correlación
  • Coeficiente de determinación

A continuación se describe a detalle cada uno de ellos.

3.1.3.1 Coeficiente de correlación

Este coeficiente mide la intensidad de la relación lineal entra dos variables \(X\) y \(Y\). Sis e tienen \(n\) pares de datos de la forma \((x_i,y_i)\), entonces el Coeficiente de Correlación se obtiene de la siguiente manera:

\[r=\frac{S_{xx}}{\sqrt{{S_{xx}S_{yy}}}}\] El valor del coeficeinte puede variar de \(-1~{\leq}~r~{\leq~1}\); si es próximo a -1 tendremos una relación lineal negativa fuerte, si es próximo a cero, se concluye la ausencia de correlación, y si es próximo a 1, entonces tendremos una relación lineal positiva fuerte. PAra interpretar valores intermedios de r, depende de aplicaciones específicas. Sin embargo, para muestras moderadamente grandes, más de 20 datos, por ejemplo, valores de r de menos de 0.5 en valor absoluto indican, por lo general, poca correlación; valores de r cercanos o superiores a 0.85 indican una correlación lineal fuerte; mientras que superiores a 0.9 implican correlaciones muy fuertes (Pulido & Vara Salazar, 2012).

3.1.3.2 Error estándar de estimación

Una medición sobre la calidad del ajuste del modelo lo da el error estándar de estimación, que es una estimación de la desviación estándar del error, \(\sigma\). En el caso de la regresión lineal simple está dado por:
\[{\widehat{\sigma}}=\sqrt{\frac{{SC_E}}{n-2}}\]

3.1.3.3 Media del error absoluto

Otra forma de medir la calidad del ajuste es a través de la media del valor absoluto de los residuos, es decir: \[mea={\frac{\sum_{i=1}^{n}{|{e_i}|}}{n}}\] es claro que mientras mejor sea el ajuste, los residuos serán más pequeños y, en consecuencia, la mea tenderá a ser más pequeña, cabe mencionar que los residuos se determinan restando el valor observado menos el valor estimado (calculado mediante el modelo propuesto), por lo que se escriben de la siguiente manera: \[{e_i}={y_i}-\bar{y}_i\]

3.1.3.4 Coeficiente de determinación

Este coeficiente da una lectura de la variabilidad de los cambios en \(Y\) explicada por los cambios en \(X\), es decir, que tanta influencia tiene la variable predictora sobre la variable de respuesta, en lo general se expresa en forma de porcentaje y está dada por la sigueinte expresión:

\[{r^2}=\frac{SS_r}{SS_T}\] donde:

\[SS_r={\widehat{\beta}_1}{S_{xy}}\] \[{SS_T}={\sum_{i=1}^{n}{y_i^2}}-{\frac{(\sum_{i=1}^{n}{y_i})^2}{n}}\]

El estadístico \(r^2\) deberá usarse con cuidado, ya que siempre es posible hacer este coeficiente igual a la unidad mediante la simple adición de términos suficientes al modelo. Por ejemplo, puede observarse un ajuste “perfecto” para n datos o puntos observados de grado \(n-1\). Además, \(r^2\) siempre se incrementará si se agrega una variable al modelo, aunque esto no implica necesariamente que el nuevo modelo sea superior al original. A menos que la suma de cuadrados de los errores del nuevo modelo tenga una reducción por una cantidad igual al cuadrado medio del error original, debido a la pérdida de un grado de libertad del error. Por lo tanto, el nuevo modelo será en realidad peor que el original(Montgomery & Runger, 2010).

Para solverntar esta situación, cuando se tengan muchos términos en el modelo, o se agreguen términos nuevos, es necesario observar el Coeficiente de Determinación Ajustado, este coeficiente, a diferencia del Coeficiente de Determinación, no incrementa su valor de manera artificial ante la presencia de nuevos términos, sólo aumentará de valor si los nuevos términos aportan información valiosa al modelo, sin embargo, si esto no sucede, el coeficiente bajará de valor. El Coeficiente de Determinación Ajustado está dado por la siguiente expresión:
\[{r^2_{aj}}={\frac{CM_{Total}-CM_{Error}}{CM_{Total}}}\] De esta manera, se interpreta de manera adecuada la relación entre las variables \(Y\) y \(X\).

3.2 Análisis de Varianza

Otro enfoque para analizar la significancia del modelo es descomponer la variabilidad observada, y a partir de ellos probar hipótesis. Para realizar la interpretación adecuada de la partición de la variabilidad usaremos la tabla de Análisis de Varianza (ANOVA), la cual se compone de los siguientes elementos:

Tabla 2. ANOVA para RLS
Fuente de Variación Suma de Cuadrados Grados de Libertad Cuadrado Medio \(F_0\) \(P(F>F_0)\)
Regresión \(SS_R={\widehat{\beta}_1}{S_{xy}}\) 1 \(CM_R=\frac{SS_R}{GL}\) \(F_0^R=\frac{CM_R}{CM_E}\) \(P(F>{F_0^R}\))
Error \(SS_E={S_{yy}}-{\widehat{\beta}_1}{S_{xy}}\) \(n-2\) \(CM_E=\frac{SS_E}{GL}\)
Total \(S_{yy}\) \(n-1\)

La hipótesis a probar mediante la Tabla ANOVA es la siguiente:
\[{H_0}:~{\beta_1}=0\] \[{H_1}:~{\beta_1}~{\neq}~0\]

Por lo que con la Tabla ANOVA podremos probar la significación de la regresión, utilizando como criterio de decisión los niveles considerados en la Tabla 1.

3.3 Pruebas de Adecuación

En lo general, el ajuste de un modelo de regresión requiere de varios supuestos. La estimación de los parámetros del modelo requiere del supuesto de que los errores son variables aleatorias no correlacionadas con media cero y varianza constante. Las pruebas de hipótesis y la estimación de intervalos requieren que los errores tengan una distribución normal. Además, se supone que el orden del modelo es correcto; es decir, si se ajusta un modelo de regresión lineal simple, entonces se está suponiendo que el fenómeno se comporta en realidad de manera lineal o de primer orden.
Las pruebas a realizar son las siguientes:

  • Prueba de Normalidad de Residuos de Shapiro-Wilk
  • Prueba de Independencia de Durbin-Watson
  • Prueba de Igualdad de Varianzas de Bartlett

Además de que se puede corroborar las hipótesis mediante un análisis gráfico.

3.3.1 Prueba de Normalidad de Shapiro-Wilk

Para el caso específico de la normalidad, procederemos a utilizar la Prueba de Bondad de Ajuste a la Distribución Normal de Shapiro-Wilks, aunque cabe mencionar que puede utilizarse cualquier otra, como Kolmogorov-Smirnov o Anderson-Darlind, la prueba de Shapiro-Wilks está diseñada específicamente para la Distribución Normal(Montgomery, 2004).
Para realizar esta prueba debemos plantear las siguientes hipótesis de trabajo:

\[H_0: {x \in N(\mu=0,\sigma^2=Constante)}\] \[H_1: {x \not\in N(\mu=0,\sigma^2=Constante)}\]

3.3.2 Prueba de Independencia de Durbin-Watson

Esta prueba determina si existe autocorrelación de los residuales, es decir, que un resudual cualquiera tenga una relaciónd e algún tipo con otro, esto supondría un problema dado que los residuales deben ser independientes dado que la variable de respuesta es de tipo aleatorio, el estadístico de prueba para la autocorrelación esta definido de la siguiente manera:

\[DW=\frac{\sum_{i=2}^{n}{(e_i-e_{i-1})^2}}{\sum_{i=1}^{n}{e_i^2}}\]

Las hipótesis a prbar son las siguientes:

\[{H_0}: Los~residuales~no~presentan~evidencia~de~autocorrelación.\] \[{H_1}: Los~residuales~presentan~evidencia~de~autocorrelación.\] En el caso de aceptar a la hipótesis nula, se concluye que existe suficiente evidencia para afirmar que los residuales son independientes entres si.

3.3.3 Prueba de Igualdad de Varianzas de Bartlett

La Prueba de Homocedasticidad, o de Varianzas Iguales, se realiza mediante la Prueba de Bartlett, misma que para el caso particular, como sólo es significativo el factor de tratamiento, solo se considerará éste para la ejecución de la prueba(Pulido & Vara Salazar, 2012).
La Prueba de Bartlett tiene las siguientes hipótesis:

\[H_0:\sigma^2_i=\sigma^2_j=Constante\] \[H_1:\sigma^2_i\neq\sigma^2_j\neq Constante\]

3.4 Caso de Estudio

Para ejemplificar lo antes visto, se tomó el ejemplo 7 de la página 333 del libro de Análisis y Diseño de Experimentos de Humberto Gutiérrez Pulido y Román de la Vara Salazar, tercera edición, el cual a la letra dice:

En un proceso de extracción se estudia la relación entre el tiempo de extracción y el rendimiento. Los datos obtenidos se muestran en la siguiente tabla:

Conjunto de datos
Tiempo (minutos) Rendimiento (%)
10 64
15 81.7
20 76.2
8 68.5
12 66.6
13 77.9
15 82.2
12 74.2
14 70
20 76
19 83.2
18 85.3
  1. En este problema, ¿cuál variable se considera independiente y cuál dependiente?
  2. Mediante un diagrama de dispersión analice la relación entre estas dos variables. ¿Qué tipo de relación observa y cuales son algunos hechos especiales?
  3. Haga un análisis de regresión (ajuste una línea recta a estos datos, aplique pruebas de hipótesis y verifique residuos).
  4. ¿La calidad del ajuste es satisfactoria? Argumente.
  5. Destaque el valor de la pendiente de la recta e interprételo en términos prácticos.
  6. Estime el rendimiento promedio que se espera a un tiempo de extracción de 25 minutos y obtenga un intervalo de confianza para esta estimación.

Para resolver este planteamiento procederemos bajo la siguiente metodología:

3.4.1 Inciso A

Es evidente que el rendimiento del proceso es una función del tiempo, por lo que se considerará como variable independiente al tiempo en minutos y como dependiente al rendimiento del proceso, en porcentaje. \[Rendimiento=f(Tiempo)\]

3.4.2 Inciso B

Para ejecutar el diagrama de dispersión debemos graficar ambas variables, colocando en el eje de las x al tiempo y en el eje de las y al rendimiento del proceso, para esto ejecutamos la siguiente secuencia de comandos:

library(ggplot2)
library(dplyr)
df=read.csv("dataset.csv")
g1=ggplot(data=df,aes(x=Tiempo,y=Rendimiento))+
  geom_point(size=5,shape="*")+
  labs(x="Tiempo (minutos)",y="Rendimiento (%)",title = "Elaboración de un diagrama de dispersión")+
  theme_classic()
print(g1)

Conclusiones: Podemos observar en el gráfico de dispersión que en lo general un modelo lineal podría explicar la relación entre la variable Tiempo y la variable Rendimiento, sin dejar de lado la posible presencia de Datos atípicos.

3.4.3 Inciso C

Para realizar el análisis de regresión ejecutaremos la siguiente linea de comandos:

3.4.3.1 Modelo matemático

modelo=lm(Rendimiento~Tiempo,data = df)
summary(modelo)
## 
## Call:
## lm(formula = Rendimiento ~ Tiempo, data = df)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -5.907 -5.666  1.443  4.761  6.318 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   57.958      6.284   9.223 3.32e-06 ***
## Tiempo         1.195      0.415   2.880   0.0164 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.421 on 10 degrees of freedom
## Multiple R-squared:  0.4533, Adjusted R-squared:  0.3987 
## F-statistic: 8.292 on 1 and 10 DF,  p-value: 0.0164

3.4.3.2 Estimación de los coeficientes de regresión

coeficientes=confint(modelo)
print(coeficientes)
##                  2.5 %    97.5 %
## (Intercept) 43.9561118 71.959513
## Tiempo       0.2703361  2.119508

3.4.3.3 Tabla ANOVA

anova=aov(modelo)
summary(anova)
##             Df Sum Sq Mean Sq F value Pr(>F)  
## Tiempo       1  243.7  243.68   8.292 0.0164 *
## Residuals   10  293.9   29.39                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

3.4.3.4 Calidad de ajuste del modelo

correlacion=cor(df$Tiempo,df$Rendimiento)
cat("Coeficiente de correlacion:",correlacion)
## Coeficiente de correlacion: 0.6732893

3.4.3.5 Gráfica de línea ajustada del modelo

g2=ggplot(data=df,aes(x=Tiempo,y=Rendimiento))+
  geom_point(size=5,shape="*")+
  stat_smooth(method = "lm",color="#57BBA9",fill="#A6CC7E",formula='y~x',level = 0.95)+
  labs(x="Tiempo (minutos)",y="Rendimiento (%)",title = "Elaboración de un diagrama de dispersión con línea ajustada")+
  theme_classic()
print(g2)

3.4.3.6 Pruebas de adecuación

En esta etapa de análisis se realizan tres prubas:

  • Prueba de normalidad de residuos
  • Prueba de independencia
  • Prueba de homocedasticidad (varianzas iguales)

De manera típica se realiza sólo un análisis gráfico, sin embargo se sugiere, de no tener evidencia clara mediante la visualización, realizar las pruebas de hipótesis planteadas anteriormente.

3.4.3.6.1 Prueba de normalidad de residuos
df=df%>%mutate(Residual=rstudent(modelo),Ajustes=modelo$fitted.values)
df
##    Tiempo Rendimiento   Residual  Ajustes
## 1      10        64.0 -1.2626059 69.90703
## 2      15        81.7  1.1378251 75.88164
## 3      20        76.2 -1.2362226 81.85625
## 4       8        68.5  0.2128474 67.51719
## 5      12        66.6 -1.1401763 72.29688
## 6      13        77.9  0.8446005 73.49180
## 7      15        82.2  1.2518493 75.88164
## 8      12        74.2  0.3585796 72.29688
## 9      14        70.0 -0.8952567 74.68672
## 10     20        76.0 -1.2878276 81.85625
## 11     19        83.2  0.5015266 80.66133
## 12     18        85.3  1.1901720 79.46641
qq_res=ggplot(data = df, aes(sample = Residual)) +
  stat_qq(shape="+",size=5) +
  stat_qq_line() +
  ggtitle("Gráfica de Probabilidad Normal de los Residuales") +
  xlab("Cuantiles Teóricos") +
  ylab("Residuales Studentizados")+
  theme_minimal()
qq_res

shapiro=shapiro.test(df$Residual)
print(shapiro)
## 
##  Shapiro-Wilk normality test
## 
## data:  df$Residual
## W = 0.83924, p-value = 0.0271
3.4.3.6.2 Prueba de homocedasticidad
res_aj=ggplot(data=df,aes(x=Ajustes,y=Residual))+
  geom_point()+
  geom_hline(aes(yintercept=mean(Residual),color="red"))+
  stat_smooth(method = "loess",color="#57BBA9",fill="#A6CC7E",formula='y~x',level = 0.95)+
  theme_minimal()+
  theme(legend.position = "none")
res_aj

bartlett=bartlett.test(list(df$Tiempo,df$Residual))
print(bartlett)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  list(df$Tiempo, df$Residual)
## Bartlett's K-squared = 14.559, df = 1, p-value = 0.0001359

3.4.3.7 Qué hacer en caso de pérdida de normalidad y homocedasticidad

Es común, sobre todo en experimentos del área biológica, que se se pierda la normalidad de los residuos, la homocedasticidad o ambas, esto debido a la gran cantidad de factores que pueden incidir en nuestro experimento o a la naturaleza no lineal de los fenómenos naturales.
En este sentido, la Regresión Lineal Simple presenta fuertes limitantes en su aplicación con el objetivo de predecir comportamientos en el ambiente natural.
Sin embargo, se tienen alternativas no paramétricas que permiten establecer conclusiones válidas sin sugetarse a los estrictos requisitos de nomrmalidad y homocedasticidad que requiere el ANOVA.

Para esto, una alternativa robusta para la Regresión Lineal Simple es la propuesta por Theil, esta propuesta, publicada en 1950, estima los coeficientes de regresion usando las medianas estimadas de las observaciones (Theil, 1950), lo que lo hace insensible a la distribucion original de los datos, a diferencia del Método de Mínimos Cuadrados.

Para implementar la metodología de Theil en lenguaje seguiremos los siguientes pasos:

  1. Instalar el paquete “mblm” en R (sólo la primera vez, en caso de estar usando RStudio)

install.packages(“mblm”)

  1. Activar la libreria y generar código.
library(mblm)
modelo.theil=mblm(Rendimiento~Tiempo,dataframe = df)
summary(modelo.theil)
## 
## Call:
## mblm(formula = Rendimiento ~ Tiempo, dataframe = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.3800 -6.0331  0.3794  3.1684  4.6638 
## 
## Coefficients:
##             Estimate     MAD V value Pr(>|V|)    
## (Intercept)  54.0050  7.1610      78 0.000488 ***
## Tiempo        1.5687  0.5864      76 0.001465 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.881 on 10 degrees of freedom

3.4.3.8 Predicción

Una vez establecidos los coeficientes de regresión, mediante la metodología de Theil, podemos hacer algunas predicciones generando una función como se muestra a continuación:

prediccion=function(x){
  y=modelo.theil$coefficients[[1]]+modelo.theil$coefficients[[2]]*x
  return(y)
}

Supongamos que se requiere estimar un número definido de nuevas observaciones,por ejemplo, 3, 5 y 7 minutos, para lo cual definiremos de la siguiente manera:

nuevas.observaciones=c(3,5,7)
df.1=data.frame("x"=nuevas.observaciones,"y"=prediccion(nuevas.observaciones))
print(df.1)
##   x        y
## 1 3 58.71125
## 2 5 61.84875
## 3 7 64.98625

Conclusiones:

Por aquí les comparto el siguiente enlace como reforzamiento al análisis realizado:

Ver enlace

Bibliografía

Montgomery, D. C. (2004). Diseño y análisis de experimentos (2nd ed.). Limusa Wiley.
Montgomery, D. C., & Runger, G. C. (2010). Probabilidad y estadística aplicadas a la ingeniería (2nd ed.). Limusa Wiley.
Pulido, H. G., & Vara Salazar, R. de la. (2012). Analisis y diseño de experimentos (3rd ed.). McGraw Hill.
Theil, H. (1950). A rank invariant method of linear and polynomial regression analysis. Mathematics.
Vallentin, M. (2011). Probability and statistics cookbook (1st ed.). Matthias Vallentin.