El análisis de regresión tiene como objetivo modelar de
forma matemática el comportamiento de una variable de respuesta en
función de una o más variables independientes
(factores). Por ejemplo, suponga que el rendimiento de un
proceso químico está relacionado con la temperatura de operación. Si
mediante el modelo matemático es posible describir tal
relación, entonces este modelo puede usarse
para propósitos de predicción, optimización o control.
Para estimar los parámetros de un modelo de regresión son necesarios los
datos, los cuales pueden obtenerse de experimentos planeados, de
observaciones de fenómenos no controlados o de registros históricos(Pulido & Vara Salazar, 2012).
Sean dos variables \(X\) y \(Y\), suponga que se quiere explicar el
comportamiento de \(Y\) con base en los
valores que toma \(X\). Para esto, se
mide el valor de \(Y\) sobre un
conjunto de \(n\) valores de \(X\), con lo que se obtienen \(n\) parejas o pares ordenados de puntos
\((x_1,y_1),(x_2,y_2),...,(x_n,y_n)\).
A \(Y\) se le llama la variable
dependiente o la variable de respuesta y a
\(X\) se le conoce como la
variable independiente o la variable
regresora. La variable \(X\)
no necesariamente es aleatoria, ya que en muchas ocasiones el
investigador fija sus valores; en cambio, \(Y\) sí es una variable aleatoria. Una
manera de estudia r el comportamiento de \(Y\) con respecto a \(X\) es mediante un modelo de regresión que
consiste en ajustar un modelo de la forma:
\[Y=f(X)\] a las \(n\) parejas de puntos. Con ello, se puede
ver si dado un valor de la variable independiente \(X\) es posible predecir el valor promedio
de \(Y\)(Pulido
& Vara Salazar, 2012).
El supuesto fundamental de este análisis en particular es que las
variables \(Y\) y \(X\) están relacionadas mediante un modelo
lineal de la forma:
\[Y={\beta_0}+{\beta_1}X+{\varepsilon}\]
donde \(\varepsilon\) es un
error aleatorio con media cero y varianza \({\sigma^2}\),\({\beta_0}\) y \({\beta_1}\) son los parámetros del modelo,
los cuales son constantes que es necesario estimar.
También suponga que los errores aleatorios no están correlacionados. La
ecuación anterior entonces es conocida como Ecuación de
Regresión Lineal Simple. Bajo el supuesto de que este modelo es
adecuado y como el valor esperado del error es cero, se
puede ver que el valor esperado de la variable \(Y\), para cada valor de \(X\), está dado por una línea recta que
tiene la siguiente ecuación:
\[E(Y|X)={\beta_0}+{\beta_1}X\] para
tener bien especificada la ecuación que relaciona las dos variables será
necesario estimar los dos parámetros, que tienen el siguiente
significado:
La estimación de los parámetros de la recta de regresión se hace mediante la técnica de Mínimos Cuadrados, la cual no se desarrollará en este documento, dado que el objetivo del mismo es la comprensión de los conceptos estadísticos implícitos en él, para poder ver el procedimiento de estimación de los parámetros se recomienda ver el siguiente enlace:
para efectos de este documento, dividiremos el análisis de regresión lineal simple en tres etapas, a saber:
Esto con el objetivo de darle al análisis un enfoque práctico sin perder de vista la fundamentación teórica.
En cualquier análisis de Regresión Lineal Simple (RLS) no basta con
estimar adecuadamente los parámetros de la recta de regresión, si no que
además resulta necesario realizar los cálculos estadísticos que
acompañan a una estimación, como lo son las pruebas de hipótesis y los
intervalos de confianza para evaluar qué tan bien el modelo explica la
relación entre \(X\) y \(Y\). Una primera forma de evaluar esta
relación es probar una serie de hipótesis sobre los parámetros del
modelo. Para ello, supondremos que el el error \({\varepsilon}\) se ditribuye en forma
normal, independiente, con media cero y varianza constante \({\sigma^2}\).
Por lo general, la hipótesis de mayor interés plantea que la pendiente
es significativamente diferente de cero, esto se logra al probar la
siguiente hipótesis:
\[{H_0}:~{\beta_1}=0\] \[{H_1}:~{\beta_1}{\neq}~0\] Si la hipótesis
nula es verdadera, el siguiente estadístico:
\[{t_0}={\frac{\widehat{\beta}_1}{\sqrt{{CM_E}/{S_{xx}}}}}\]
donde: \[{\widehat{\beta}_1}={\frac{S_{xy}}{S_{xx}}}\]
\[{CM_E}={\frac{SC_E}{n-2}}\] \[{SC_E}={\sum_{i=1}^{n}{({y_i}-[{\widehat{\beta}_0}+{\widehat{\beta}_1}{x_i}])^2}}\]
\[{S_{xy}}={\sum_{i=1}^{n}}{x_i}{y_i}-{\frac{(\sum_{i=1}^{n}{x_i})(\sum_{i=1}^{n}{y_i})}{n}}\]
\[{S_{xx}}={\sum_{i=1}^{n}}{x_i^2}-{\frac{(\sum_{i=1}^{n}{x_i})^2}{n}}\]
Para realizar interpretar la prueba de hipótesis utilizaremos el método del \(valor_p\), en donde dicho valor es la probabilidad del estadístico de prueba, es decir, \(P(t_0)\), el cual tiene una distribución t-Student con \(n-2\) grados de libertad, para el cual utilizaremos la siguiente tabla de referencia tomada de el documento de Matthias Vallentin (Vallentin, 2011):
| Valor_p | Evidencia estadística |
|---|---|
| \(Valor-p< 0.01\) | Evidencia muy fuerte en contra de \(H_0\) |
| \(0.01~{\leq}~Valor-p~<~0.05\) | Evidencia fuerte en contra de \(H_0\) |
| \(0.05~{\leq}~Valor-p~<~0.1\) | Evidencia débil en contra de \(H_0\) |
| \(Valor-p~{\geq}~0.1\) | Poca o ninguna evidencia en contra de \(H_0\) |
En este caso, se da la oportunidad al decisor de establecer el grado
de incertidumbre con que se realiza el rechazo o la aceptación, de
acuerdo a la evidencia estadística presentada por los datos. En el caso
de que el decisor rechace la hipótesis nula, la interpretación deberá
ser que la pendiente de la recta es estadísticamente diferente de cero,
lo que implica que los cambios en la variable independiente \(X\) provocan cambios significativos en la
variable dependiente \(Y\). Caso
contrario, si se decide aceptar la hipótesis nula se deberá interpretar
que los valores de la variable \(Y\) se
mueven en una banda horizontal, comportandose como una función
constante, lo que lleva a concluir que los valores de la variable \(X\) no tienen efectos significativos sobre
la variable dependiente \(Y\).
En ocasiones, en lugar de probar que \({\beta_1}=0\) puede ser de interés probar
que es igual a cierta constante \(c\),
en este caso, la adaptación del estadístico t-Student quedaría definida
de la siguiente manera:
\[{t_0}={\frac{\widehat{\beta}_1-c}{\sqrt{{CM_E}/{S_{xx}}}}}\]
en este caso, las hipótesis a probar se escriben de la siguiente
forma:
\[{H_0}:~{\beta_1}=c\] \[{H_1}:~{\beta_1}{\neq}~c\] Por otro lado,
con respecto al parámetro \({\beta_0}\), suele ser de interés probar la
siguiente hipótesis:
\[{H_0}:~{\beta_0}=0\] \[{H_1}:~{\beta_0}~{\neq}~0\] Si la
hipótesis nula es verdadera, el siguiente estadístico:
\[{t_0}={\frac{\widehat{\beta}_0}{\sqrt{{CM_E}[\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}]}}}\]
tiene una distribución t-Student con \(n-2\) grados de libertad, para tomar la
decisión de la aceptación o rechazo, tomaremos de referencia los niveles
de la Tabla 1.
La aceptación de \(H_0\) indica que el
punto de corte de la recta al eje de las ordenadas pasa por el origen,
es decir, por la coordenada \((0,0)\),
caso contrario, el rechazo de \(H_0\)
implica que el punto de corte de la recta pasa por cualquier otro punto.
en ocasiones también es conveniente probar la hipótesis de que:
\[{H_0}:~{\beta_0}=c\] \[{H_0}:~{\beta_0}~{\neq}~c\] para lo cual,
el estadístico de prueba se reecribe de la siguiente manera:
\[{t_0}={\frac{\widehat{\beta}_0-c}{\sqrt{{CM_E}[\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}]}}}\]
Dada la estrecha relación entre las pruebas de hipótesis y los intervalos de confianza, no resulta dificil establecer que, me manera natural, haciendo los despejes adecuados y fijando un nivel \({\alpha}\) de significancia, se pueden escribir de manera sencilla dichos intervalos, de la siguiente manera:
\[P[{{\widehat{\beta}_0}-{t_{\alpha/2}}{\sqrt{{\sigma^2}[\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}]}}~{\leq}~{\beta_0}~{\leq}~{\widehat{\beta}_0}+{t_{\alpha/2}}{\sqrt{{\sigma^2}[\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}]}}}]= (1-\alpha)100{\%}\]
\[P[{{\widehat{\beta}_1}-{t_{\alpha/2}}{\sqrt{{\frac{\widehat{\sigma}^2}{S_{xx}}}}}~{\leq}~{\beta_1}~{\leq}~{\widehat{\beta}_1}+{t_{\alpha/2}}}{\sqrt{\frac{\widehat{\sigma}^2}{S_{xx}}}}] = (1-\alpha)100{\%}\]
\[P[{\widehat{\mu}_{Y|x_0}}-{{t_{\alpha/2}}{\sqrt{{\widehat{\sigma}^2}[\frac{1}{n}+\frac{(x_0-\bar{x})^2}{S_{xx}}]}}}~{\leq}~{\mu_{Y|x_0}}~{\leq}~{{\widehat{\mu}_{Y|x_0}}+{{t_{\alpha/2}}{\sqrt{{\widehat{\sigma}^2}[\frac{1}{n}+\frac{(x_0-\bar{x})^2}{S_{xx}}]}}}}]=(1-\alpha)100\%\]
\[P[{\widehat{y}_0-{t_{\alpha/2}}{\sqrt{{\widehat{\sigma}^2}[1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{S_{xx}}]}}}~{\leq}~{y_0}~{\leq}~{\widehat{y}_0+{t_{\alpha/2}}{\sqrt{{\widehat{\sigma}^2}[1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{S_{xx}}]}}}]=(1-\alpha)100\%\]
Las ecuaciones descritas anteriormente sólo nos permiten verificar la significación de los coeficientes de regresión y estimarlos con cierto nivel de confianza, sin embargo, aún no tenemos una medida específica que nos permita estimar cuál es la calidad del ajuste de los datos al modelo matemático propuesto. Para este fin, se utilizarán dos medidas, a saber:
A continuación se describe a detalle cada uno de ellos.
Este coeficiente mide la intensidad de la relación lineal entra dos variables \(X\) y \(Y\). Sis e tienen \(n\) pares de datos de la forma \((x_i,y_i)\), entonces el Coeficiente de Correlación se obtiene de la siguiente manera:
\[r=\frac{S_{xx}}{\sqrt{{S_{xx}S_{yy}}}}\] El valor del coeficeinte puede variar de \(-1~{\leq}~r~{\leq~1}\); si es próximo a -1 tendremos una relación lineal negativa fuerte, si es próximo a cero, se concluye la ausencia de correlación, y si es próximo a 1, entonces tendremos una relación lineal positiva fuerte. PAra interpretar valores intermedios de r, depende de aplicaciones específicas. Sin embargo, para muestras moderadamente grandes, más de 20 datos, por ejemplo, valores de r de menos de 0.5 en valor absoluto indican, por lo general, poca correlación; valores de r cercanos o superiores a 0.85 indican una correlación lineal fuerte; mientras que superiores a 0.9 implican correlaciones muy fuertes (Pulido & Vara Salazar, 2012).
Una medición sobre la calidad del ajuste del modelo lo da el
error estándar de estimación, que es una estimación de
la desviación estándar del error, \(\sigma\). En el caso de la regresión lineal
simple está dado por:
\[{\widehat{\sigma}}=\sqrt{\frac{{SC_E}}{n-2}}\]
Otra forma de medir la calidad del ajuste es a través de la media del valor absoluto de los residuos, es decir: \[mea={\frac{\sum_{i=1}^{n}{|{e_i}|}}{n}}\] es claro que mientras mejor sea el ajuste, los residuos serán más pequeños y, en consecuencia, la mea tenderá a ser más pequeña, cabe mencionar que los residuos se determinan restando el valor observado menos el valor estimado (calculado mediante el modelo propuesto), por lo que se escriben de la siguiente manera: \[{e_i}={y_i}-\bar{y}_i\]
Este coeficiente da una lectura de la variabilidad de los cambios en \(Y\) explicada por los cambios en \(X\), es decir, que tanta influencia tiene la variable predictora sobre la variable de respuesta, en lo general se expresa en forma de porcentaje y está dada por la sigueinte expresión:
\[{r^2}=\frac{SS_r}{SS_T}\] donde:
\[SS_r={\widehat{\beta}_1}{S_{xy}}\] \[{SS_T}={\sum_{i=1}^{n}{y_i^2}}-{\frac{(\sum_{i=1}^{n}{y_i})^2}{n}}\]
El estadístico \(r^2\) deberá usarse con cuidado, ya que siempre es posible hacer este coeficiente igual a la unidad mediante la simple adición de términos suficientes al modelo. Por ejemplo, puede observarse un ajuste “perfecto” para n datos o puntos observados de grado \(n-1\). Además, \(r^2\) siempre se incrementará si se agrega una variable al modelo, aunque esto no implica necesariamente que el nuevo modelo sea superior al original. A menos que la suma de cuadrados de los errores del nuevo modelo tenga una reducción por una cantidad igual al cuadrado medio del error original, debido a la pérdida de un grado de libertad del error. Por lo tanto, el nuevo modelo será en realidad peor que el original(Montgomery & Runger, 2010).
Para solverntar esta situación, cuando se tengan muchos términos en
el modelo, o se agreguen términos nuevos, es necesario observar el
Coeficiente de Determinación Ajustado, este coeficiente, a
diferencia del Coeficiente de Determinación, no incrementa su
valor de manera artificial ante la presencia de nuevos términos, sólo
aumentará de valor si los nuevos términos aportan información valiosa al
modelo, sin embargo, si esto no sucede, el coeficiente bajará de valor.
El Coeficiente de Determinación Ajustado está dado por la siguiente
expresión:
\[{r^2_{aj}}={\frac{CM_{Total}-CM_{Error}}{CM_{Total}}}\]
De esta manera, se interpreta de manera adecuada la relación entre las
variables \(Y\) y \(X\).
Otro enfoque para analizar la significancia del modelo es descomponer la variabilidad observada, y a partir de ellos probar hipótesis. Para realizar la interpretación adecuada de la partición de la variabilidad usaremos la tabla de Análisis de Varianza (ANOVA), la cual se compone de los siguientes elementos:
| Fuente de Variación | Suma de Cuadrados | Grados de Libertad | Cuadrado Medio | \(F_0\) | \(P(F>F_0)\) |
|---|---|---|---|---|---|
| Regresión | \(SS_R={\widehat{\beta}_1}{S_{xy}}\) | 1 | \(CM_R=\frac{SS_R}{GL}\) | \(F_0^R=\frac{CM_R}{CM_E}\) | \(P(F>{F_0^R}\)) |
| Error | \(SS_E={S_{yy}}-{\widehat{\beta}_1}{S_{xy}}\) | \(n-2\) | \(CM_E=\frac{SS_E}{GL}\) | ||
| Total | \(S_{yy}\) | \(n-1\) |
La hipótesis a probar mediante la Tabla ANOVA es la siguiente:
\[{H_0}:~{\beta_1}=0\] \[{H_1}:~{\beta_1}~{\neq}~0\]
Por lo que con la Tabla ANOVA podremos probar la significación de la regresión, utilizando como criterio de decisión los niveles considerados en la Tabla 1.
En lo general, el ajuste de un modelo de regresión requiere de varios
supuestos. La estimación de los parámetros del modelo requiere del
supuesto de que los errores son variables aleatorias no correlacionadas
con media cero y varianza constante. Las pruebas de hipótesis y la
estimación de intervalos requieren que los errores tengan una
distribución normal. Además, se supone que el orden del modelo es
correcto; es decir, si se ajusta un modelo de regresión lineal simple,
entonces se está suponiendo que el fenómeno se comporta en realidad de
manera lineal o de primer orden.
Las pruebas a realizar son las siguientes:
Además de que se puede corroborar las hipótesis mediante un análisis gráfico.
Para el caso específico de la normalidad, procederemos a utilizar la
Prueba de Bondad de Ajuste a la Distribución Normal de Shapiro-Wilks,
aunque cabe mencionar que puede utilizarse cualquier otra, como
Kolmogorov-Smirnov o Anderson-Darlind, la prueba de Shapiro-Wilks está
diseñada específicamente para la Distribución Normal(Montgomery, 2004).
Para realizar esta prueba debemos plantear las siguientes hipótesis de
trabajo:
\[H_0: {x \in N(\mu=0,\sigma^2=Constante)}\] \[H_1: {x \not\in N(\mu=0,\sigma^2=Constante)}\]
Esta prueba determina si existe autocorrelación de los residuales, es decir, que un resudual cualquiera tenga una relaciónd e algún tipo con otro, esto supondría un problema dado que los residuales deben ser independientes dado que la variable de respuesta es de tipo aleatorio, el estadístico de prueba para la autocorrelación esta definido de la siguiente manera:
\[DW=\frac{\sum_{i=2}^{n}{(e_i-e_{i-1})^2}}{\sum_{i=1}^{n}{e_i^2}}\]
Las hipótesis a prbar son las siguientes:
\[{H_0}: Los~residuales~no~presentan~evidencia~de~autocorrelación.\] \[{H_1}: Los~residuales~presentan~evidencia~de~autocorrelación.\] En el caso de aceptar a la hipótesis nula, se concluye que existe suficiente evidencia para afirmar que los residuales son independientes entres si.
La Prueba de Homocedasticidad, o de Varianzas Iguales, se realiza
mediante la Prueba de Bartlett, misma que para el caso particular, como
sólo es significativo el factor de tratamiento, solo se considerará éste
para la ejecución de la prueba(Pulido & Vara
Salazar, 2012).
La Prueba de Bartlett tiene las siguientes hipótesis:
\[H_0:\sigma^2_i=\sigma^2_j=Constante\] \[H_1:\sigma^2_i\neq\sigma^2_j\neq Constante\]
Para ejemplificar lo antes visto, se tomó el ejemplo 7 de la página 333 del libro de Análisis y Diseño de Experimentos de Humberto Gutiérrez Pulido y Román de la Vara Salazar, tercera edición, el cual a la letra dice:
En un proceso de extracción se estudia la relación entre el tiempo de extracción y el rendimiento. Los datos obtenidos se muestran en la siguiente tabla:
| Tiempo (minutos) | Rendimiento (%) |
|---|---|
| 10 | 64 |
| 15 | 81.7 |
| 20 | 76.2 |
| 8 | 68.5 |
| 12 | 66.6 |
| 13 | 77.9 |
| 15 | 82.2 |
| 12 | 74.2 |
| 14 | 70 |
| 20 | 76 |
| 19 | 83.2 |
| 18 | 85.3 |
Para resolver este planteamiento procederemos bajo la siguiente metodología:
Es evidente que el rendimiento del proceso es una función del tiempo, por lo que se considerará como variable independiente al tiempo en minutos y como dependiente al rendimiento del proceso, en porcentaje. \[Rendimiento=f(Tiempo)\]
Para ejecutar el diagrama de dispersión debemos graficar ambas variables, colocando en el eje de las x al tiempo y en el eje de las y al rendimiento del proceso, para esto ejecutamos la siguiente secuencia de comandos:
library(ggplot2)
library(dplyr)
df=read.csv("dataset.csv")
g1=ggplot(data=df,aes(x=Tiempo,y=Rendimiento))+
geom_point(size=5,shape="*")+
labs(x="Tiempo (minutos)",y="Rendimiento (%)",title = "Elaboración de un diagrama de dispersión")+
theme_classic()
print(g1)
Conclusiones: Podemos observar en el gráfico de dispersión que en lo general un modelo lineal podría explicar la relación entre la variable Tiempo y la variable Rendimiento, sin dejar de lado la posible presencia de Datos atípicos.
Para realizar el análisis de regresión ejecutaremos la siguiente linea de comandos:
modelo=lm(Rendimiento~Tiempo,data = df)
summary(modelo)
##
## Call:
## lm(formula = Rendimiento ~ Tiempo, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.907 -5.666 1.443 4.761 6.318
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 57.958 6.284 9.223 3.32e-06 ***
## Tiempo 1.195 0.415 2.880 0.0164 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.421 on 10 degrees of freedom
## Multiple R-squared: 0.4533, Adjusted R-squared: 0.3987
## F-statistic: 8.292 on 1 and 10 DF, p-value: 0.0164
coeficientes=confint(modelo)
print(coeficientes)
## 2.5 % 97.5 %
## (Intercept) 43.9561118 71.959513
## Tiempo 0.2703361 2.119508
anova=aov(modelo)
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## Tiempo 1 243.7 243.68 8.292 0.0164 *
## Residuals 10 293.9 29.39
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
correlacion=cor(df$Tiempo,df$Rendimiento)
cat("Coeficiente de correlacion:",correlacion)
## Coeficiente de correlacion: 0.6732893
g2=ggplot(data=df,aes(x=Tiempo,y=Rendimiento))+
geom_point(size=5,shape="*")+
stat_smooth(method = "lm",color="#57BBA9",fill="#A6CC7E",formula='y~x',level = 0.95)+
labs(x="Tiempo (minutos)",y="Rendimiento (%)",title = "Elaboración de un diagrama de dispersión con línea ajustada")+
theme_classic()
print(g2)
En esta etapa de análisis se realizan tres prubas:
De manera típica se realiza sólo un análisis gráfico, sin embargo se sugiere, de no tener evidencia clara mediante la visualización, realizar las pruebas de hipótesis planteadas anteriormente.
df=df%>%mutate(Residual=rstudent(modelo),Ajustes=modelo$fitted.values)
df
## Tiempo Rendimiento Residual Ajustes
## 1 10 64.0 -1.2626059 69.90703
## 2 15 81.7 1.1378251 75.88164
## 3 20 76.2 -1.2362226 81.85625
## 4 8 68.5 0.2128474 67.51719
## 5 12 66.6 -1.1401763 72.29688
## 6 13 77.9 0.8446005 73.49180
## 7 15 82.2 1.2518493 75.88164
## 8 12 74.2 0.3585796 72.29688
## 9 14 70.0 -0.8952567 74.68672
## 10 20 76.0 -1.2878276 81.85625
## 11 19 83.2 0.5015266 80.66133
## 12 18 85.3 1.1901720 79.46641
qq_res=ggplot(data = df, aes(sample = Residual)) +
stat_qq(shape="+",size=5) +
stat_qq_line() +
ggtitle("Gráfica de Probabilidad Normal de los Residuales") +
xlab("Cuantiles Teóricos") +
ylab("Residuales Studentizados")+
theme_minimal()
qq_res
shapiro=shapiro.test(df$Residual)
print(shapiro)
##
## Shapiro-Wilk normality test
##
## data: df$Residual
## W = 0.83924, p-value = 0.0271
res_aj=ggplot(data=df,aes(x=Ajustes,y=Residual))+
geom_point()+
geom_hline(aes(yintercept=mean(Residual),color="red"))+
stat_smooth(method = "loess",color="#57BBA9",fill="#A6CC7E",formula='y~x',level = 0.95)+
theme_minimal()+
theme(legend.position = "none")
res_aj
bartlett=bartlett.test(list(df$Tiempo,df$Residual))
print(bartlett)
##
## Bartlett test of homogeneity of variances
##
## data: list(df$Tiempo, df$Residual)
## Bartlett's K-squared = 14.559, df = 1, p-value = 0.0001359
Es común, sobre todo en experimentos del área biológica, que se se
pierda la normalidad de los residuos, la homocedasticidad o ambas, esto
debido a la gran cantidad de factores que pueden incidir en nuestro
experimento o a la naturaleza no lineal de los fenómenos
naturales.
En este sentido, la Regresión Lineal Simple presenta fuertes limitantes
en su aplicación con el objetivo de predecir comportamientos en el
ambiente natural.
Sin embargo, se tienen alternativas no paramétricas que
permiten establecer conclusiones válidas sin sugetarse a los estrictos
requisitos de nomrmalidad y homocedasticidad que requiere el ANOVA.
Para esto, una alternativa robusta para la Regresión Lineal Simple es la propuesta por Theil, esta propuesta, publicada en 1950, estima los coeficientes de regresion usando las medianas estimadas de las observaciones (Theil, 1950), lo que lo hace insensible a la distribucion original de los datos, a diferencia del Método de Mínimos Cuadrados.
Para implementar la metodología de Theil en lenguaje seguiremos los siguientes pasos:
install.packages(“mblm”)
library(mblm)
modelo.theil=mblm(Rendimiento~Tiempo,dataframe = df)
summary(modelo.theil)
##
## Call:
## mblm(formula = Rendimiento ~ Tiempo, dataframe = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.3800 -6.0331 0.3794 3.1684 4.6638
##
## Coefficients:
## Estimate MAD V value Pr(>|V|)
## (Intercept) 54.0050 7.1610 78 0.000488 ***
## Tiempo 1.5687 0.5864 76 0.001465 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.881 on 10 degrees of freedom
Una vez establecidos los coeficientes de regresión, mediante la metodología de Theil, podemos hacer algunas predicciones generando una función como se muestra a continuación:
prediccion=function(x){
y=modelo.theil$coefficients[[1]]+modelo.theil$coefficients[[2]]*x
return(y)
}
Supongamos que se requiere estimar un número definido de nuevas observaciones,por ejemplo, 3, 5 y 7 minutos, para lo cual definiremos de la siguiente manera:
nuevas.observaciones=c(3,5,7)
df.1=data.frame("x"=nuevas.observaciones,"y"=prediccion(nuevas.observaciones))
print(df.1)
## x y
## 1 3 58.71125
## 2 5 61.84875
## 3 7 64.98625
Conclusiones:
Por aquí les comparto el siguiente enlace como reforzamiento al análisis realizado: