1 Objetivo

Determinar un modelo de regresión lineal simple para estimar y predecir resultados a partir del modelo.

2 Descripción

Desarrollar el modelo de regresión lineal paso a paso identificar los coeficientes de ecuación por el método de mínimos cuadrados.

Con los coeficientes encontrados se van a realizar predicciones con nuevos valores de la variable depeiente xx

3 Marco teórico

Para construir un modelo de regresión lineal se requiere disponer de datos. Se necesita una variable independiente llamada xx y una variable dependiente llamada yy.

Se cargan las librerías necesarias1 Objetivo

Determinar un modelo de regresión lineal simple para estimar y predecir resultados a partir del modelo.

2 Descripción

Desarrollar el modelo de regresión lineal paso a paso identificar los coeficientes de ecuación por el método de mínimos cuadrados.

Con los coeficientes encontrados se van a realizar predicciones con nuevos valores de la variable depeiente xx

3 Marco teórico

Para construir un modelo de regresión lineal se requiere disponer de datos. Se necesita una variable independiente llamada xx y una variable dependiente llamada yy.

Se cargan las librerías necesarias

Ejemplo:

Caso de pizzas cercanas a instituciones educativas. A mayor cantidad de alumnos cerca de un restaurante de pizzas posiblemente las ventas aumentan.

El ejemplo identifica a xx como la cantidad de estudiante de una escuela que están cerca de un restaurante pizzas y yy el valor de las ventas registradas.

La variable datos significan las ventas registradas por la cantidad de número de estudiantes cerca del restaurante. Los datos que se presentan son valores en miles de estudiantes y ventas en miles. Fuente del ejercicio de (Anderson, Sweeney, and Williams 2008).

Son 10 observaciones.

n <- 10
i <- 1:n
x <- c(2,6,8,8,12,16,20,20,22,26)
y <- c(58,105,88,118,117,137,157,169,149,202)
       
datos <- data.frame(i, x,y)
datos
##     i  x   y
## 1   1  2  58
## 2   2  6 105
## 3   3  8  88
## 4   4  8 118
## 5   5 12 117
## 6   6 16 137
## 7   7 20 157
## 8   8 20 169
## 9   9 22 149
## 10 10 26 202

Se visualiza la relación de los datos mediante un diagrama de dispersión, la pregunta es ¿se observa una relación lineal entre las variables xx y yy, es decir entre la cantidad de estudiantes que están cerca del restaurante y las ventas?, es posible aplicar un modelo de regresión lineal simple. Las respuestas a estas preguntas es que SI.

La variable independiente es xx la cantidad de estudiantes y

La variable dependiente es yy las ventas de pizzas.



## **3.1 Correlación lineal**

La utilidad principal de los análisis correlacionales es saber cómo se puede comportar un concepto o una variable al conocer el comportamiento de otras variables vinculadas, por ejemplo: a mayor estudio mejor rendimiento; a mayor cantidad de sol mayor temperatura de ambiente; a mayor frecuencia de actividad social mayor porcentaje de contagios, entre muchos otros. (Hernández Sampieri, Fernández Collado, and Baptista Lucio 2014).

La importancia de la correlación es conocer el grado de relación entre variables y ayuda a las técnicas de predicción, es decir, intentar predecir el valor aproximado que tendrá un grupo de individuos o casos en una variable, a partir del valor que poseen en las variables relacionadas (Hernández Sampieri, Fernández Collado, and Baptista Lucio 2014).

La correlacion puede ser positiva o negativa de entre −1−1 a 11 y significa que el coeficiente r de Pearson puede variar de −1.00−1.00 a +1.00+1.00, donde:

-   −1.00−1.00 = correlación negativa perfecta. ("A mayor X, menor Y," de manera proporcional. Es decir, cada vez que X aumenta una unidad, Y disminuye siempre una cantidad constante). Esto también se aplica "a menor X, mayor Y."

-   −0.90−0.90 = Correlación negativa muy fuerte.

-   −0.75−0.75 = Correlación negativa considerable.

-   −0.50−0.50 = Correlación negativa media.

-   −0.25−0.25 = Correlación negativa débil.

-   −0.10−0.10 = Correlación neg ativa muy débil.

-   0.000.00 = No existe correlación alguna entre las variables.

-   +0.10+0.10 = Correlación positiva muy débil.

-   +0.25+0.25 = Correlación positiva débil.

-   +0.50+0.50 = Correlación positiva media.

-   +0.75+0.75 = Correlación positiva considerable.

-   +0.90+0.90 = Correlación positiva muy fuerte.

-   +1.00+1.00 = Correlación positiva perfecta ("A mayor X, mayor Y" o "a menor X, menor Y," de manera proporcional. Cada vez que X aumenta, Y aumenta siempre una cantidad constante).

El signo indica la dirección de la correlación (positiva o negativa); y el valor numérico, la magnitud de la correlación (Hernández Sampieri, Fernández Collado, and Baptista Lucio 2014).

Por otra parte (Walpole, Myers, and Myers 2012), menciona que el análisis de correlación intenta medir la intensidad de tales relaciones entre dos variables por medio de un solo número denominado coeficiente de correlación.

Para determinar el coeficiente de correlación de Pearson de una muestra se utiliza la siguiente fórmula:

### **3.1.1 Fórmula para correlación de Pearson3.1 Correlación lineal**

La utilidad principal de los análisis correlacionales es saber cómo se puede comportar un concepto o una variable al conocer el comportamiento de otras variables vinculadas, por ejemplo: a mayor estudio mejor rendimiento; a mayor cantidad de sol mayor temperatura de ambiente; a mayor frecuencia de actividad social mayor porcentaje de contagios, entre muchos otros. (Hernández Sampieri, Fernández Collado, and Baptista Lucio 2014).

La importancia de la correlación es conocer el grado de relación entre variables y ayuda a las técnicas de predicción, es decir, intentar predecir el valor aproximado que tendrá un grupo de individuos o casos en una variable, a partir del valor que poseen en las variables relacionadas (Hernández Sampieri, Fernández Collado, and Baptista Lucio 2014).

La correlacion puede ser positiva o negativa de entre −1−1 a 11 y significa que el coeficiente r de Pearson puede variar de −1.00−1.00 a +1.00+1.00, donde:

-   −1.00−1.00 = correlación negativa perfecta. ("A mayor X, menor Y," de manera proporcional. Es decir, cada vez que X aumenta una unidad, Y disminuye siempre una cantidad constante). Esto también se aplica "a menor X, mayor Y."

-   −0.90−0.90 = Correlación negativa muy fuerte.

-   −0.75−0.75 = Correlación negativa considerable.

-   −0.50−0.50 = Correlación negativa media.

-   −0.25−0.25 = Correlación negativa débil.

-   −0.10−0.10 = Correlación neg ativa muy débil.

-   0.000.00 = No existe correlación alguna entre las variables.

-   +0.10+0.10 = Correlación positiva muy débil.

-   +0.25+0.25 = Correlación positiva débil.

-   +0.50+0.50 = Correlación positiva media.

-   +0.75+0.75 = Correlación positiva considerable.

-   +0.90+0.90 = Correlación positiva muy fuerte.

-   +1.00+1.00 = Correlación positiva perfecta ("A mayor X, mayor Y" o "a menor X, menor Y," de manera proporcional. Cada vez que X aumenta, Y aumenta siempre una cantidad constante).

El signo indica la dirección de la correlación (positiva o negativa); y el valor numérico, la magnitud de la correlación (Hernández Sampieri, Fernández Collado, and Baptista Lucio 2014).

Por otra parte (Walpole, Myers, and Myers 2012), menciona que el análisis de correlación intenta medir la intensidad de tales relaciones entre dos variables por medio de un solo número denominado coeficiente de correlación.

Para determinar el coeficiente de correlación de Pearson de una muestra se utiliza la siguiente fórmula:

### **3.1.1 Fórmula para correlación de Pearson**

$$
r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})\cdot(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^{2}\cdot\sum_{i=1}^{n}(y_i - \bar{y})^{2}}}


$$

El método de *Pearson*, no es el único método para identificar un correlación lineal, el coeficiente de Pearson se utiliza cuando se deduce que los datos tiene un comportamiento de normalidad (se comportan bajo una distribución normal), principalmente. Se presentan algunas de ellas que son alternativas dependiendo del comportamiento de los datos en cuanto a normalidad, cantidad, outliers (datos atípicos), homogéeneidad, entre otros.

### **3.1.2 Fórmula para coeficiente de Spearman (Spearman's rho)**

Existen otras alternativa tales como correlación coeficiente de *Spearman que* se emplea como alternativa cuando los valores son ordinales, o bien, cuando los valores son continuos pero no satisfacen la condición de normalidad;

$$
r_{s}=1-\frac{6\sum d_{i}^{2}}{n (n^{2}-1)},
$$

Siendo didi la distancia entre los rangos de cada observación (xi−yi)(xi−yi) y nn el número de observaciones.

### **3.1.3 Fórmula para coeficiente Tau de Kendall**

Trabaja con rangos, por lo que requiere que las variables cuya relación se quiere estudiar sean ordinales o que se puedan transformar en rangos. Es otra alternativa al *Coeficiente de correlación de Pearson* cuando no se cumple la condición de normalidad. Parece ser más aconsejable que el coeficiente de *Spearman* cuando el número de observaciones es pequeño o los valores se acumulan en una región por lo que el número de ligaduras al generar los rangos es alto (Amat Rodrigo 2016).

$$
\tau= \frac{C-D}{\frac{1}{2}n(n-1)},
$$

Siendo la CC el número de pares concordantes, aquellos en los que el rango de la segunda variable es mayor que el rango de la primera variable. DD el número de pares discordantes, cuando el rango de la segunda es igual o menor que el rango de la primera variable.

Tau ττ como coeficiente, representa una probabilidad; es decir, es la diferencia entre la probabilidad de que las dos variables estén en el mismo orden (ordinalidad) en los datos observados versus la probabilidad de que las dos variables estén en diferentes órdenes (Amat Rodrigo 2016).

### **3.1.4 Fórmula de correlación de Jackknife**

El coeficiente de correlación de *Pearson* resulta efectivo en ámbitos muy diversos. Sin embargo, tiene la desventaja de no ser robusto frente a *outliers* a pesar de que se cumpla la condición de normalidad (Amat Rodrigo 2016).

Si dos variables están altamente correlacionadas excepto para una observación en la que los valores son muy dispares atípicos, entonces la correlación existente quedará expuesta. Una forma de evitarlo es recurrir al coeficiente de *Jackknife correlation* que consiste en calcular todos los posibles coeficientes de correlación entre dos variables si se excluye cada vez una de las observaciones. El promedio de todas las *Jackknife correlations* calculadas atenuará en cierta medida el efecto del *outlier* (Amat Rodrigo 2016).

$$
\bar{\theta}_{(A,B)} = \text{Promedio Jackknife correlation (A,B)} = \frac{1}{n}\cdot \sum_{i=1}^n \cdot\hat r_i


$$

Donde nn es el número de observaciones y r^ir\^i es el coeficiente de correlación de *Pearson* estimado entre las variables AA y BB, habiendo excluido la observación ii.

Para estos ejercicios se antepone el hecho de que los datos tienen normalidad sin atípicos por lo que se utilizará e interpretará sólamente el coeficiente de correlación de *Pearson*.

Si se tuviera que determinar manualmente el coeficiente de correlación de Pearson rr con los datos sería:

Con *cbind()* se agregan columnas a un *data.frame(),* con *rbind*() se agregan reglones a un *data.frame()* y con *apply*() se calculan los totales por cada columna de acuerdo los parámetros que se le indique.




Coeficiente de Correlación media de x: 14 media de y 130

$$
r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})\cdot(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^{2}\cdot\sum_{i=1}^{n}(y_i - \bar{y})^{2}}} = \frac{2840}{\sqrt{568 \times 15730}} = \frac{2840}{2989.087}=0.950123


$$


```r
numerador <- sum((datos$x - mean(datos$x)) * (datos$y - mean(datos$y)))
                 
numerador
## [1] 2840
denominador <- sqrt(sum((datos$x - mean(datos$x))^2) *  sum((datos$y - mean(datos$y))^2))
denominador
## [1] 2989.087
correla <- numerador / denominador 
correla
## [1] 0.950123
correla <- cor(datos$x, datos$y)
correla
## [1] 0.950123
# o 

pairs(x = datos[,2:3])

Puede verse mas amigable con la función chart.Correlation de la librería PerformanceAnalytics que previamente se cargó.

La imagen anterior visualiza el tipo de relación lineal, el valor del coeficiente de correlación de Pearson y con los asteriscos ‘***’ indica si la variable independiente es estadísticamente significativa con respecto a la variable dependiente.

Se entiende que es una correlación lineal positiva muy fuerte

Siendo rr el valor del coeficiente de correlación. La correlación de Pearson funciona bien con variables cuantitativas que tienen una distribución normal .

La idea básica del análisis de correlación es identificar la asociación entre dos variables; por lo general, se puede describir la relación graficando o elaborando un diagrama de dispersión entre xx y yy.

3.2 Regresión lineal simple

La regresión lineal simple implica aplicar una ecuación matemática de mínimos cuadrados que permite pronosticar o predecir el valor de una variable con base en el valor de otra; este procedimiento se llama análisis de regresión.

El análisis de regresión es un método para examinar una relación lineal entre dos variables; se utiliza el concepto de correlación r, sin embargo, la regresión proporciona mucho más información, además de permitir estimaciones o predicciones de la relación lineal con la ecuación de mínimos cuadrados (Lind, Marchal, and Wathen 2015).

3.2.1 Mínimos cuadrados

Para estimar la recta de regresión se utiliza la fórmula de mínimos cuadrados. A la variable dependiente o respuesta se le identifica como YY y a la variable predictora o independiente como X


\[ \hat{y} = \hat{\beta}_0 + \hat{\beta}_1x \]

ó

$$ Y=a+bx

$$

en donde:

y^ o Yy^ o Y es igual al valor de la predicción, β^0 o aβ^0 o a es el coeficiente de la intersección de recta estimada con el eje de las yy, β^1 o bβ^1 o b es el valor de la pendiente y xx es cada valor de la variable independiente.

¿cómo determinar los coeficientes aa y bb?

$$ b=_1 = =

$$

Se requieren las medias de las variables xx y yy, es decir x¯x¯ y y¯y¯, y desarrollar la fórmula.

Entonces bb se obtiene con la sumatoria de la diferencia de cada valor de xx menos su media x¯x¯ multiplicada por la diferencia de cada valor de yy menos su media y¯y¯ todo el resultado dividido entre la sumatoria del cuadrado de la diferencia de cada valor de xx menos su media x¯x¯, y con ello se obtiene bb o b1^b1^

De manera alternativa el coeficiente o la pendiente bb se puede determinar multiplicando el valor del coeficiente de correlación determinado previamente multiplicado por la división de la desviación estándar SySy de la variable dependiente yy entre la desviación estándar SxSx de la variable independiente xx, es decir: r×SySxr×SySx

y

$$ a=β0=y¯¯¯−β1x¯¯¯

$$

Determinando los coeficientes de aa y bb aplicando la fórmula:

$$ b=_1 =

$$

b <-  sum((datos$x - mean(datos$x)) * (datos$y - mean(datos$y))) / sum((datos$x - mean(datos$x))^2)
b 
## [1] 5
a = mean(datos$y) - b * mean(x)
a
## [1] 60

Determinando los coeficientes de aa y bb aplicando las fórmula determinando b usando el coeficiente de correlación

b = correla * sd(datos$y) / sd(datos$x)
b
## [1] 5


a = mean(datos$y) - b * mean(x)
a
## [1] 60

En ambos casos se debe generar los mismos valores para los coeficientes aa y bb o bb y aa respectivamente.

Toda vez que se tienen los coeficientes aa y bb ya se puede determinar la recta de regresión para cada valor de xx.

Por ejemplo: para un valor de xi=1xi=1 el valor de Y=a+bx1=Y=a+bx1= 65; para un valor de un valor de xi=2xi=2 el valor de Y=a+bx2=Y=a+bx2= 70 y para un valor de un valor de xi=50xi=50 el valor de Y=a+bx50=Y=a+bx50= 310 y así sucesivamente.

Aquí los valores predecidos de YY por cada valor de la variable independiente xx.

A estos valores se les llama también valores de la recta o valores ajustados.

Se presentan los valores de predicción para cada valor de x


datos$x
##  [1]  2  6  8  8 12 16 20 20 22 26
Y = a + b*(datos$x)
Y
##  [1]  70  90 100 100 120 140 160 160 170 190

3.2.2 Diagrama de dispersión y recta de regresión

Con estos valores ya se puede dibujar la recta en el diagrama de dispersión.


## **3.3 lm()**

Determinando el modelo de regresión lineal simple con la función *lm().*

### **3.3.1 Construir el modelo**

Un modelo de regresión lineal es la aplicación de la fórmula a partir de la historia de los datos, en don de participan las variables independientes xx y la variable dependiente yy. La función *lm()* del paquete base de R, ya genera los estadísticos necesarios para interpretar una regresión lineal simple.

Hay por lo menos dos argumentos necesarios que se incorporan en la función *lm()*: el origen de los datos o sea *data = datos* y la fórmula *formula = y\~x,* que indica que la variable yy es regresiva en función de la variable xx o yy depende de xx.

El resultado de la función *lm()* se almacena en una variable llamada modelo (puede tener cualquier nombre válido de R).

En la variable modelo, se encuentran los estadísticos necesarios para su interpretación. Se utiliza la función *summary()* alojado en la variable *sm* para mostrarlos.


```r
modelo <- lm(data = datos, formula = y~x)
sm <- summary(modelo) 
sm
## 
## Call:
## lm(formula = y ~ x, data = datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -21.00  -9.75  -3.00  11.25  18.00 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  60.0000     9.2260   6.503 0.000187 ***
## x             5.0000     0.5803   8.617 2.55e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.83 on 8 degrees of freedom
## Multiple R-squared:  0.9027, Adjusted R-squared:  0.8906 
## F-statistic: 74.25 on 1 and 8 DF,  p-value: 2.549e-05

A este momento hay que interpretar dos cosas:

3.3.1.1 Coeficientes aa y bb

Los valores de los coeficientes aa y bb a partir de la construcción del modelo. El valor de a=60a=60 que es la intersección del inicio de la linea recta o de tendencia en el eje Y, y bb el valor de la pendiente que para este caso es a=5a=5 que significa que por cada valor de xx el valor de predicción YY aumenta en cinco unidades.

modelo$coefficients
## (Intercept)           x 
##          60           5
a <- modelo$coefficients[1]
b <- modelo$coefficients[2]

.3.1.2 Valores ajustados

Y también se pueden obtener los valores ajustados de la linea por cada valor de xx de los datos que coinciden con los calores de YY que se calcularon de acuerdo a la fórmulaY=a+bxiY=a+bxi.

modelo$fitted.values
##   1   2   3   4   5   6   7   8   9  10 
##  70  90 100 100 120 140 160 160 170 190

3.3.1.3 Diagrama de dispersión y recta de regresión

El diagrama de dispersión también puede verse usando modelo$fitted.values en el ggplot().


3.3.1.4 Residuales

Los residuales con respecto a xx que se generaron con la tabla construida arriba en donde se obtuvieron valores de x−xi¯x−xi¯ se obtienen usando la expresión modelo$residuals

modelo$residuals
##   1   2   3   4   5   6   7   8   9  10 
## -12  15 -12  18  -3  -3  -3   9 -21  12

Coeficiente de determinación R2:

El coeficiente de determinación R2R2, describe la proporción de variabilidad observada en la variable dependiente Y explicada por el modelo y relativa a la variabilidad total. Su valor está acotado entre 0 y 1. (Amat Rodrigo 2016). Es decir, el valor numérico de R2R2 es que tanto impacta o representa la variable xx al valor de predicción YY, por supuesto entre más alto mejor la representatividad y variabilidad total de YY.

\[ \frac{\sum(\hat{y_i}-y_i)^2}{\sum(y_i-\overline{y})^2} \]

Se construye una tabla2 para reflejar estas sumatorias siendo YY el valor de y^y^ o el valor de la predicciones.


Sumatorias para determinar coeficiente de determinación R-Square

Se determinan paso a paso el numerador y el denominador conforme a la fórmula.


```r
numerador <- sum((Y - datos$y)^2)
denominador <- sum((datos$y - mean(datos$y))^2)

numerador
## [1] 1530
denominador
## [1] 15730
r.cuad <- numerador / denominador
r.cuad
## [1] 0.09726637

El coeficiente de determinación r2r2 o R-squared se puede extraer con el modelo mediante sm$r.squared que debe ser el mismo valor que se genera conforme a la fórmula

sm$r.squared
## [1] 0.9027336

El valor de coeficiente de determinación o R-squared R2R2 es igual al cuadrado del coeficiente de correlación de Pearson rr entre xx e yy , entonces hay que asociar es el valor de la correlación lineal r=r= 0.950123.

correla^2
## [1] 0.9027336

El valor de la correlación de Pearson entonces es la raiz cuadrada que del coeficiente de determinación o r2r2 R-squared, también debe ser el mismo valor que el coeficiente de correlación de Pearson calculado arriba.

sqrt(sm$r.squared)
## [1] 0.950123

Finalmente para que sirve obtener la ecuación de regresión lineal simple, la respuesta es que se pueden predecir o pronosticar valores de YY a partir de la ecuación o se puede hacer mediante la función predict() directmente.

Por ejemplo, cual sería la predicción para un numero de estudiantes de 28 mil, 36 mil, 57 mil

$$ Y=a+bxi

$$

$$ Y=a+b⋅28;Y=a+b⋅36;Y=a+b⋅57;

$$

estudiantes <- c(28, 36, 57)

predict(object = modelo, newdata = data.frame(x=estudiantes))
##   1   2   3 
## 200 240 345

4 Desarrollo

Con lo anteriormente descrito, se construyen modelos de regresión lineal simple para cada conjunto de datos en donde se busca encontrar e interpretar aspectos siguientes:

  1. Generar o importar los datos y contextualizar los datos.

  2. Identificar variables independiente y dependiente es decir, xx e yy.

  3. Visualizar el modelo de dispersión y observar la relación lineal.

  4. Determinar el coeficiente de correlación de Pearson rr e interpretar su significado.

  5. Construir el modelo,

  6. Determinar los coeficiente aa y bb e interpretar su significado.

  7. Determinar la recta de regresión o tendencia e interpretar su significado

  8. Identificar con summary(modelo) el valor del coeficiente de determinación R-Square e interpretar su significado

  9. Predecir con valore nuevos

  10. Establecer conclusiones e interpretaciones finales de cada ejercicio.

4.1 American Women

Es un conjunto de datos provistos por los paquetes base de R, se encuentra varios de ellos con la función data() y se utilizará el de nombre women().

Los datos son promedios pesos y estaturas de mujeres de Estados Unidos.

4.1.1 Datos

datos <- women

names(datos) <- c('estatura', 'peso')
datos
##    estatura peso
## 1        58  115
## 2        59  117
## 3        60  120
## 4        61  123
## 5        62  126
## 6        63  129
## 7        64  132
## 8        65  135
## 9        66  139
## 10       67  142
## 11       68  146
## 12       69  150
## 13       70  154
## 14       71  159
## 15       72  164

Promedios de estaturas y pesos de mujeres Americanas

4.1.2 Variables

  • La variable idependiente será la estatura height.

  • La variable dependiente será el peso weight.

4.1.3 Gráfico de dispersión

Se observa una relación absolutamente lineal, se visualiza el histograma para asegurarse de que las variables se comportan bajo una distribución normal además de no tener datos atípicos por lo que determinar el coeficiente de Pearson es adecuado.

4.1.4 Coeficiente de correlación de Pearson

correla <- cor(datos$estatura, datos$peso)
correla
## [1] 0.9954948

Se observa una correlación positiva muy fuerte casi perfecta en los datos.

4.1.5 Modelo de regresión lineal simple

Se construye el modelo con la fórmula peso en función de la estatura de acuerdo a los datos.

modelo <- lm(data = datos, formula = peso~estatura)
sm <- summary(modelo)
sm
## 
## Call:
## lm(formula = peso ~ estatura, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.7333 -1.1333 -0.3833  0.7417  3.1167 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -87.51667    5.93694  -14.74 1.71e-09 ***
## estatura      3.45000    0.09114   37.85 1.09e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.525 on 13 degrees of freedom
## Multiple R-squared:  0.991,  Adjusted R-squared:  0.9903 
## F-statistic:  1433 on 1 and 13 DF,  p-value: 1.091e-14

4.1.6 Coeficientes aa y bb

Coeficiente del modelo de regresión lineal simple aa y b


a <- modelo$coefficients[1]
b <- modelo$coefficients[2]

La ecuación de mínimos cuadrados es de la siguiente manera

$$ Y=a+bxi

$$

4.1.7 Linea de tendencia


¿Cuál debiera ser el peso de una persona que mide aproximadamente 60 70 u 80 pulgadas?


```r
nuevas.estaturas <- c(60, 70, 80)
Y = a + b * nuevas.estaturas
Y
## [1] 119.4833 153.9833 188.4833

o se puede predecir mediante la función predict()

predict(object = modelo, newdata = data.frame(estatura = nuevas.estaturas))
##        1        2        3 
## 119.4833 153.9833 188.4833
# predict(object = modelo, newdata = data.frame(estatura = estaturas))

Interpretación

¿Cuál es el valor de R_Squared y que significa?. 0.991 significa que el peso de las personas es representado en un 99.1% por la estatura de las mismas.

Referencias bibliográficas

Amat Rodrigo, Joaquín. 2016. “Correlación Lineal y Regresión Lineal Simple.” https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal.

Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia Brasil Corea España Estados Unidos Japón México Reino Unido Singapur: Cengage Learning,.

Hernández Sampieri, Roberto, Carlos Fernández Collado, and María del Pilar Baptista Lucio. 2014. Metodología de La Investigación. Sexta.

Lind, Douglas, William Marchal, and Samuel Wathen. 2015. Estadística Aplicada a Los Negocios y La Economía. Decimo Sexta. México, D.F.: McGraw-Hill.

Walpole, Ronald E., Raymond H. Myers, and Sharon L. Myers. 2012. Probabilidad y Estadística Para Ingeniería y Ciencias. Novena Edición. México: Pearson.