Realizar pruebas de significancia del coeficiente de correlación y el coeficiente la pendiente en modelos de regresión lineal simple.
Se construyen unos datos relacionados con el caso anterior de llamadas y ventas y en otros datos aleatorios x e y.
Se determina el coeficiente de correlación de Pearson \(r\)
Se determina el valor del coeficiente de determinación \(r^2\)
Se hace la prueba de significancia para determinar si la correlación estimada de una población es diferente de cero para rechazar o aceptar una hipótesis nula.
Se construye el modelo de regresión linea con la ecuación de mínimos cuadrados \(Y = a + bx\)
Se determinan los coeficiente \(a\) y \(b\)
Se hace una prueba de significancia para evaluar si el valor de la pendiente o valor de \(b\) tiene un significado estadístico de manera tal que se pueda rechazar una hipótesis nula.
Como los datos provienen de una muestra es necesario contemplar pruebas de significancia para estimar parámetros poblacionales con los que se pueda confiar que las estadísticos son significativos.
Las pruebas de significancia implica determinar un valor de \(t\) que van a ser comparados con valores críticos a partir de los cuantiles qt() de distribuciones t student a ciertos grados de libertar y con el nivel de confianza requerido.
De tal forma que se debe utilizar e interpretar en caso de que el valor de \(t\) esté en una zona de confianza se acepta una hipótesis nula y si está fuera se rechaza la hipótesis nula y se acepta hipótesis alternativa.
Hay dos pruebas que se describen en este caso:
Prueba de significancia para correlación \(r\) para saber si la correlación sería diferente de cero en una población.
Prueba de significancia para la pendiente \(b\) para saber si estadísticamente el valor de la pendiente de la recta de estimación en una regresión lineal simple es aceptada con valores de una población.
library(dplyr)
library(mosaic)
library(readr)
library(ggplot2) # Para gráficos
library(knitr) # Para formateo de
library(PerformanceAnalytics) # Para coorelaciones gráficas
library(visualize)
Datos de llamadas que hacen vendedores y las ventas que realizan.
vendedores <- paste("V",1:15, sep="")
llamadas <- c(96, 40, 104, 128, 164, 76, 72, 80 , 36, 84, 180, 132, 120, 44, 84)
ventas <- c(41, 41, 51, 60, 61, 29, 39, 50, 28, 43, 70, 56, 45, 31, 30)
datos <- data.frame(vendedores, llamadas, ventas)
datos
## vendedores llamadas ventas
## 1 V1 96 41
## 2 V2 40 41
## 3 V3 104 51
## 4 V4 128 60
## 5 V5 164 61
## 6 V6 76 29
## 7 V7 72 39
## 8 V8 80 50
## 9 V9 36 28
## 10 V10 84 43
## 11 V11 180 70
## 12 V12 132 56
## 13 V13 120 45
## 14 V14 44 31
## 15 V15 84 30
\[ r = \frac{S_{xy}}{S_x \cdot S_y} \]
chart.Correlation(datos[,2:3], histogram = TRUE)
r <- cor(x = datos$llamadas, y = datos$ventas)
r
## [1] 0.8646318
Significa elevar al cuadrado el coeficiente de correlación e interpretar que tanto afecta o representa la variable llamadas a la variable ventas.
\[ \text{coeficiente de determinación} = r^2 \]
c.determinacion <- r^2
c.determinacion
## [1] 0.7475881
Se establecen hipótesis nula y alternativa con respecto al coeficiente de correlación.
La hipótesis nula \(H_0\) establece que el coeficiente de correlación en una población de donde proviene la muestra sería cero.
La hipótesis alternativa \(H_1\) establece que el coeficiente de correlación en una población de donde proviene la muestra sería diferente de cero.
La idea es demostrar y rechazar la \(H_0\)
\[ \text{Hipótesis nula}: H_0: Correlación = 0 \\ \text{Hipótesis alternativa}: H_1: Correlación \neq 0 \]
Utilizar funciones de la distribución t student para encontrar valores críticos de \(t\) a un valor de confianza que puede ser \(0.90, 0.95, 0.99\).
Luego recordar que si se va a evaluar diferente de cero entonce el valor de alfa es: \(\alpha = (1 - confianza) / 2\). A esto se le llama prueba de dos colas.
Se va a utilizar la función qt() para estimar los valores de t.critico.
Se debe calcular el valor de t con respecto a la correlación \(r\) de la siguiente manera:
\[ t = r \cdot \frac{\sqrt{n-2}}{\sqrt{1 - r^2}} \]
\[ r \text{ el valor de la correlación} \\ (n-2) \text{ grados de libertad} \]
A partir de la fórmula
n <- nrow(datos)
t <- r * (sqrt(n-2) / sqrt(1 - r^2))
t
## [1] 6.205089
Se toma un nivel de confianza al \(95\%\) usando la función de qt()
confianza = 0.95
t.critico <- qt(p = (1 - confianza) / 2, df = n-2, lower.tail = FALSE)
t.critico
## [1] 2.160369
Con la gráfica se ubica el valor de \(t\) con respecto al valor de \(t.critico\) y se estima si está en una zona de aceptación rechazo para concluir que se acepta o se rechaza la \(H_0\).
visualize.t(stat = c(-t.critico, t.critico), section = "tails", df = (n-2)) +
abline(v = t, col = "red", lwd = 3, lty = 2) +
text(0, 0.2, paste(confianza * 100, "%", sep = ""), col = "red") +
xlim(-6,6)
## NULL
El valor de \(t = 6.205089\) está muy a la derecha del valor crítico (no se visualiza por la escala) de \(t = 2.160369\) de tal forma que se entiende o interpreta que está en zona de rechazo.
Al estar en zona de rechazo (azul) se rechaza la \(H_0\) y se acepta \(H_1\)
Entonces con esto se asegura y se prueba que el valor del coeficiente de correlación que se obtuvo de la muestra sería absolutamente diferente de cero en una población con un nivel de confianza del 95% .
Para evaluar es valor de una pendiente se tiene que construir un modelo de regresión lineal, en este caso sería bajo el modelo de la ecuación de mínimos cuadrados \(Y = a+bx\) , de la regresión lineal simple.
Con el modelo se determina el valor del coeficiente de l abcisa \(a\) y el valor de la pendiente \(b\) en la fórmula.
La prueba de significancia del valor de la pendiente \(b\)
Se interpreta de que si este valor de la ecuación obtenido de una muestra tiene significado estadístico en una población y se pudiera utilizar en la fórmula para estimaciones.
Ahora bien, es necesario obtener el valor de t con la siguiente fórmula:
\[ t = \frac{b-0}{S_b} \therefore \]
\[ S_b = \frac{\sqrt{\frac{\sum(y_i - Y)^2}{(n-2)}}}{\sqrt{\sum(x_i-\bar{x})^2}} \]
\[ S_b \text{ es el error estándar de la estimación de la pendiente o varianza de residuos} \\ b \text{ es el valor de la pendiene} \]
Se construye el modelo
modelo <- lm(data = datos, formula = ventas ~ llamadas)
modelo
##
## Call:
## lm(formula = ventas ~ llamadas, data = datos)
##
## Coefficients:
## (Intercept) llamadas
## 19.9800 0.2606
resumen <- summary(modelo)
resumen
##
## Call:
## lm(formula = ventas ~ llamadas, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.873 -2.861 0.255 3.511 10.595
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 19.9800 4.3897 4.552 0.000544 ***
## llamadas 0.2606 0.0420 6.205 3.19e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.72 on 13 degrees of freedom
## Multiple R-squared: 0.7476, Adjusted R-squared: 0.7282
## F-statistic: 38.5 on 1 and 13 DF, p-value: 3.193e-05
ggplot() +
geom_point(data = datos, aes(x = llamadas, y = ventas), colour='blue') +
geom_point(aes(x= mean(datos$llamadas), y = mean(datos$ventas)), col = 'green') +
geom_line(aes( x = datos$llamadas, y = predict(modelo, datos)), color = "red") +
xlab("Llamadas") +
ylab("Ventas") +
ggtitle("Linea de tendencia sobre Conjunto de Datos")
a <- modelo$coefficients[1]
b <- modelo$coefficients[2]
Se presentan una tabla con las columnas con los cálculos necesarios para determinar \(S_b\) a partir de los valores \(x\) e \(y\).
tabla <- data.frame(x = llamadas, y = ventas, x.media = round(mean(llamadas),4), xi.menos.x.media = llamadas - mean(llamadas), xi.menos.x.media.cuad = round((llamadas - mean(llamadas))^2,4), Y = modelo$fitted.values, y.menos.Y = round(ventas - modelo$fitted.values, 4), y.menos.Y.cuad = round((ventas - modelo$fitted.values)^2, 4))
tabla <- rbind(tabla, apply(tabla, 2, sum))
tabla[16,c(1,2,3,6,7)] <- '*'
kable(tabla)
x | y | x.media | xi.menos.x.media | xi.menos.x.media.cuad | Y | y.menos.Y | y.menos.Y.cuad |
---|---|---|---|---|---|---|---|
96 | 41 | 96 | 0 | 0 | 45 | -4 | 16.0000 |
40 | 41 | 96 | -56 | 3136 | 30.405 | 10.595 | 112.2540 |
104 | 51 | 96 | 8 | 64 | 47.085 | 3.915 | 15.3272 |
128 | 60 | 96 | 32 | 1024 | 53.34 | 6.66 | 44.3556 |
164 | 61 | 96 | 68 | 4624 | 62.7225 | -1.7225 | 2.9670 |
76 | 29 | 96 | -20 | 400 | 39.7875 | -10.7875 | 116.3702 |
72 | 39 | 96 | -24 | 576 | 38.745 | 0.255 | 0.0650 |
80 | 50 | 96 | -16 | 256 | 40.83 | 9.17 | 84.0889 |
36 | 28 | 96 | -60 | 3600 | 29.3625 | -1.3625 | 1.8564 |
84 | 43 | 96 | -12 | 144 | 41.8725 | 1.1275 | 1.2713 |
180 | 70 | 96 | 84 | 7056 | 66.8925 | 3.1075 | 9.6566 |
132 | 56 | 96 | 36 | 1296 | 54.3825 | 1.6175 | 2.6163 |
120 | 45 | 96 | 24 | 576 | 51.255 | -6.255 | 39.1250 |
44 | 31 | 96 | -52 | 2704 | 31.4475 | -0.4475 | 0.2003 |
84 | 30 | 96 | -12 | 144 | 41.8725 | -11.8725 | 140.9563 |
* | * | * | 0 | 25600 | * | * | 587.1101 |
De la tabla anterior se obtienen las sumatorias de \((x_i - \bar{x})\) y de \((y_i - Y)^2\). Las sumatorias de las columnas 5 y 8 de la tabla anterior renglón 16. [16, (5,8)]
suma.xi.media.x.cuad <- tabla[16, 5]
suma.yi.menos.Y.cuad <- tabla[16, 8]
suma.xi.media.x.cuad
## [1] 25600
suma.yi.menos.Y.cuad
## [1] 587.1101
Ahora sólo calcular conforme a la fórmula el valor de \(S_b\) y sería
n <- nrow(datos)
Sb <- sqrt(suma.yi.menos.Y.cuad / (n-2)) / sqrt(suma.xi.media.x.cuad)
Sb
## [1] 0.04200182
Y calculando el valor de \(t\) conforme a la fórmula sería:
t <- (b - 0) / Sb
t
## llamadas
## 6.205088
resumen
##
## Call:
## lm(formula = ventas ~ llamadas, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.873 -2.861 0.255 3.511 10.595
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 19.9800 4.3897 4.552 0.000544 ***
## llamadas 0.2606 0.0420 6.205 3.19e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.72 on 13 degrees of freedom
## Multiple R-squared: 0.7476, Adjusted R-squared: 0.7282
## F-statistic: 38.5 on 1 and 13 DF, p-value: 3.193e-05
Los valores específicos incluyendo el valor de \(p\) que es la probabilidad de las regiones en color azul más adelante visto en la gráfica.
Los asteriscos ‘***’ significan que los coeficientes son estadísticamente significativos a niveles de confianza 0.001, 0.01 o 0.05 y que si son útiles como predictores en la ecuación.
resumen$coefficients[2, ]
## Estimate Std. Error t value Pr(>|t|)
## 0.2606250000 0.0420018172 6.2050886762 0.0000319277
S determina la probabilidad de que exista la probabilidad mayor que t, como es a dos colas entonces se multiplica por
Los grados de libertad es el número de observaciones menos el número de variables.
El valor de prob determinado manualmente debe ser el valor de
k <- 2 # Dos variables
gd <- n - k
prob <- pt(q = t, df = gd, lower.tail = FALSE) * 2
prob
## llamadas
## 3.192773e-05
Se verifica y es el mismo valor
resumen$coefficients
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 19.980000 4.38967553 4.551589 0.0005435647
## llamadas 0.260625 0.04200182 6.205089 0.0000319277
Nivel de confianza del 95% con valor de t a una cola
\[ H_0: b \le 0 \\ H_1: b > 0 \]
confianza = 0.95
t.critico <- abs(qt(p = 1 - confianza, df = n-2))
t.critico
## [1] 1.770933
visualize.t(stat = c(t.critico), df = (n-2)) +
abline(v = t, col = "red", lwd = 3, lty = 2) +
text(0, 0.2, paste(confianza * 100, "%", sep = ""), col = "red") +
xlim(-6,6)
## NULL
Nivel de confianza del 95% con valor de t a dos colas
\[ H_0: b = 0 \\ H_1: b \neq 0 \]
confianza = 0.95
t.critico <- abs(qt(p = (1 - confianza) /2 , df = n-2))
t.critico
## [1] 2.160369
visualize.t(stat = c(-t.critico, t.critico), section = "tails", df = (n-2)) +
abline(v = t, col = "red", lwd = 3, lty = 2) +
text(0, 0.2, paste(confianza * 100, "%", sep = ""), col = "red") +
xlim(-6,6)
## NULL
El valor de t está muy lejos a la derecha de los valores críticos.
Con estos valores de t comparados con cualquier valor de t.critico se interpreta que estos datos de la muestra a un 95% de nivel de confianza se debe rechazar la \(H_0\) y aceptar la \(H_1\) con lo cual se concluye que el valor de la pendiente si es un predictor significativo para la ecuación.
Error estándar de los residuos o RSE
\[ RSE = \sqrt{\frac{(y_i - Y)^2}{gd}} \]
\[ gd = n - k \\ gd = \text{número de observaciones menos número de variables de los datos} \therefore \\ gd = 15 - 2 gd = 13 \]
gd <- n-2 # Significa n - k, siend
k <- ncol(datos) - 1
n <- nrow(datos)
n ; k
## [1] 15
## [1] 2
gd <- n - k
gd
## [1] 13
suma <- sum((as.numeric(tabla$y[1:15]) - as.numeric(tabla$Y[1:15]))^2)
numerador <- suma
denominador = gd
RSE <- sqrt(numerador / denominador)
RSE
## [1] 6.720291
¿Qué significa el Error Estándar de los Residuos (RSE)?. Es el promedio en que difieren los valores reales de \(y_i\) con respecto a las predicciones \(Y\).
Para este ejemplo 6.7202907 significa que las predicciones pueden estar \(\pm\) 6.7202907 del valor real de \(y_i\).
Entre mas cercano a cero sea RSS mas confiable serían los predictores.
Se verifica el valor de RSS con respeto al modelo de regresión.
resumen
##
## Call:
## lm(formula = ventas ~ llamadas, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.873 -2.861 0.255 3.511 10.595
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 19.9800 4.3897 4.552 0.000544 ***
## llamadas 0.2606 0.0420 6.205 3.19e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.72 on 13 degrees of freedom
## Multiple R-squared: 0.7476, Adjusted R-squared: 0.7282
## F-statistic: 38.5 on 1 and 13 DF, p-value: 3.193e-05
En este ejercicio se generan datos aleatorios de una muestra de una población x. Se desconoce el valor de la correlación y se determinan las pruebas de significancia de correlación y prueba de significancia de la pendiente en la ecuacuón de regresión lineal simple.
Se genera una semilla
set.seed(2021)
Se generan 100 registros con datos de dos variables \(x, y\), la primera con media \(\bar{x}=50\) y desviación estándar \(S=10\), la segunda con con media \(\bar{x}=100\) y desviación estándar \(S=10\).
n <- 100 # cien datos
datos <- data.frame(x = rnorm(n = n, mean = 50, sd = 10), y = rnorm(n = n, mean = 100, sd = 10))
datos
## x y
## 1 48.77540 97.39664
## 2 55.52457 104.50340
## 3 53.48650 98.57118
## 4 53.59632 95.13279
## 5 58.98054 88.04227
## 6 30.77430 100.46941
## 7 52.61744 98.73468
## 8 59.15566 72.99285
## 9 50.13772 94.29187
## 10 67.29963 105.91598
## 11 39.17795 104.86977
## 12 47.27175 98.73200
## 13 51.81995 87.40800
## 14 65.08542 102.01292
## 15 66.04470 80.83096
## 16 31.58524 116.72739
## 17 66.23310 104.70790
## 18 51.31389 114.14115
## 19 64.81122 100.84299
## 20 65.13318 81.97696
## 21 40.57557 107.53744
## 22 48.14315 96.88057
## 23 38.98875 82.67440
## 24 62.08115 78.61437
## 25 33.75061 123.65798
## 26 51.05378 104.84757
## 27 35.44557 110.93238
## 28 46.45984 103.02908
## 29 49.06300 110.15299
## 30 61.00669 124.53593
## 31 30.36175 97.54379
## 32 35.52056 105.41519
## 33 60.19443 101.96877
## 34 35.78583 79.28838
## 35 43.95468 105.12584
## 36 34.16526 95.94238
## 37 37.14068 103.56198
## 38 35.45315 96.68429
## 39 49.12929 100.80591
## 40 55.04736 97.38468
## 41 51.16389 91.22550
## 42 67.60214 107.41309
## 43 46.54884 73.17037
## 44 71.20000 90.50522
## 45 49.65623 104.46262
## 46 42.07846 87.11171
## 47 64.75515 98.42195
## 48 42.74443 103.47816
## 49 53.12379 99.40378
## 50 56.91964 114.76729
## 51 44.99709 93.45835
## 52 27.44131 97.43185
## 53 50.43741 87.45962
## 54 46.31182 107.71043
## 55 40.39778 90.88648
## 56 51.03766 93.06695
## 57 54.27289 93.82332
## 58 48.29518 107.62123
## 59 34.50860 89.12842
## 60 34.94400 96.00200
## 61 50.16044 108.27796
## 62 48.14636 103.55420
## 63 53.91933 101.59139
## 64 42.43289 109.55395
## 65 52.31418 96.60358
## 66 40.16387 92.72619
## 67 55.65081 83.02194
## 68 66.16752 119.54138
## 69 47.48036 126.66738
## 70 39.44121 120.63379
## 71 46.51768 108.18783
## 72 49.57010 99.20350
## 73 36.02446 95.10551
## 74 64.90216 108.47719
## 75 39.60613 90.40955
## 76 47.63055 109.28687
## 77 40.00859 103.80965
## 78 36.07457 114.94604
## 79 59.82005 95.32296
## 80 53.60941 102.61157
## 81 46.62491 90.07391
## 82 43.56612 89.36619
## 83 28.33115 102.74285
## 84 56.33289 109.45343
## 85 48.55086 107.26189
## 86 37.59973 97.45487
## 87 55.33959 114.85180
## 88 34.11735 102.30286
## 89 40.09035 102.78003
## 90 54.83261 101.47041
## 91 58.10618 88.03711
## 92 47.06335 100.90136
## 93 49.46542 112.19270
## 94 57.35184 94.38507
## 95 50.14985 103.36882
## 96 48.77998 84.63200
## 97 43.53226 97.59870
## 98 41.32142 105.14865
## 99 44.91300 97.61145
## 100 29.22416 105.81819
r <- cor(datos$x, datos$y)
r
## [1] -0.0875466
chart.Correlation(datos)
Se observa que es una correlación negativa con valor de -0.0875466 que significa una correlación negativa de muy débil a débil.
\[ \text{Hipótesis nula}: H_0: Correlación = 0 \\ \text{Hipótesis alternativa}: H_1: Correlación \neq 0 \]
Utilizar funciones de la distribución t student para encontrar valores críticos de \(t\) a un valor de confianza que puede ser \(0.90, 0.95, 0.99\).
Se debe calcular el valor de t con respecto a la correlación \(r\) de la siguiente manera:
A partir de la fórmula
n <- nrow(datos)
t <- r * (sqrt(n-2) / sqrt(1 - r^2))
t
## [1] -0.8700075
Se toma un nivel de confianza al \(95\%\) usando la función de qt()
confianza = 0.95
t.critico <- qt(p = (1 - confianza) / 2, df = n-2, lower.tail = FALSE)
t.critico
## [1] 1.984467
Con la gráfica se ubica el valor de \(t\) con respecto al valor de \(t.critico\) y se estima si está en una zona de aceptación rechazo para concluir que se acepta o se rechaza la \(H_0\).
visualize.t(stat = c(-t.critico, t.critico), section = "tails", df = (n-2)) +
abline(v = t, col = "red", lwd = 3, lty = 2) +
text(0, 0.2, paste(confianza * 100, "%", sep = ""), col = "red") +
xlim(-6,6)
## NULL
El valor de \(t = -1.456016\) está por debajo de t.critico \(t = -1.984467\) de tal forma que se entiende o interpreta que está en zona de aceptación.
Al estar en zona de aceptación se acepta la \(H_0\).
Entonces con esto se asegura y se prueba que el valor del coeficiente de correlación que se obtuvo de la muestra sería un valor de cero en una población con un nivel de confianza del 95% .
Por lo anterior, tal vez ¡no serían! datos para una modelo de regresión lineal simple, sin embargo se va a genera el modelo.
modelo <- lm(data = datos, formula = y ~ x)
modelo
##
## Call:
## lm(formula = y ~ x, data = datos)
##
## Coefficients:
## (Intercept) x
## 104.32334 -0.08992
resumen <- summary(modelo)
resumen
##
## Call:
## lm(formula = y ~ x, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -26.9672 -5.7094 0.8552 6.4709 26.6135
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 104.32334 5.09845 20.46 <2e-16 ***
## x -0.08992 0.10336 -0.87 0.386
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 10.58 on 98 degrees of freedom
## Multiple R-squared: 0.007664, Adjusted R-squared: -0.002461
## F-statistic: 0.7569 on 1 and 98 DF, p-value: 0.3864
ggplot() +
geom_point(data = datos, aes(x = x, y = y), colour='blue') +
geom_point(aes(x= mean(datos$x), y = mean(datos$y)), col = 'green') +
geom_line(aes( x = datos$x, y = predict(modelo, datos)), color = "red") +
xlab("x") +
ylab("y") +
ggtitle("Linea de tendencia sobre Conjunto de Datos")
a <- modelo$coefficients[1]
b <- modelo$coefficients[2]
a ; b
## (Intercept)
## 104.3233
## x
## -0.08992124
Se observa que el \(t\) value es -0.8700075
También se observa que el valor de \(Pr(>|t|)\) del coeficiente de la pendiente \(b\) no es estadísticamente significativo, no tiene algún “*” o es mayor a 0.5.
t <- resumen$coefficients[2, 3]
t
## [1] -0.8700075
Nivel de confianza del 95% con valor de t a una cola
\[ H_0: b \le 0 \\ H_1: b > 0 \]
confianza = 0.95
t.critico <- abs(qt(p = 1 - confianza, df = n-2))
t.critico
## [1] 1.660551
visualize.t(t.critico, df = (n-2)) +
abline(v = t, col = "red", lwd = 3, lty = 2) +
text(0, 0.2, paste(confianza * 100, "%", sep = ""), col = "red") +
xlim(-6,6)
## NULL
Nivel de confianza del 95% con valor de t a dos colas
\[ H_0: b = 0 \\ H_1: b \neq 0 \]
confianza = 0.95
t.critico <- abs(qt(p = (1 - confianza) /2 , df = n-2))
t.critico
## [1] 1.984467
visualize.t(stat = c(-t.critico, t.critico), section = "tails", df = (n-2)) +
abline(v = t, col = "red", lwd = 3, lty = 2) +
text(0, 0.2, paste(confianza * 100, "%", sep = ""), col = "red") +
xlim(-6,6)
## NULL
El valor de t está dentro de zona de aceptación de \(H_0\)
Con estos valores de t comparados con cualquier valor de t.critico se interpreta que estos datos de la muestra a un 95% de nivel de confianza se debe aceptar la \(H_0\) y rechazar la \(H_1\) con lo cual se concluye que el valor de la pendiente no es un buen predictor significativo para la ecuación.
El modelo de regresión lineal simple para estos datos ¡no es adecuado pare predicciones!.
Pendiente