Regresion LIneal Simple
Analisis de la Estadística descriptiva (PUNTO 1)
Primeramente mostraremos la base de datos obtenida y los datos de las variables a estudiar:
inventario_revistas_por_cada_1000_personas | circulacion_revistas_por_cada_1000_personas | ventas_per_capita |
---|---|---|
206 | 159 | 279 |
123 | 114 | 184 |
90 | 67 | 137 |
543 | 79 | 126 |
76 | 112 | 213 |
10 | 124 | 184 |
172 | 129 | 181 |
102 | 58 | 133 |
29 | 85 | 161 |
89 | 127 | 228 |
900 | 64 | 129 |
282 | 131 | 182 |
167 | 75 | 142 |
134 | 116 | 199 |
27 | 141 | 268 |
209 | 133 | 189 |
92 | 76 | 161 |
45 | 48 | 105 |
112 | 68 | 102 |
574 | 127 | 235 |
86 | 150 | 259 |
345 | 136 | 232 |
235 | 114 | 216 |
254 | 100 | 190 |
24 | 95 | 180 |
78 | 90 | 200 |
584 | 110 | 196 |
43 | 115 | 178 |
24 | 110 | 182 |
695 | 106 | 190 |
[1] "inventario_revistas_por_cada_1000_personas"
[2] "circulacion_revistas_por_cada_1000_personas"
[3] "ventas_per_capita"
Ahora analizaremos valores simples y comunes con cada una de las variables. Y serán siempre los valores mostrados en el siguiente orden, para ahorrar espacio:
1º Inventario de revistas por cada 1000 personas
2º Circulacion de revistas por cada 1000 personas
3º Ventas per capita
Empezando con los valores mínimos que puede tomar cada variable:
[1] 10
[1] 48
[1] 102
Seguido de sus valores máximos que puede tomar cada variable:
[1] 900
[1] 159
[1] 279
Seguido del rango de cada variable:
[1] 10 900
[1] 48 159
[1] 102 279
Seguido del valor de su media aritmética de cada variable:
[1] 211.6667
[1] 105.3
[1] 185.3667
Seguido del valor de las medianas que tiene cada variable:
[1] 117.5
[1] 111
[1] 184
Y con todos esos datos tendremos el tamaño de muestra que para todas las variables será 30, dado que se tienen 30 observaciones.
[1] 30
[1] 30
[1] 30
Seguido del valor de la desviación típica:
[1] 226.112
[1] 28.86491
[1] 44.77259
Seguido de sus valores para la varianza:
[1] 51126.64
[1] 833.1828
[1] 2004.585
Seguido del valor del 1º Quantil:
25%
76.5
25%
80.5
25%
161
Seguido del valor del 3º Quantil:
75%
249.25
75%
127
75%
209.75
Seguido de sus Rangos Intercuartílicos:
[1] 172.75
[1] 46.5
[1] 48.75
Y para finalizar un Histograma de cada una de las variables:
Correlacion Linea y Regresión Lineal Simple con Intercepto (PUNTO 2)
Para hacer un correcto uso de la regresion lineal simple, utilzare la correlacion lineal entre variables primeramente con un pre-supuesto, siendo el valor de la correlacion mas importante, antes de la realizacion de una regresion lineal, porque el valor obtenido nos indicará cuan relacionadas estan 2 variables. Antes de profundizar en cada uno de ellos, mostraremos algunas caracteristicas y funciones de cada uno:
La correlación lineal cuantifica cuan relacionadas están dos variables, sin tomar en cuenta el orden o asignación de cada variable, sino solo la relacion entre ambas, sin considerar la dependencia; mientras que la regresión lineal consiste en generar una ecuación (modelo) que, basándose en la correlación lineal existente entre 2 variables, permita predecir el valor de una variable a partir de la otra, dicho modelo si varía acorde cuál variable se considere dependiende de la otra(el orden de los productos si altera el resultado).
Para mi trabajo experimental, la correlación la emplearemos para 3 variables que no se han controlado y solo medido, entonces solo veremos cuáles si estan relacionadas y haremos posteriormente el respectivo modelo de regresión lineal.
Este problema se abordara mediante un sistema de Regresión Lineal Simple con Intercepto.
Cabe mencionar además los Supuestos del Modelo de Regresión Simple, donde se supone que “epsilon” satisface: • E[epsilon_i]=0 • Var(epsilon_i) = sigma^2 • Cov(epsilon_i,epsilon_j) = 0 para toda i=1,…,n y j=1,….,n con i diferente de j • epsilon->N(0,sigma^2)
Los coeficientes de correlación se pueden calcular mediante métodos paramétricos y no paramétricos. Un coeficiente paramétrico que utilizaremos es el Coeficiente de Correlación de Pearson; en este, si no hay correlación de ningún tipo entre dos variables, entonces tampoco habrá correlación lineal, por lo que r = 0. Sin embargo, el hecho de que ocurra r = 0 solo nos dice que no hay correlación lineal; porque puede que la haya correlacion negativa en otro caso. Mientras mas cercano a cero la correlación es mas débil o nula y mientras mas se acerque a los valores de -1 o 1 será unca correlacion negativa o positiva perfecta.
Primeramente veremos cuales de 3 variables, 2 de ellas tengan a simple vista algun tipo de linealidad o relación, mediante diagramas de dispersión 2 a 2; en el caso de que no haya, no tendrá sentido calcular este tipo de correlaciones y ademas en el caso de cumplirse dicha relacion utilizaremos la funcion cor() en R, para comprobar el nivel de correlación de forma puntual.
Es evidente, a simple vista, que existe una correlacion lineal positiva entre: “ventas_per_capita” y “circulacion_revistas_por_cada_1000_personas”. Aun asi hace falta analizarla de forma cuantitativa. Se utilizará la función cor() para comrpobar los valores.
[1] 0.8912534
[1] -0.05622526
[1] -0.06252136
Estos 3 valores representan:
Modelo 1- correlacion circulacion vs ventas
Modelo 2- correlacion circulacion vs inventario
Modelo 3- correlacion inventario vs ventas
Y como se muestra de entre los 3 valores de correlación solo hay uno que es 0.891253 (redondeando 0.9), el cual, según nuestro rango de correlación se posiciona entre una correlación positiva fuerte y una correlación positiva perfecta, entre las variables circulacion revistas por cada 1000 personas y ventas per capita.
Sin embargo para poder considerar que existe realmente correlación entre las dos variables es necesario calcular su significancia, de lo contrario podría deberse al azar; calcularemos el nivel de significancia para los otros 3 modelos y comprobar si será bueno seleccionar circulacion vs ventas; entonces los respectivos niveles de significancia a un 95% son con la prueba de Pearson (correlacion) son:
Pearson's product-moment correlation
data: circulacion_revistas_por_cada_1000_personas and ventas_per_capita
t = 10.399, df = 28, p-value = 4.028e-11
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.7821141 0.9473401
sample estimates:
cor
0.8912534
Pearson's product-moment correlation
data: circulacion_revistas_por_cada_1000_personas and inventario_revistas_por_cada_1000_personas
t = -0.29799, df = 28, p-value = 0.7679
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.4082254 0.3103301
sample estimates:
cor
-0.05622526
Pearson's product-moment correlation
data: inventario_revistas_por_cada_1000_personas and ventas_per_capita
t = -0.33148, df = 28, p-value = 0.7427
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.4134772 0.3046090
sample estimates:
cor
-0.06252136
Esto quiere decir que como mencionamos anteriormente, de los 3 modelos solo el modelo 1 (circulacion vs ventas) presenta un valor significantivo de 0.891253, ademas de que es el mismo valor de la correlacion obtenido anteriormente. Finalmente se utilizará el Modelo 1, debido a que los otros diagramas no representaban un alto valor de correlación (siendo este casi nulo o muy cercano a cero), ademas de su falta de linealidad mostrada en sus gráficos. A continuación se muestra el Diagrama del Modelo 1 con más detalle.
Planteamiento de la Regresión Lineal Simple con Intercepto y Ajuste de Modelo (PUNTO 3)
Primeramente nombraremos a nuestra variable dependiente o respuesta serán las “ventas_per_capita” y su relacion con la variable predictoria o independiente será la “circulacion_revistas_por_cada_1000_personas”, estableciendo que la media de la variable dependiente “ventas_per_capita” cambia a razón constante cuando el valor de la variable independiente “circulacion_revistas_por_cada_1000_personas” crece o decrece.
Procedemos a analizar el tipo de variables y la distribución que presentan. En este caso, ambas variables son cuantitativas continuas y pueden transformarse en rangos para ordenarlas, disponiendo de la covarianza para cuantificar dicha relación, indicando el grado de variación conjunta. Entonces haremos una prueba de normalidad con la prueba Shapiro-Wilks y visualizaremos si un diagrama de dispersion de cada una de las variables se ajusta o no a una distribucion normal.
Afortunadamente no hubo datos atipicos y todos los puntos se comportan con Normalidad a grandes razgos. Adicionalmente comprobaremos con el test de Shapiro-Wilks la hipótesis nula de que una muestra proviene de una distribución normal. Elegimos un nivel de significanza Alfa=0.05, y tenemos una hipótesis alternativa que sostiene que la distribución no es normal.
Shapiro-Wilk normality test
data: circulacion_revistas_por_cada_1000_personas
W = 0.97008, p-value = 0.5413
Shapiro-Wilk normality test
data: ventas_per_capita
W = 0.97071, p-value = 0.5587
Vemos que en ambos casos el P-value obtenido es superior a nuestro nivel elegido Alfa=5%, por lo que caemos en la region de no rechazo a la hipótesis nula. Entonces nuestra muestra si se distribuye Normal; eso nos implica que si le podremos aplicar un modelo de regresion lineal simple con intercepto, cumpliendo uno de los 4 supuestos de Regresion Lineal Simple.
`geom_smooth()` using formula 'y ~ x'
Ajustando el Modelo (PUNTO 4)
Se muestran todos los valores del summary que analizaremos:
##
## Call:
## lm(formula = ventas_per_capita ~ circulacion_revistas_por_cada_1000_personas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -38.895 -12.511 3.916 12.925 35.785
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 39.7967 14.4978 2.745
## circulacion_revistas_por_cada_1000_personas 1.3824 0.1329 10.399
## Pr(>|t|)
## (Intercept) 0.0104 *
## circulacion_revistas_por_cada_1000_personas 4.03e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 20.66 on 28 degrees of freedom
## Multiple R-squared: 0.7943, Adjusted R-squared: 0.787
## F-statistic: 108.1 on 1 and 28 DF, p-value: 4.028e-11
En este caso nuestro intercepto es significativo siendo que es distinto de 0 , siendo 4.03e-11 respectivamente; las estimaciones de Beta0 y Beta1 son 39.7967 y 1.3824 respectivamente, dando como resultado una pendiente positiva, dicho de otra forma, cada condado deberia tener aproximadamente 39.7967 + 1.3824*Circulacion de revistas por cada 1000 personas; mientras que la prueba R^2 que el 79.43% de la variabilidad de las ventas per capita las explica nuestro modelo; y por último, la estadistcia F nos confirma todo lo ya mencionado siendo un valor p value de igual manera significativo.
De igual manera conviene comprobarlo con la ANOVA.
## Analysis of Variance Table
##
## Response: ventas_per_capita
## Df Sum Sq Mean Sq F value Pr(>F)
## circulacion_revistas_por_cada_1000_personas 1 46177 46177 108.14 4.028e-11
## Residuals 28 11956 427
##
## circulacion_revistas_por_cada_1000_personas ***
## Residuals
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La cual comprueba y nos asegura por el valor de P-value (que es igual al obtenido en el valor de la estadistica F en el Summary), es viable realizar la Regresion Lineal Simple con Intercepto.
Validación de Supuestos (PUNTO 5)
Corroboraremos si todos los supuestos ya tomados son válidos en el modelo de regresión lineal con intercepto. Primero mostrando cada uno de los residuos (ordinales) y su respectiva grafica y la prueba de la distancia de Cook, comprobando la inexistencia de datos atipicos y su significancia; más adelante se mostrarán graficas con los residuos estandarizados, además de las respectivas pruebas descriptivas (Normalidad) y comprobar si todos los supuestos se cumplen y si hay datos atípicos.
## 1 2 3 4 5 6
## 19.3968165 -13.3938118 4.5804207 -23.0087450 18.3710491 -27.2181167
## 7 8 9 10 11 12
## -37.1302691 13.0222951 3.6966721 12.6345919 0.7277122 -38.8951300
## 13 14 15 16 17 18
## -1.4790231 -1.1586728 33.2805652 -34.6599910 16.1385464 -1.1534001
## 19 20 21 22 23 24
## -31.8020097 19.6345919 11.8386909 4.1927176 18.6061882 11.9602149
## 25 26 27 28 29 30
## 8.8723673 35.7845197 4.1359101 -20.7762423 -9.8640899 3.6656320
Si se estandarizan los residuos, se espera que sigan un patron lineal y que no haya puntos outliers y ver que tan lejos o cerca de la distribucón Normal estan cayendo los residuales; de todas formas analizaremos por medio de boxplots los datos atipicos en las variables seleccionadas y si en verdad estan presentes, procederemos a comprobar si son significantes para la implementación del modelo lineal (y en caso de serlo procederemos a identificarlos y reemplazarlos).
Y como se esperaba, no hay datos atípicos en nuestras 2 variables seleccionadas:
Sin embargo para comprobarlo 2 veces se realizará la prueba de Cook con los datos de aquellos condados de Maryland con ventas per capita menores de 130 y mayores a 240, que parecen ser atipicos. Veamos quienes son esos datos:
A continuación se verán los valores de cada una de esas observaciones en la tabla:
## circulacion ventas
## 1 159 279
## 4 79 126
## 11 64 129
## 15 141 268
## 18 48 105
## 19 68 102
## 21 150 259
Y como se puede observar en la gráfica pasada, ninguno de las variables tiene un potencial de Cook igual o mayor a 1, por lo que ninguno califica como outlier. De todas formas le aplicaremos a cada una de las observaciones la prueba de Cook, mostrandolas en un matriz un valor “TRUE” para observaciones que si cuenten como Outliers y un “FALSE” en el caso de que no cuenten como Outliers.
## 1 2 3 4 5 6 7 8 9 10 11 12 13
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 14 15 16 17 18 19 20 21 22 23 24 25 26
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 27 28 29 30
## FALSE FALSE FALSE FALSE
Y como se esperaba, ninguna de las observaciones es significativa en la distancia de Cook; mostrando que si es viable aplicar Regresión Lineal Simple con Intercepto sin tener desperfectos en el modelo influenciados por datos atipicos o outliers; entonces ahora si procederemos a graficar los residuales bajo el supuesto de Normalidad y ver si en verdad se acoplan a la linea.
Se puede observar que los puntos se acoplan a la linea de Normalidad, no lo hacen perfectamente, pero si de una forma muy aceptable; habrá que comprobralo con la matriz de datos estandarizados que a continuación se muestra:
## 1 2 3 4 5 6
## 1.01974544 -0.66032189 0.23288240 -1.14965448 0.90510377 -1.34983401
## 7 8 9 10 11 12
## -1.84995248 0.67406048 0.18357899 0.62824704 0.03720256 -1.94209701
## 13 14 15 16 17 18
## -0.07427272 -0.05717083 1.68469675 -1.73471589 0.80936194 -0.06123808
## 19 20 21 22 23 24
## -1.61412518 0.97631759 0.60935368 0.21066201 0.91729475 0.58904295
## 25 26 27 28 29 30
## 0.43769818 1.77022782 0.20366820 -1.02468455 -0.48574592 0.18042640
Para obtener estos datos, a cada punto residual se le estandarizó, haciéndolos que se distributan N(0,1), no olvidando que sus valores no sobrepasen el intervalo de (-2,2) estrictamente.
Ahora, la próxima gráfica ejemplifica de una mejor manera lo residuales estandarizados, dejando resuleto el supuesto 4º de la regresion lineal demostrado (covarianza=0)….graficamente, así empezarán las conjeturas fuertes.
Dentro de esta gráfica, no se encuentra ningún patron por parte de los puntos, todos estan dispersos aleatoriamente, ademas de que solo 1 de los puntos se nota que esta saliendo apenas un poco, sin embargo, parece que sale del intervalo de Normalidad, pero es solo un error de escalas.
En resumen no hay puntos demasiado alejados de todo el enjambreo o que salgan de los limites de la Normalidad.
Podriamos decir entonces que, los datos se distribuyen de manera Normal(0,1), y que el supuesto de E(ei)=0 se cumple y la varianza es constante…graficamnte. Se puede decir entonces que solo falta comprobar el supuesto de autocorrelacion. A continuación ya se analizarán de manera puntual cada uno de de los supuestos de Regresion Lineal Simple.
La grafica de residuos estandarizados es muy parecida a los datos residuales ordinales, conviene realizar, ahora si ya la verificación puntual de los supuestos con la prueba de bondad de ajuste Anderson-Darling, teniendo las hipótesis:
H0: La muestra proviene de una distribución normal.
H1: La muestra no proviene de una distribución normal.
y rechazaremos H0 a un nivel de significancia Alfa=0.05 si:
Si P-value < Alfa Se rechaza H0
Si P-value >= Alfa No se rechaza H0
y así verificar que los datos se distribuyen o no de forma Normal(0,1).
##
## Anderson-Darling normality test
##
## data: residuos_estandarizados
## A = 0.70087, p-value = 0.06033
Como el P_value obtenido 6.033% caeremos en la región de No rechazo H0. Entonces, no rechazamos H0 a un nivel de significancia Alfa=5%, entonces nuestra muestra si se distribuye N(0,1), comprobando el 1º y 4º supuestos puntualmente (la esperanza =0 y que la muestra se distribuya N(0,1)). En seguida se verá la comprobación del supuesto de varianza constante por medio de la prueba de Breusch-Pagan teniendo las hipótesis:
H0: Existe homocedasticidad (los estimadores son constantes).
H1: No existe homocedasticidad (los estimadores no son constantes).
y rechazaremos H0 a un nivel de significancia Alfa=0.05 si:
Si P-value < Alfa Se rechaza H0
Si P-value >= Alfa No se rechaza H0
y así verificar que la varianza de los datos presenta o no homocedasticidad, mediante datos estudentizados.
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 2.699, df = 1, p-value = 0.1004
Como el P-value = 0.1004 > 0.05, caemos en la region de No rechazo, no se rechaza la H0 a un nivel de significancia Alfa=0.05, por lo tanto hay evidencia de que la varianza de los residuos presenta homocedasticidad, comprobando el 2º supuesto puntualmente (la varianza=constante). Adicionalmente se hará la prueba de White:
##
## White's Test for Heteroskedasticity:
## ====================================
##
## No Cross Terms
##
## H0: Homoskedasticity
## H1: Heteroskedasticity
##
## Test Statistic:
## 5.5402
##
## Degrees of Freedom:
## 12
##
## P-value:
## 0.9375
Por el valor obtenido P-value = 0.9375, caeremos en la region de no rechazo de H0, entonces la hipotesis de homocedasticidad no se rechaza, por lo tanto hay evidencia de que la varianza de los residuos presenta homocedasticidad.
Viene la última prueba, para mostar que la autocorrelación de los residuales es cero, esto se demostrará mediante la prueba de Durbin-Whatson que mide justamente la autocorrelacion en los residuales con las hipótesis:
H0: La autocorrelación de los residuales es 0.
H1: La autocorrelación de los residuales es mayor a 0.
y rechazaremos H0 a un nivel de significancia Alfa = 0.05 si:
Si P-value < Alfa Se rechaza H0
Si P-value >= Alfa No se rechaza H0
y así verificar que la autocorrelación de los datos es o no cero, mediante datos estudentizados.
##
## Durbin-Watson test
##
## data: modelo
## DW = 2.2698, p-value = 0.7562
## alternative hypothesis: true autocorrelation is greater than 0
Como el P-value obtenido es de 0.7562 caemos en la región de no rechazo H0, No se rechaza la H0 a un nivel de significancia Alfa=0.05, por lo tanto hay evidencia de que la autocorrelación de los residuales es cero, no estan autocorrelacionados, comprobando el 3º supuesto puntualmente (cov(residuales)=0).
Concluimos que se cumplen todos los supuestos del modelo de Regresión Lineal Simple, entonces el modelo explicará de una manera adecuada la distribución proporcional de las ventas por condados en Maryland, o sea que en promedio, cada incremento en una unidad de circulación de revistas cada 1000 personas, corresponde a un incremento en las ventas per capita del 1.382 unidades, supiendo que ya existen 39.7967 unidades, sin existir circulacion.
Hacer Estimaciones Puntuales y por Intervalos (PUNTO 6)
Continuamos obteniendo los valores para los intervalos de confianza para sigma^2 con un nivel de confianza del 95%:
## [1] 427.002
## [1] 268.9124
## [1] 781.0403
Sigma^2 tendrá un valor de 427.002 en un intervalo de (268.9124, 781.0403) con un 95% de confianza.
Obtenemos tambien los valores para los intervalos de Beta0 y Beta1, además de los valores ajustados de la matriz del modelo.
## 1 2 3 4 5 6 7 8
## 259.6032 197.3938 132.4196 149.0087 194.6290 211.2181 218.1303 119.9777
## 9 10 11 12 13 14 15 16
## 157.3033 215.3654 128.2723 220.8951 143.4790 200.1587 234.7194 223.6600
## 17 18 19 20 21 22 23 24
## 144.8615 106.1534 133.8020 215.3654 247.1613 227.8073 197.3938 178.0398
## 25 26 27 28 29 30
## 171.1276 164.2155 191.8641 198.7762 191.8641 186.3344
## 2.5 % 97.5 %
## (Intercept) 10.099439 69.49404
## circulacion_revistas_por_cada_1000_personas 1.110121 1.65474
Interpretamos a estos intervalos afirmando que, con una confianza del 95%, la pendiente es positiva y se encuentra entre (1.110121, 1.65474) para Beta1 y (10.099439, 69.49404) los valores para el intervalo de Beta0.
Como ya se conocen los intervalos, conviene probar los puntos influyentes en el calculo de las Beta’s siendo:
Como ninguno de los valores obtenidos es mayor o igual a 2 en valor absoluto, con cluimos que no hay datos influyentes en las estimaciones de los parametros para las Betas.
Utilizaremos 10 valores en “circulacion_revistas_por_cada_1000_personas”, que serán generados de manera aleatoria pero estarán en todo el rango del eje X (“circulacion_revistas_por_cada_1000_personas”):
x |
---|
48.00000 |
60.33333 |
72.66667 |
85.00000 |
97.33333 |
109.66667 |
122.00000 |
134.33333 |
146.66667 |
159.00000 |
Para poder representar el intervalo de confianza a lo largo de todo el modelo se recurre a la función predict() para predecir valores que abarquen todo el eje X (Circulacion de Revistas), usando los 10 valores anteriormente mostrados se ejemplificará los intervalos que tomará el modelo para dicho valor de la “circulacion_revistas_por_cada_1000_personas”. Se añaden al gráfico líneas formadas por los límites superiores e inferiores calculados para cada intervalo de confianza que estarán en todo el rango de las observaciones de la “circulacion_revistas_por_cada_1000_personas” para poder realizar estimaciones.
## fit lwr upr
## 1 106.1534 88.74116 123.5656
## 2 123.2034 108.72378 137.6830
## 3 140.2534 128.47667 152.0300
## 4 157.3033 147.80173 166.8049
## 5 174.3533 166.32652 182.3801
## 6 191.4033 183.58427 199.2223
## 7 208.4533 199.48647 217.4200
## 8 225.5032 214.44754 236.5589
## 9 242.5532 228.89260 256.2138
## 10 259.6032 243.06369 276.1427
Y si, de hecho los valores que toman las “ventas_per_capita” son justamente los valores ahi ajustados, que se encontraran en el intrevalo de confianza ejemplificado; en siguiente se ejemplifica la grafica, que hora además incluirá los límites superior e inferior del intervalo de confianza, para identificar la región en la que, según el modelo generado y para un nivel de confianza del 95% se encuentra el valor promedio de la variable dependiente (ventas per capita).
## `geom_smooth()` using formula 'y ~ x'
Mientras que para representar el intervalo de prediccion para el modelo haremos lo mismo que para el intervalo de confianza, usando los 10 valores anteriormente mostrados se ejemplificará los intervalos que tomará el modelo para dicho valor de las “circulacion_revistas_por_cada 1000_personas”. Se añaden al gráfico líneas formadas por los límites superiores e inferiores calculados para cada predicción que estarán en todo el rango de las observaciones de “circulacion_revistas_por_cada 1000_personas” para poder realizar estimaciones.
## fit lwr upr
## 1 106.1534 60.38360 151.9232
## 2 123.2034 78.46696 167.9398
## 3 140.2534 96.31728 184.1894
## 4 157.3033 113.92166 200.6850
## 5 174.3533 131.27062 217.4360
## 6 191.4033 148.35882 234.4477
## 7 208.4533 165.18558 251.7209
## 8 225.5032 181.75490 269.2516
## 9 242.5532 198.07512 287.0313
## 10 259.6032 214.15823 305.0481
Y como se observa, el modelo si tiene bastante credibilidad, dado que los valores predictivos se encontrarán en el intervalo de prediccion ejemplificado; quedando el diagrama de dispersión, la recta de regresión lineal, con las lineas de prediccion superior e inferior y el intervalo de confianza del 95% superoir e inferior así:
De igual manera conviene analizar los Puntos influyentes en el cálculo de los estimados obtenidos de “ventas_per_capita”, siendo estos así:
Y como ninguno de los valores obtenidos es mayor o igual a 2 en valor absoluto, con cluimos que no hay datos influyentes en los valores estimados de las “ventas_per_capita”.
Conclusiones Finales (PUNTO 7)
Concluimos que se cumplen todos los supuestos del modelo de Regresión Lineal Simple con Intercepto, entonces el modelo explicará de una manera adecuada la distribución proporcional de las ventas por condados en Maryland, o sea que, en promedio, cada incremento en una unidad de circulacion de revistas cada 1000 personas, corresponde a un incremento en las ventas per capita del 1.382 unidades, supiendo que ya existen 39.7967 unidades sin existir circulacion.
Sin embargo se le recomienda a la Empresa contar el numero de personas en cada condado y empezar a reducir sus envios a los condados con menos poblacion, y visceversa, aumentar los envios en los condados con mas población, para asi tener un incremento en sus ventas per capita;siempre y cuando sus numeros de revista se mantengan en como minimo: 39 revistas en cada condado.
Adicionalmente se le recomendaria a la empresa de revistas que reduzca su total de impresiones totales de revistas para asi gastar menos en la impresion, materias primas y entregas o envios de cargamentos, incluido en la reduccion de mano de obra tanto de control de calidad y personal, pensando en el actual mundo globalizado y conectado empezar a crear una pagina web y en subir archivos web de la revista vendiéndola en linea de forma electronica.