Una empresa de Publicidad está interesada en distribuir proporcionalmente las ventas por condados en Maryland y tenemos aleatoriamente información de varios condados: inventario de las revistas cada 1000 personas, la circulacion de revistas cada 1000 personas y las ventas per capita de las revistas; entonces debemos resolver el problema planteado atendiendo los siguientes puntos:
• 1.- Hacer un analisis sobre la base de datos, es decir, hacer estadistica descriptiva.
• 2.- Realizar graficas adecuadas para visualizar el comportamiento de los datos.
• 3.- Plantear un modelo de regresión lineal simple y justificar empiricamente este hecho.
• 4.- Hacer un analisis completo para justificar formalmente lo planteado en 3.-
• 5.- Hacer un analisis completo sobre la validacion de supuestos.
• 6.- Hacer estimaciones puntuales y por intervalos, justifique la credibilidad de dichas estimaciones. Hacer conclusiones de acuerdo al contexto del problema.
• 7.- Realizar conclusiones Finales de acuerdo al contexto del problema.
Primeramente mostraremos la base de datos obtenida y los datos de las variables a estudiar:
inventario_revistas_por_cada_1000_personas | circulacion_revistas_por_cada_1000_personas | ventas_per_capita |
---|---|---|
206 | 159 | 279 |
123 | 114 | 184 |
90 | 67 | 137 |
543 | 79 | 126 |
76 | 112 | 213 |
10 | 124 | 184 |
172 | 129 | 181 |
102 | 58 | 133 |
29 | 85 | 161 |
89 | 127 | 228 |
900 | 64 | 129 |
282 | 131 | 182 |
167 | 75 | 142 |
134 | 116 | 199 |
27 | 141 | 268 |
209 | 133 | 189 |
92 | 76 | 161 |
45 | 48 | 105 |
112 | 68 | 102 |
574 | 127 | 235 |
86 | 150 | 259 |
345 | 136 | 232 |
235 | 114 | 216 |
254 | 100 | 190 |
24 | 95 | 180 |
78 | 90 | 200 |
584 | 110 | 196 |
43 | 115 | 178 |
24 | 110 | 182 |
695 | 106 | 190 |
## [1] "inventario_revistas_por_cada_1000_personas"
## [2] "circulacion_revistas_por_cada_1000_personas"
## [3] "ventas_per_capita"
Ahora analizaremos valores simples y comunes con cada una de las variables. Y serán siempre los valores mostrados en el siguiente orden, para ahorrar espacio:
1º Inventario de revistas por cada 1000 personas
2º Circulacion de revistas por cada 1000 personas
3º Ventas per capita
Empezando con los valores mínimos que puede tomar cada variable:
## [1] 10
## [1] 48
## [1] 102
Seguido de sus valores máximos que puede tomar cada variable:
## [1] 900
## [1] 159
## [1] 279
Seguido del rango de cada variable:
## [1] 10 900
## [1] 48 159
## [1] 102 279
Seguido del valor de su media aritmética de cada variable:
## [1] 211.6667
## [1] 105.3
## [1] 185.3667
Seguido del valor de las medianas que tiene cada variable:
## [1] 117.5
## [1] 111
## [1] 184
Y con todos esos datos tendremos el tamaño de muestra que para todas las variables será 30, dado que se tienen 30 observaciones.
## [1] 30
## [1] 30
## [1] 30
Seguido del valor de la desviación típica:
## [1] 226.112
## [1] 28.86491
## [1] 44.77259
Seguido de sus valores para la varianza:
## [1] 51126.64
## [1] 833.1828
## [1] 2004.585
Seguido del valor del 1º Quantil:
## 25%
## 76.5
## 25%
## 80.5
## 25%
## 161
Seguido del valor del 3º Quantil:
## 75%
## 249.25
## 75%
## 127
## 75%
## 209.75
Seguido de sus Rangos Intercuartílicos:
## [1] 172.75
## [1] 46.5
## [1] 48.75
Y para finalizar un Histograma de cada una de las variables:
Para hacer un correcto uso de la regresion lineal simple, utilizaré la correlacion lineal entre variables primeramente como un pre-supuesto, siendo el valor de correlación creo yo mas importante, antes de la realización de una regresón lineal, porque el valor nos indicará cuan relacionadas estan 2 variables. Antes de profundizar en cada uno de ellos, mostraremos algunas caracteristicas y funciones de cada uno:
La correlación lineal cuantifica cuan relacionadas están dos variables, sin tomar en cuenta el orden o asignación de cada variable, sino solo la relacion entre ambas, sin considerar la dependencia; mientras que la regresión lineal consiste en generar una ecuación (modelo) que, basándose en la correlación lineal existente entre 2 variables, permita predecir el valor de una variable a partir de la otra, dicho modelo si varía acorde cuál variable se considere dependiende de la otra(el orden de los productos si altera el resultado).
Para mi trabajo experimental, la correlación la emplearemos para 3 variables que no se han controlado y solo medido, entonces solo veremos cuáles si estan relacionadas y haremos posteriormente el respectivo modelo de regresión lineal.
Este problema se abordara mediante un sistema de Regresión Lineal Simple con Intercepto.
Cabe mencionar además los Supuestos del Modelo de Regresión Simple, donde se supone que ε satisface: • E[εi]=0 • Var(εi) = σ2 • Cov(εi,εj) = 0 ∀ i = 1,…,n, j = 1,…,n, i ̸= j. • ε∼N(0,σ2)
Los coeficientes de correlación se pueden calcular mediante métodos paramétricos y no paramétricos. Un coeficiente paramétrico que utilizaremos es el Coeficiente de Correlación de Pearson; en este, si no hay correlación de ningún tipo entre dos variables, entonces tampoco habrá correlación lineal, por lo que r = 0. Sin embargo, el hecho de que ocurra r = 0 solo nos dice que no hay correlación lineal; porque puede que la haya correlacion negativa. Mientras mas cercano a cero la correlación es mas débil o nula y mientras mas se acerque a los valores de -1 o 1 será unca correlacion negativa o positiva.
Primeramente veremos cuales de 3 variables, 2 de ellas tengan a simple vista algun tipo de linealidad o relación, mediante diagramas de dispersión 2 a 2; en el caso de que no haya, no tendrá sentido calcular este tipo de correlaciones y ademas en el caso de cumplirse dicha relacion utilizaremos la funcion cor() en R, para comprobar el nivel de correlación de forma puntual.
Es evidente, a simple vista, que existe una correlacion lineal positiva entre: “ventas_per_capita” y “circulacion_revistas_por_cada_1000_personas”. Aun asi hace falta analizarla de forma cuantitativa. Se utilizará la función cor() para comrpobar los valores.
## [1] 0.8912534
## [1] -0.05622526
## [1] -0.06252136
Estos 3 valores representan:
Modelo 1- correlacion circulacion vs ventas
Modelo 2- correlacion circulacion vs inventario
Modelo 3- correlacion inventario vs ventas
Y como se muestra de entre los 3 valores de correlación solo hay uno que es 0.891253 (redondeando 0.9), el cual, según nuestro rango de correlación se posiciona entre una correlación positiva fuerte y una correlación positiva perfecta, entre las variables circulacion revistas por cada 1000 personas y ventas per capita.
Sin embargo para poder considerar que existe realmente correlación entre las dos variables es necesario calcular su significancia, de lo contrario podría deberse al azar; calcularemos el nivel de significancia para los otros 3 modelos y comprobar si será bueno seleccionar circulacion vs ventas; entonces los respectivos niveles de significancia a un 95% son con la prueba de Pearson (correlacion) son:
##
## Pearson's product-moment correlation
##
## data: circulacion_revistas_por_cada_1000_personas and ventas_per_capita
## t = 10.399, df = 28, p-value = 4.028e-11
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.7821141 0.9473401
## sample estimates:
## cor
## 0.8912534
##
## Pearson's product-moment correlation
##
## data: circulacion_revistas_por_cada_1000_personas and inventario_revistas_por_cada_1000_personas
## t = -0.29799, df = 28, p-value = 0.7679
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.4082254 0.3103301
## sample estimates:
## cor
## -0.05622526
##
## Pearson's product-moment correlation
##
## data: inventario_revistas_por_cada_1000_personas and ventas_per_capita
## t = -0.33148, df = 28, p-value = 0.7427
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.4134772 0.3046090
## sample estimates:
## cor
## -0.06252136
Esto quiere decir que como mencionamos anteriormente, de los 3 modelos solo el modelo 1 (circulacion vs ventas) presenta un valor significantivo de 0.891253, ademas de que es el mismo valor de la correlacion obtenido anteriormente. Finalmente se utilizará el Modelo 1, debido a que los otros diagramas no representaban un alto valor de correlación (siendo este casi nulo o muy cercano a cero), ademas de su falta de linealidad mostrada en sus gráficos. A continuación se muestra el Diagrama del Modelo 1 con más detalle.
Procedemos a analizar el tipo de variables y la distribución que presentan. En este caso, ambas variables son cuantitativas continuas y pueden transformarse en rangos para ordenarlas, disponiendo de la covarianza para cuantificar dicha relación, indicando el grado de variación conjunta. Entonces haremos una prueba de normalidad con la prueba Shapiro-Wilks y visualizaremos si un diagrama de dispersion de cada una de las variables se ajusta o no a una distribucion normal.
Afortunadamente no hubo datos atipicos y todos los puntos se comportan con Normalidad a grandes razgos. Adicionalmente comprobaremos con el test de Shapiro-Wilks la hipótesis nula de que una muestra proviene de una distribución normal. Elegimos un nivel de significanza Alfa=0.05, y tenemos una hipótesis alternativa que sostiene que la distribución no es normal.
##
## Shapiro-Wilk normality test
##
## data: circulacion_revistas_por_cada_1000_personas
## W = 0.97008, p-value = 0.5413
##
## Shapiro-Wilk normality test
##
## data: ventas_per_capita
## W = 0.97071, p-value = 0.5587
Vemos que en ambos casos el P-value obtenido es superior a nuestro nivel elegido Alfa=5%, por lo que caemos en la region de no rechazo a la hipótesis nula. Entonces nuestra muestra si se distribuye Normal; eso nos implica que si le podremos aplicar un modelo de regresion lineal simple con intercepto, cumpliendo uno de los 4 supuestos de Regresion Lineal Simple.
## `geom_smooth()` using formula 'y ~ x'
Se muestran todos los valores del summary que analizaremos:
##
## Call:
## lm(formula = ventas_per_capita ~ circulacion_revistas_por_cada_1000_personas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -38.895 -12.511 3.916 12.925 35.785
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 39.7967 14.4978 2.745
## circulacion_revistas_por_cada_1000_personas 1.3824 0.1329 10.399
## Pr(>|t|)
## (Intercept) 0.0104 *
## circulacion_revistas_por_cada_1000_personas 4.03e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 20.66 on 28 degrees of freedom
## Multiple R-squared: 0.7943, Adjusted R-squared: 0.787
## F-statistic: 108.1 on 1 and 28 DF, p-value: 4.028e-11
En este caso nuestro intercepto es significativo siendo que es distinto de 0 , siendo 4.03e-11 respectivamente; las estimaciones de β0 y β1 son 39.7967 y 1.3824 respectivamente, dando como resultado una pendiente positiva, dicho de otra forma, cada condado deberia tener aproximadamente 39.7967 + 1.3824*Circulacion de revistas por cada 1000 personas; mientras que la prueba R^2 que el 79.43% de la variabilidad de las ventas per capita las explica nuestro modelo; y por último, la estadistcia F nos confirma todo lo ya mencionado siendo un valor p value de igual manera significativo.
De igual manera conviene comprobarlo con la ANOVA.
La cual comprueba y nos asegura por el valor de P-value (que es igual al obtenido en el valor de la estadistica F en el Summary), es viable realizar la Regresion Lineal Simple con Intercepto.
Corroboraremos si todos los supuestos ya tomados son válidos en el modelo de regresión lineal con intercepto. Primero mostrando cada uno de los residuos (ordinales) y su respectiva grafica y la prueba de la distancia de Cook, comprobando la inexistencia de datos atipicos y su significancia; más adelante se mostrarán graficas con los residuos estandarizados, además de las respectivas pruebas descriptivas (Normalidad) y comprobar si todos los supuestos se cumplen y si hay datos atípicos.
## 1 2 3 4 5 6
## 19.3968165 -13.3938118 4.5804207 -23.0087450 18.3710491 -27.2181167
## 7 8 9 10 11 12
## -37.1302691 13.0222951 3.6966721 12.6345919 0.7277122 -38.8951300
## 13 14 15 16 17 18
## -1.4790231 -1.1586728 33.2805652 -34.6599910 16.1385464 -1.1534001
## 19 20 21 22 23 24
## -31.8020097 19.6345919 11.8386909 4.1927176 18.6061882 11.9602149
## 25 26 27 28 29 30
## 8.8723673 35.7845197 4.1359101 -20.7762423 -9.8640899 3.6656320
Si se estandarizan los residuos, se espera que sigan un patron lineal y que no haya puntos outliers y ver que tan lejos o cerca de la distribucón Normal estan cayendo los residuales; de todas formas analizaremos por medio de boxplots los datos atipicos en las variables seleccionadas y si en verdad estan presentes, procederemos a comprobar si son significantes para la implementación del modelo lineal (y en caso de serlo procederemos a identificarlos y reemplazarlos).
Y como se esperaba, no hay datos atípicos en nuestras 2 variables seleccionadas; Sin embargo para comprobarlo 2 veces se realizará la prueba de Cook con los datos de aquellos condados de Maryland con ventas per capita menores de 130 y mayores a 240 parecieran ser atípicos. Veamos quienes son esos datos:
A continuación se verán los valores de cada una de esas observaciones en la tabla:
Y como se puede observar en la gráfica pasada, ninguno de las variables tiene un potencial de Cook igual o mayor a 1, por lo que ninguno califica como outlier. De todas formas le aplicaremos a cada una de las observaciones la prueba de Cook, mostrandolas en un matriz un valor “TRUE” para observaciones que si cuenten como Outliers y un “FALSE” en el caso de que no cuenten como Outliers.
## 1 2 3 4 5 6 7 8 9 10 11 12 13
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 14 15 16 17 18 19 20 21 22 23 24 25 26
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 27 28 29 30
## FALSE FALSE FALSE FALSE
Y como se esperaba, ninguna de las observaciones es significativa en la distancia de Cook; mostrando que si es viable aplicar Regresión Lineal Simple con Intercepto sin tener desperfectos en el modelo influenciados por datos atipicos o outliers; entonces ahora si procederemos a graficar los residuales bajo el supuesto de Normalidad y ver si en verdad se acoplan a la linea.
Se puede observar que los puntos se acoplan a la linea de Normalidad, no lo hacen perfectamente, pero si de una forma muy aceptable; habrá que comprobralo con la matriz de datos estandarizados que a continuación se muestra:
## 1 2 3 4 5 6
## 1.01974544 -0.66032189 0.23288240 -1.14965448 0.90510377 -1.34983401
## 7 8 9 10 11 12
## -1.84995248 0.67406048 0.18357899 0.62824704 0.03720256 -1.94209701
## 13 14 15 16 17 18
## -0.07427272 -0.05717083 1.68469675 -1.73471589 0.80936194 -0.06123808
## 19 20 21 22 23 24
## -1.61412518 0.97631759 0.60935368 0.21066201 0.91729475 0.58904295
## 25 26 27 28 29 30
## 0.43769818 1.77022782 0.20366820 -1.02468455 -0.48574592 0.18042640
Para obtener estos datos, a cada punto residual se le estandarizó, haciéndolos que se distributan N(0,1), no olvidando que sus valores no sobrepasen el intervalo de (-2,2) estrictamente.
Ahora, la próxima gráfica ejemplifica de una mejor manera lo residuales estandarizados, dejando resuleto el supuesto 4º de la regresion lineal demostrado (covarianza=0)….graficamente, así empezarán las conjeturas fuertes.
Dentro de esta gráfica, no se encuentra ningún patron por parte de los puntos, todos estan dispersos aleatoriamente, ademas de que solo 1 de los puntos se nota que esta saliendo apenas un poco, sin embargo, parece que sale del intervalo de Normalidad, pero es solo un error de escalas, si hicieramos un zoom, se veria asi:
En resumen no hay puntos demasiado alejados de todo el enjambreo o que salgan de los limites de la Normalidad.
Podriamos decir entonces que, los datos se distribuyen de manera Normal(0,1), y que el supuesto de E(ei)=0 se cumple y la varianza es constante…graficamnte. Se puede decir entonces que solo falta comprobar el supuesto de autocorrelacion. A continuación ya se analizarán de manera puntual cada uno de de los supuestos de Regresion Lineal Simple.
La grafica de residuos estandarizados es muy parecida a los datos residuales ordinales, conviene realizar, ahora si ya la verificación puntual de los supuestos con la prueba de bondad de ajuste Anderson-Darling, teniendo las hipótesis:
H0: La muestra proviene de una distribución normal.
H1: La muestra no proviene de una distribución normal.
y rechazaremos H0 a un nivel de significancia Alfa=0.05 si:
Si P-value < Alfa Se rechaza H0
Si P-value >= Alfa No se rechaza H0
y así verificar que los datos se distribuyen o no de forma Normal(0,1).
##
## Anderson-Darling normality test
##
## data: residuos_estandarizados
## A = 0.70087, p-value = 0.06033
Como el P_value obtenido 6.033% caeremos en la región de No rechazo H0. Entonces, no rechazamos H0 a un nivel de significancia Alfa=5%, entonces nuestra muestra si se distribuye N(0,1), comprobando el 1º y 4º supuestos puntualmente (la esperanza =0 y que la muestra se distribuya N(0,1)). En seguida se verá la comprobación del supuesto de varianza constante por medio de la prueba de Breusch-Pagan teniendo las hipótesis:
H0: Existe homocedasticidad (los estimadores son constantes).
H1: No existe homocedasticidad (los estimadores no son constantes).
y rechazaremos H0 a un nivel de significancia Alfa=0.05 si:
Si P-value < Alfa Se rechaza H0
Si P-value >= Alfa No se rechaza H0
y así verificar que la varianza de los datos presenta o no homocedasticidad, mediante datos estudentizados.
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 2.699, df = 1, p-value = 0.1004
Como el P-value = 0.1004 > 0.05, caemos en la region de No rechazo, no se rechaza la H0 a un nivel de significancia Alfa=0.05, por lo tanto hay evidencia de que la varianza de los residuos presenta homocedasticidad, comprobando el 2º supuesto puntualmente (la varianza=constante). Adicionalmente se hará la prueba de White:
##
## White's Test for Heteroskedasticity:
## ====================================
##
## No Cross Terms
##
## H0: Homoskedasticity
## H1: Heteroskedasticity
##
## Test Statistic:
## 5.5402
##
## Degrees of Freedom:
## 12
##
## P-value:
## 0.9375
Por el valor obtenido P-value = 0.9375, caemos en la región de no rechazo de H0, entonces la hipótesis de homocedasticidad no se rechaza,por lo tanto hay evidencia de que la varianza de los residuos presenta homocedasticidad.
Viene la última prueba, para mostar que la autocorrelación de los residuales es cero, esto se demostrará mediante la prueba de Durbin-Whatson que mide justamente la autocorrelacion en los residuales con las hipótesis:
H0: La autocorrelación de los residuales es 0.
H1: La autocorrelación de los residuales es mayor a 0.
y rechazaremos H0 a un nivel de significancia Alfa=0.05 o Alfa=5% si:
Si P-value < Alfa Se rechaza H0
Si P-value >= Alfa No se rechaza H0
y así verificar que la autocorrelación de los datos es o no cero, mediante datos estudentizados.
##
## Durbin-Watson test
##
## data: modelo
## DW = 2.2698, p-value = 0.7562
## alternative hypothesis: true autocorrelation is greater than 0
Como el P-value obtenido es de 0.7562 caemos en la región de no rechazo H0, No se rechaza la H0 a un nivel de significancia Alfa=0.05, por lo tanto hay evidencia de que la autocorrelación de los residuales es cero, no estan autocorrelacionados, comprobando el 3º supuesto puntualmente (cov(residuales)=0).
Concluimos que se cumplen todos los supuestos del modelo de Regresión Lineal Simple, entonces el modelo explicará de una manera adecuada la distribución proporcional de las ventas por condados en Maryland, o sea que en promedio, cada incremento en una unidad de circulación de revistas cada 1000 personas, corresponde a un incremento en las ventas per capita del 1.382 unidades monetarias, supiendo que ya existen 39.7967 unidades monetarias sin existir circulacion.
Continuamos obteniendo los valores para los intervalos de confianza para sigma^2 con un nivel de confianza del 95%:
## [1] 427.002
## [1] 268.9124
## [1] 781.0403
Sigma^2 tendrá un valor de 427.002 en un intervalo de (268.9124, 781.0403) con un 95% de confianza.
Obtenemos tambien los valores para los intervalos de β0 y β1, además de los valores ajustados de la matriz del modelo.
## 1 2 3 4 5 6 7 8
## 259.6032 197.3938 132.4196 149.0087 194.6290 211.2181 218.1303 119.9777
## 9 10 11 12 13 14 15 16
## 157.3033 215.3654 128.2723 220.8951 143.4790 200.1587 234.7194 223.6600
## 17 18 19 20 21 22 23 24
## 144.8615 106.1534 133.8020 215.3654 247.1613 227.8073 197.3938 178.0398
## 25 26 27 28 29 30
## 171.1276 164.2155 191.8641 198.7762 191.8641 186.3344
## 2.5 % 97.5 %
## (Intercept) 10.099439 69.49404
## circulacion_revistas_por_cada_1000_personas 1.110121 1.65474
Interpretamos a estos intervalos afirmando que, con una confianza del 95%, la pendiente es positiva y se encuentra entre (1.110121, 1.65474) para β1 y (10.099439, 69.49404) los valores para el intervalo de β0.
Como ya se conocen los intervalos, conviene probar los puntos influyentes en el calculo de las β’s siendo:
Como ninguno es mayor a 2 en valor absoluto, no hay datos influyentes en las estimaciones de los parámetro para las β’s.
Utilizaremos 10 valores en x que serán generados de manera aleatoria pero estarán en todo el rango del eje X:
x |
---|
48.00000 |
60.33333 |
72.66667 |
85.00000 |
97.33333 |
109.66667 |
122.00000 |
134.33333 |
146.66667 |
159.00000 |
Para poder representar el intervalo de confianza a lo largo de todo el modelo se recurre a la función predict() para predecir valores que abarquen todo el eje X (Circulacion de Revistas), usando los 10 valores anteriormente mostrados se ejemplificará los intervalos que tomará el modelo para dicho valor de X. Se añaden al gráfico líneas formadas por los límites superiores e inferiores calculados para cada intervalo de confianza que estarán en todo el rango de las observaciones x’s para poder realizar estimaciones.
## fit lwr upr
## 1 106.1534 88.74116 123.5656
## 2 123.2034 108.72378 137.6830
## 3 140.2534 128.47667 152.0300
## 4 157.3033 147.80173 166.8049
## 5 174.3533 166.32652 182.3801
## 6 191.4033 183.58427 199.2223
## 7 208.4533 199.48647 217.4200
## 8 225.5032 214.44754 236.5589
## 9 242.5532 228.89260 256.2138
## 10 259.6032 243.06369 276.1427
Y si, de hecho los valores que toma la Y son justamente los valores ahi ajustados, que se encontraran en el intrevalo de confianza ejemplificado; en siguiente se ejemplifica la grafica, que hora además incluirá los límites superior e inferior del intervalo de confianza, para identificar la región en la que, según el modelo generado y para un nivel de confianza del 95% se encuentra el valor promedio de la variable dependiente (ventas per capita).
## `geom_smooth()` using formula 'y ~ x'
Mientras que para representar el intervalo de prediccion para el modelo haremos lo mismo que para el intervalo de confianza, usando los 10 valores anteriormente mostrados se ejemplificará los intervalos que tomará el modelo para dicho valor de X. Se añaden al gráfico líneas formadas por los límites superiores e inferiores calculados para cada predicción que estarán en todo el rango de las observaciones x’s para poder realizar estimaciones.
## fit lwr upr
## 1 106.1534 88.74116 123.5656
## 2 123.2034 108.72378 137.6830
## 3 140.2534 128.47667 152.0300
## 4 157.3033 147.80173 166.8049
## 5 174.3533 166.32652 182.3801
## 6 191.4033 183.58427 199.2223
## 7 208.4533 199.48647 217.4200
## 8 225.5032 214.44754 236.5589
## 9 242.5532 228.89260 256.2138
## 10 259.6032 243.06369 276.1427
Y como se observa, el modelo si tiene bastante credibilidad, dado que los valores predictivos que se encontrarán en el intervalo de prediccion ejemplificado; quedando el diagrama de dispersión, la recta de regresión lineal, con las lineas de prediccion superior e inferior y el intervalo de confianza del 95% superoir e inferior así:
De igual manera conviene analizar los Puntos influyentes en el cálculo de los estimados obtenidos de Y, siendo estos asi:
De igual manera como ninguno es mayor a 2 en valor absoluto, no hay datos influyentes en los valores estimados de y.
Concluimos que se cumplen todos los supuestos del modelo de Regresión Lineal Simple con Intercepto, entonces el modelo explicará de una manera adecuada la distribución proporcional de las ventas por condados en Maryland, o sea que, en promedio, cada incremento en una unidad de circulacion de revistas cada 1000 personas, corresponde a un incremento en las ventas per capita del 1.382 unidades monetarias, supiendo que ya existen 39.7967 unidades monetarias sin existir circulacion.
Sin embargo se le recomienda a la Empresa contar el numero de personas en cada condado y empezar a reducir sus envios a los condados con menos poblacion, y visceversa, aumentar los envios en los condados con mas población, para asi tener un incremento en sus ventas per capita;siempre y cuando sus numeros de revistasse antengan en como minimo 39 revistas en cada condado.
Adicionalmente se le recomendaria a la empresa de revistas que reduzca su total de impresiones totales de revistas para asi gastar menos en la impresion, materias primas y entregas o envios de cargamentos, incluido en la reduccion de mano de obra tanto de control de calidad y personal, pensando en el actual mundo globalizado y conectado empezar a crear una pagina web y en subir archivos web de la revista vendiéndola en linea de forma electronica.
SIN EMBARGO TAMBIEN EXISTE EL CASO DE UNA REGRESION LINEAL SIMPLE SIN INTERCEPTO
Por situaciones de espacio, se empezara a estimar desde el punto 2 a calificar.
El modelo anterior es bueno, dado quexplica en un 79.43% de la variabilidad de las ventas per capita, ya que es un caso general del comportamiento de la regresión lineal, sin embargo, si los datos no incluyen el 0 entonces no tendría caso calcular β0 ya que no se presenta una intersección con el eje Y. La manera en la que se construye el modelo de regresión lineal sin intercepto, es similar la construcción con intercep. Y como la recta no tiene intersección con el eje Y con “ventas_per_capita” difernte 0, β0 = 0, lo que provoca que la ecuación de la recta de regresión lineal esté conformada por: y = βx + ε Teniendo los mismos supuestos n: • E[εi]=0
• Var(εi) = σ2
• Cov(εi,εj) = 0 ∀i = 1,…,n j = 1,…,n i ̸= j.
• ε∼N(0,σ2)
Mencionado adicionalmente que se tomara el mismo Modelo 1- correlacion circulacion vs ventas, dada su alto nivel de correlacion y facilidad grafica en la observacion de una regresión lineal.
## [1] 0.8912534
Una de las diferencias es como declararemos la función del modelo lineal, conviene calcular tambien la correlacion de Pearson, revisar si existe algun dato atipico en la muestra (aunque ya se hizo) normalizando la muestra y corroborarlo con el test de Shapiro-Wilks.
##
## Pearson's product-moment correlation
##
## data: circulacion_revistas_por_cada_1000_personas and ventas_per_capita
## t = 10.399, df = 28, p-value = 4.028e-11
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.7821141 0.9473401
## sample estimates:
## cor
## 0.8912534
Esto quiere decir que como mencionamos anteriormente, el modelo 1 (circulacion vs ventas) presenta un valor significantivo de 0.891253, ademas de que es el mismo valor de la correlacion obtenido anteriormente.
Afortunadamente no hubo datos atipicos y todos los puntos se comportan con Normalidad a grandes razgos.
Elegimos un nivel de significanza Alfa=0.05, y tenemos una hipótesis alternativa que sostiene que la distribución no es normal.
##
## Shapiro-Wilk normality test
##
## data: circulacion_revistas_por_cada_1000_personas
## W = 0.97008, p-value = 0.5413
##
## Shapiro-Wilk normality test
##
## data: ventas_per_capita
## W = 0.97071, p-value = 0.5587
Vemos que en ambos casos el P-value obtenido es superior a nuestro nivel elegido Alfa=5%, por lo que caemos en la region de no rechazo a la hipótesis nula. Entonces nuestra muestra si se distribuye Normal; eso nos implica que si le podremos aplicar un modelo de regresion lineal simple sin Intercepto, cumpliendo uno de los 4 supuestos de Regresion Lineal Simple.
Se muestra como se veria el modelo ajustado al diagrama de dispersion solo que compararemos el modelo con intercepto y sin intercepto, ademas de mostar todos los valores del summary que analizaremos:
##
## Call:
## lm(formula = ventas_per_capita ~ 0 + circulacion_revistas_por_cada_1000_personas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -45.255 -10.492 6.899 18.170 43.870
##
## Coefficients:
## Estimate Std. Error t value
## circulacion_revistas_por_cada_1000_personas 1.73477 0.03829 45.3
## Pr(>|t|)
## circulacion_revistas_por_cada_1000_personas <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 22.87 on 29 degrees of freedom
## Multiple R-squared: 0.9861, Adjusted R-squared: 0.9856
## F-statistic: 2052 on 1 and 29 DF, p-value: < 2.2e-16
En este caso nuestro se notan las primeras diferencias donde no existe la seccion de Intercepto, dejando solo a nuestro coeficiente “Circulacion de revistas” es significativo teniendo un valor que es distinto de 0, siendo <2e^-16; las estimaciones de β1 es 1.73477 dado que b0 es 0, dando como resultado una pendiente positiva, dicho de otra forma, cada condado deberia tener aproximadamente 1.73477*Circulacion de revistas por cada 1000 personas + residuals; mientras que la prueba R^2 da como resultado que el 98.61% de la variabilidad de las ventas per capita las explica nuestro modelosin intercepto; y por último, la estadistcia F nos confirma todo lo ya mencionado siendo un valor p value de igual manera significativo.
De igual manera conviene comprobarlo con la ANOVA.
La cual comprueba y nos asegura por el valor de P-value (que es igual al obtenido en el valor de la estadistica F en el Summary), es viable realizar la Regresion Lineal Simple sin Intercepto.
Corroboraremos si todos los supuestos ya tomados son válidos en el modelo de regresión lineal sin intercepto. Primero mostrando cada uno de los residuos (ordinales) y su respectiva grafica y la prueba de la distancia de Cook, comprobando la inexistencia de datos atipicos y su significancia; más adelante se mostrarán graficas con los residuos estandarizados, además de las respectivas pruebas descriptivas (Normalidad) y comprobar si todos los supuestos se cumplen y si hay datos atípicos.
## 1 2 3 4 5 6 7
## 3.170951 -13.764224 20.770149 -11.047138 18.705324 -31.111963 -42.785833
## 8 9 10 11 12 13 14
## 32.383114 13.544219 7.683715 17.974471 -45.255380 11.891958 -2.233772
## 15 16 17 18 19 20 21
## 23.396881 -41.724928 29.157184 21.730853 -15.964625 14.683715 -1.216084
## 22 23 24 25 26 27 28
## -3.929250 18.235776 16.522610 15.196480 43.870349 5.174871 -21.498998
## 29 30
## -8.825129 6.113967
Si se estandarizan los residuos, se espera que sigan un patron lineal y que no haya puntos outliers y ver que tan lejos o cerca de la distribucón Normal estan cayendo los residuales; de todas formas analizaremos por medio de la prueba de Cook con los datos de aquellos condados de Maryland con ventas per capita menores de 130 y mayores a 240 parecieran ser atípicos. Veamos quienes son esos datos:
Y aqui hay unos datos curiosos de los valores Outliers:
-No será necesario tratar esos datos, asiq ue los podremos dejar en la muestra y trabajar con ellos en el modelo.
Y como se puede observar en la gráfica pasada, ninguno de las variables tiene un potencial de Cook igual o mayor a 1, por lo que ninguno califica como outlier. De todas formas le aplicaremos a cada una de las observaciones la prueba de Cook, mostrandolas en un matriz un valor “TRUE” para observaciones que si cuenten como Outliers y un “FALSE” en el caso de que no cuenten como Outliers.
## 1 2 3 4 5 6 7 8 9 10 11 12 13
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 14 15 16 17 18 19 20 21 22 23 24 25 26
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 27 28 29 30
## FALSE FALSE FALSE FALSE
Y como se esperaba, ninguna de las observaciones mostro un TRUE con la prueba de Cook; mostrando que si es viable aplicar Regresión Lineal Simple sin Intercepto sin tener desperfectos en el modelo influenciados por datos atipicos o outliers; entonces ahora si procederemos a graficar los residuales bajo el supuesto de Normalidad y ver si en verdad se acoplan a la linea.
Se puede observar que los puntos se acoplan a la linea de Normalidad, no lo hacen perfectamente, pero si de una forma muy aceptable; habrá que comprobralo con la matriz de datos estandarizados que a continuación se muestra:
## 1 2 3 4 5 6
## 0.14381435 -0.61300408 0.91378427 -0.48723263 0.83251404 -1.39042467
## 7 8 9 10 11 12
## -1.91569367 1.42242834 0.59820622 0.34377219 0.79034751 -2.02781577
## 13 14 15 16 17 18
## 0.52403310 -0.09954998 1.05259726 -1.87107721 1.28512191 0.95309961
## 19 20 21 22 23 24
## -0.70249948 0.65695471 -0.05492405 -0.17640997 0.81214930 0.73266634
## 25 26 27 28 29 30
## 0.67291615 1.94004702 0.23016857 -0.95779934 -0.39252516 0.27159762
Para obtener estos datos, a cada punto residual se le estandarizó, haciéndolos que se distributan N(0,1), no olvidando que sus valores no sobrepasen el intervalo de (-2,2) estrictamente.
Ahora, la próxima gráfica ejemplifica de una mejor manera lo residuales estandarizados, dejando resuleto el supuesto 4º de la regresion lineal demostrado (covarianza=0)….graficamente, así empezarán las conjeturas fuertes de nuevo.
Dentro de esta gráfica, no se encuentra ningún patron por parte de los puntos, todos estan dispersos aleatoriamente, sin embargo si habrá puntos que salgan del intervalo de estandarización pero no representarán, como ya lo mencionamos, significancia para nuestro modelo.
Podriamos decir entonces que, los datos se distribuyen de manera Normal(0,1), y que el supuesto de E(ei)=0 se cumple y la varianza es constante…graficamnte. Se puede decir entonces que solo falta comprobar el supuesto de autocorrelacion. A continuación ya se analizarán de manera puntual cada uno de de los supuestos de Regresion Lineal Simple sin Intercepto.
La grafica de residuos estandarizados es muy parecida a los datos residuales ordinales, conviene realizar, ahora si ya la verificación puntual de los supuestos con la prueba de bondad de ajuste Anderson-Darling, teniendo las hipótesis:
H0: La muestra proviene de una distribución normal.
H1: La muestra no proviene de una distribución normal.
y rechazaremos H0 a un nivel de significancia Alfa=0.05 si:
Si P-value < Alfa Se rechaza H0
Si P-value >= Alfa No se rechaza H0
y así verificar que los datos se distribuyen o no de forma Normal(0,1).
##
## Anderson-Darling normality test
##
## data: res
## A = 0.63319, p-value = 0.08957
Como el P_value obtenido 8.957% caeremos en la región de No rechazo H0. Entonces, no rechazamos H0 a un nivel de significancia Alfa=5%, entonces nuestra muestra si se distribuye N(0,1), comprobando el 1º y 4º supuestos puntualmente (la esperanza =0 y que la muestra se distribuya N(0,1)). En seguida se verá la comprobación del supuesto de varianza constante por medio de la prueba de White dado que no se puede realizar la prueba de Breusch-Pagan porque requiere por lo menos un intercepto; entonces tendremos:
##
## White's Test for Heteroskedasticity:
## ====================================
##
## No Cross Terms
##
## H0: Homoskedasticity
## H1: Heteroskedasticity
##
## Test Statistic:
## 5.5402
##
## Degrees of Freedom:
## 12
##
## P-value:
## 0.9375
Por el valor obtenido P-value = 0.9375, caemos en la región de no rechazo de H0, entonces la hipótesis de homocedasticidad no se rechaza,por lo tanto hay evidencia de que la varianza de los residuos presenta homocedasticidad.
Viene la última prueba, para mostar que la autocorrelación de los residuales es cero, esto se demostrará mediante la prueba de Durbin-Whatson que mide justamente la autocorrelacion en los residuales con las hipótesis:
H0: La autocorrelación de los residuales es 0.
H1: La autocorrelación de los residuales es mayor a 0.
y rechazaremos H0 a un nivel de significancia Alfa=0.05 o Alfa=5% si:
Si P-value < Alfa Se rechaza H0
Si P-value >= Alfa No se rechaza H0
y así verificar que la autocorrelación de los datos es o no cero, mediante datos estudentizados.
##
## Durbin-Watson test
##
## data: modelo_sin
## DW = 2.3799, p-value = 0.858
## alternative hypothesis: true autocorrelation is greater than 0
Como el P-value obtenido es de 0.858 caemos en la región de no rechazo H0, No se rechaza la H0 a un nivel de significancia Alfa=0.05, por lo tanto hay evidencia de que la autocorrelación de los residuales es cero, no estan autocorrelacionados, comprobando el 3º supuesto puntualmente (cov(residuales)=0).
Concluimos que se cumplen todos los supuestos del modelo de Regresión Lineal Simple sin Intercepto, entonces el modelo explicará de una manera adecuada la distribución proporcional de las ventas por condados en Maryland, o sea que en promedio, cada incremento en una unidad de circulación de revistas cada 1000 personas, corresponde a un incremento en las ventas per capita del 1.73477 unidades monetarias.
Para estimar la pendiente, es decir, β. Se debe de construir al estimador de tal manera que la diferencia entre todos los valores observados y los valores estimados sea 0, es decir, que la línea de regresión pase en la parte media de estos valores de dispersión. A este concepto se le conoce como Residuos sin intercepto.
Obtenemos los valores para el intervalo β1, además de los valores ajustados de la matriz del modelo.
## 1 2 3 4 5 6 7 8
## 275.82905 197.76422 116.22985 137.04714 194.29468 215.11196 223.78583 100.61689
## 9 10 11 12 13 14 15 16
## 147.45578 220.31628 111.02553 227.25538 130.10804 201.23377 244.60312 230.72493
## 17 18 19 20 21 22 23 24
## 131.84282 83.26915 117.96462 220.31628 260.21608 235.92925 197.76422 173.47739
## 25 26 27 28 29 30
## 164.80352 156.12965 190.82513 199.49900 190.82513 183.88603
## 2.5 % 97.5 %
## circulacion_revistas_por_cada_1000_personas 1.656454 1.813094
Interpretando esto, el intervalo en donde se encuentra β1, corresponde a (1.656454, 1.813094), que dados estos valores nos convendrá probar los puntos influyentes en el cálculo de esta β1
Como ninguno es mayor a 2 en valor absoluto, no hay datos influyentes en las estimaciones de los parámetro para la β.
Utilizaremos 10 valores en x que serán generados de manera aleatoria pero estarán en todo el rango del eje X:
x |
---|
48.00000 |
60.33333 |
72.66667 |
85.00000 |
97.33333 |
109.66667 |
122.00000 |
134.33333 |
146.66667 |
159.00000 |
Para poder representar el intervalo de confianza a lo largo de todo el modelo se recurre a la función predict() para predecir valores que abarquen todo el eje X (Circulacion de Revistas), usando los 10 valores anteriormente mostrados se ejemplificará los intervalos que tomará el modelo para dicho valor de X. Se añaden al gráfico líneas formadas por los límites superiores e inferiores calculados para cada intervalo de confianza que estarán en todo el rango de las observaciones x’s para poder realizar estimaciones.
## fit lwr upr
## 1 83.26915 79.50979 87.0285
## 2 104.66469 99.93939 109.3900
## 3 126.06024 120.36899 131.7515
## 4 147.45578 140.79859 154.1130
## 5 168.85133 161.22819 176.4745
## 6 190.24687 181.65779 198.8359
## 7 211.64242 202.08739 221.1974
## 8 233.03796 222.51699 243.5589
## 9 254.43350 242.94659 265.9204
## 10 275.82905 263.37619 288.2819
Y si, de hecho los valores que toma la Y son justamente los valores ahi ajustados, que se encontraran en el intrevalo de confianza ejemplificado; en siguiente se ejemplifica la grafica, que hora además incluirá los límites superior e inferior del intervalo de confianza, para identificar la región en la que, según el modelo generado y para un nivel de confianza del 95% se encuentra el valor promedio de la variable dependiente (ventas per capita).
Mientras que para representar el intervalo de prediccion para el modelo haremos lo mismo que para el intervalo de confianza, usando los 10 valores anteriormente mostrados se ejemplificará los intervalos que tomará el modelo para dicho valor de X. Se añaden al gráfico líneas formadas por los límites superiores e inferiores calculados para cada predicción que estarán en todo el rango de las observaciones x’s para poder realizar estimaciones.
## fit lwr upr
## 1 83.26915 79.50979 87.0285
## 2 104.66469 99.93939 109.3900
## 3 126.06024 120.36899 131.7515
## 4 147.45578 140.79859 154.1130
## 5 168.85133 161.22819 176.4745
## 6 190.24687 181.65779 198.8359
## 7 211.64242 202.08739 221.1974
## 8 233.03796 222.51699 243.5589
## 9 254.43350 242.94659 265.9204
## 10 275.82905 263.37619 288.2819
Y como se observa, el modelo si tiene bastante credibilidad, dado que los valores predictivos que se encontrarán en el intervalo de prediccion ejemplificado; quedando el diagrama de dispersión, la recta de regresión lineal, con las lineas de prediccion superior e inferior y el intervalo de confianza del 95% superoir e inferior así:
De igual manera conviene analizar los Puntos influyentes en el cálculo de los estimados obtenidos de Y, siendo estos asi:
De igual manera como ninguno es mayor a 2 en valor absoluto, no hay datos influyentes en los valores estimados de y.
Concluimos que se cumplen todos los supuestos del modelo de Regresión Lineal Simple sin Intercepto, entonces el modelo explicará de una manera adecuada la distribución proporcional de las ventas por condados en Maryland, o sea que en promedio, cada incremento en una unidad de circulación de revistas cada 1000 personas, corresponde a un incremento en las ventas per capita del 1.73477 unidades monetarias y ahora que se piensa con logica, es un poco mas coveniente simplemente enviar revistas a cada condado dependiendo de la poblacion de cada uno; para que enviar cargamentos completos de 39 revistas inicialmente si puede que algos de esos no se vendan.
Sin embargo se le recomienda a la Empresa contar el numero de personas en cada condado y empezar a reducir sus envios a los condados con menos poblacion, y visceversa, aumentar los envios en los condados con mas población, para asi tener un incremento en sus ventas per capita.
Fuentes:
“Apuntes de Modelos No Paramétricos y de Regresion”, de Sofia Villers Gomez, Dulce María Reyes Varela y Luis Ángel Ramirez Teodoro.
https://moraleseconomia.blogspot.com/2012/03/regresion-en-r-project.html
https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal