library(carData)
data(Highway1)
data7<-as.data.frame(Highway1)
View(data7)
data7$adt<- as.numeric(data7$adt)
data7$trks<-as.numeric(data7$trks)
data7$sigs1<- as.numeric(data7$sigs1)
data7$slim<- as.numeric(data7$slim)
data7$shld<- as.numeric(data7$shld)
data7$lane<- as.factor(data7$lane)
data7$lwid<- as.factor(data7$lwid)
str(data7)
## 'data.frame': 39 obs. of 12 variables:
## $ rate : num 4.58 2.86 3.02 2.29 1.61 6.87 3.85 6.12 3.29 5.88 ...
## $ len : num 4.99 16.11 9.75 10.65 20.01 ...
## $ adt : num 69 73 49 61 28 30 46 25 43 23 ...
## $ trks : num 8 8 10 13 12 6 8 9 12 7 ...
## $ sigs1: num 0.2004 0.0621 0.1026 0.0939 0.05 ...
## $ slim : num 55 60 60 65 70 55 55 55 50 50 ...
## $ shld : num 10 10 10 10 10 10 8 10 4 5 ...
## $ lane : Factor w/ 4 levels "2","4","6","8": 4 2 2 3 2 2 2 2 2 2 ...
## $ acpt : num 4.6 4.4 4.7 3.8 2.2 24.8 11 18.5 7.5 8.2 ...
## $ itg : num 1.2 1.43 1.54 0.94 0.65 0.34 0.47 0.38 0.95 0.12 ...
## $ lwid : Factor w/ 4 levels "10","11","12",..: 3 3 3 3 3 3 3 3 3 3 ...
## $ htype: Factor w/ 4 levels "FAI","MA","MC",..: 1 1 1 1 1 4 4 4 4 4 ...
summary(data7)
## rate len adt trks
## Min. :1.610 Min. : 2.960 Min. : 1.00 Min. : 6.000
## 1st Qu.:2.630 1st Qu.: 7.995 1st Qu.: 5.00 1st Qu.: 8.000
## Median :3.050 Median :11.390 Median :13.00 Median : 9.000
## Mean :3.933 Mean :12.884 Mean :19.62 Mean : 9.333
## 3rd Qu.:4.595 3rd Qu.:17.800 3rd Qu.:24.00 3rd Qu.:11.000
## Max. :9.230 Max. :40.090 Max. :73.00 Max. :15.000
## sigs1 slim shld lane acpt
## Min. :0.04545 Min. :40 Min. : 1.000 2:20 Min. : 2.20
## 1st Qu.:0.08738 1st Qu.:50 1st Qu.: 4.000 4:17 1st Qu.: 6.95
## Median :0.17666 Median :55 Median : 8.000 6: 1 Median :10.30
## Mean :0.51072 Mean :55 Mean : 6.872 8: 1 Mean :12.16
## 3rd Qu.:0.71515 3rd Qu.:60 3rd Qu.:10.000 3rd Qu.:14.60
## Max. :2.78933 Max. :70 Max. :10.000 Max. :53.00
## itg lwid htype
## Min. :0.0000 10: 1 FAI: 5
## 1st Qu.:0.0000 11: 2 MA :13
## Median :0.1300 12:34 MC : 2
## Mean :0.2964 13: 2 PA :19
## 3rd Qu.:0.3600
## Max. :1.5400
Notemos que la tasa de accidentes rate por millas vehiculares tiene como minimo de 1.61 de tasa de accidentes por millas vehiculares, y como maximo de 9.23 tasa de accidentes por millas vehiculares, con un promedio de tasa de accidentes por millas de 3.93.
Para el numero de semaforos por milla en carretera sigs 1 se tiene como minimo de 1 semaforo por milla y máximo de 39 semaforos, con un promedio de 20 semaforos por milla en carretera.
El ancho del arcen por exterior de la carretera shld , tiene como minimo de ancho de 1 en pies y como maximo de 9 pies, con un promedio de 6.51 pies de ancho por arcen.
Para el limite de velocidad slim , vemos que se tiene como minimo de velocidad de 40 km/hora y como maximo de velocidad 70 km/hora de velocidad, con un promedio de velocidad de 55.
La fuente de financiación con mayor cantidad de secciones es PA con 19 secciones, siguiendo de MA con 13 secciones.
library(stats)
library(GGally)
## Warning: package 'GGally' was built under R version 4.4.3
## Cargando paquete requerido: ggplot2
## Warning: package 'ggplot2' was built under R version 4.4.3
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
data8<-data7[,c(1,2,3,4,5,6,7,9,10)]
str(data8)
## 'data.frame': 39 obs. of 9 variables:
## $ rate : num 4.58 2.86 3.02 2.29 1.61 6.87 3.85 6.12 3.29 5.88 ...
## $ len : num 4.99 16.11 9.75 10.65 20.01 ...
## $ adt : num 69 73 49 61 28 30 46 25 43 23 ...
## $ trks : num 8 8 10 13 12 6 8 9 12 7 ...
## $ sigs1: num 0.2004 0.0621 0.1026 0.0939 0.05 ...
## $ slim : num 55 60 60 65 70 55 55 55 50 50 ...
## $ shld : num 10 10 10 10 10 10 8 10 4 5 ...
## $ acpt : num 4.6 4.4 4.7 3.8 2.2 24.8 11 18.5 7.5 8.2 ...
## $ itg : num 1.2 1.43 1.54 0.94 0.65 0.34 0.47 0.38 0.95 0.12 ...
cor(data8)
## rate len adt trks sigs1 slim
## rate 1.00000000 -0.4652896 -0.02856981 -0.512522209 0.60319061 -0.6809836
## len -0.46528958 1.0000000 -0.27156858 0.495943140 -0.39185059 0.1862432
## adt -0.02856981 -0.2715686 1.00000000 -0.096682243 0.15938136 0.2441566
## trks -0.51252221 0.4959431 -0.09668224 1.000000000 -0.47530752 0.2961844
## sigs1 0.60319061 -0.3918506 0.15938136 -0.475307516 1.00000000 -0.4244150
## slim -0.68098362 0.1862432 0.24415659 0.296184352 -0.42441499 1.0000000
## shld -0.38690719 -0.1049261 0.45730677 0.006134713 -0.12410315 0.6890086
## acpt 0.75202547 -0.2387059 -0.22397976 -0.360266223 0.51346061 -0.6815205
## itg -0.02484088 -0.2475622 0.90370136 -0.067231363 0.08701656 0.2412815
## shld acpt itg
## rate -0.386907190 0.7520255 -0.02484088
## len -0.104926126 -0.2387059 -0.24756221
## adt 0.457306775 -0.2239798 0.90370136
## trks 0.006134713 -0.3602662 -0.06723136
## sigs1 -0.124103151 0.5134606 0.08701656
## slim 0.689008617 -0.6815205 0.24128154
## shld 1.000000000 -0.4249513 0.37502186
## acpt -0.424951272 1.0000000 -0.20015776
## itg 0.375021856 -0.2001578 1.00000000
Las variables que tienen correlacion mayor a 0.6 son, la variable ““apt”, numero de puntos de acceso por milla con respecto a la tasa de accidentes con correlacion de 0.75, tambien el limite de velocidad con el ancho del arcen con una correlacion de 0.67, de igual forma el numero intercambios por tipo de autopista con el conteo promedio de trafico con una correlacion de 0.90.
Las variables que tienen correlacion mmenor a 0.6 son: la longitud del tramo de la autopista 1 con rate es decir, la tasa de accidentes con -0.46, con respecto a la tasa de accidentes los que tienen una correlacion menor a 0.6 son todos a excepcion de numero de intercambios semaforizados y a numero de puntos de acceso.
Analizando la matriz de correlaciones, nos damos cuenta que la variable que tiene más correlación con respecto a la variable rate es decir la tasa lasa de accidentes en 1973 por millon de millas vehiculares es acept numero de acceso de puntos por millas con una correlación de \(0.75\), es una correlación muy fuerte entre esas dos variables.
Tomando en cuenta que la variable rate y acpt, son las más relacionadas, tomamos como variable explicativa a la variable rat numero de acceso de puntos por millas, y como variable dependiente la variable rate es decir la tasa de accidentes en 1973.
modelo7<- lm( rate~acpt, data8)
modelo7
##
## Call:
## lm(formula = rate ~ acpt, data = data8)
##
## Coefficients:
## (Intercept) acpt
## 1.9845 0.1603
El modelo de regresión lineal simple estimado es: \(\hat{y}_{Rate} = 1.9845 + 0.1603*(acpt)\)
Donde: \(\hat{\beta}_0\)= 1.9845, esto sería la tasa de accidentes cuando el numero de accesos por milla es 0.
\(\hat{\beta}_1\)=0.1603, es decir, por cada acceso por milla adicional, la tasa de accidentes aumenta 0.1603.
summary(modelo7)
##
## Call:
## lm(formula = rate ~ acpt, data = data8)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.3884 -0.9948 -0.0157 0.8197 3.8427
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.9845 0.3521 5.636 1.95e-06 ***
## acpt 0.1603 0.0231 6.940 3.41e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.327 on 37 degrees of freedom
## Multiple R-squared: 0.5655, Adjusted R-squared: 0.5538
## F-statistic: 48.16 on 1 and 37 DF, p-value: 3.408e-08
Notemos que el error de la variable explicativa es 0.02331, es decir es muy poco, eso nos indica que es una buena variable, ademas que es muy significativa, ya que el p-valor es menor a 0.05, nos indica que el modelo en general tomando en cuenta R cuadrado-ajustado es de 0.5538, nos indica que el 55.38% de la variabilidad de la tasa de accidentes es explicada por la variables acpt numero de accesos por milla, y el 44.62% de la variabilidad de la tasa de accidentes no es explicada por esa variable.
predict(modelo7)
## 1 2 3 4 5 6 7 8
## 2.721771 2.689715 2.737799 2.593546 2.337096 5.959454 3.747571 4.949681
## 9 10 11 12 13 14 15 16
## 3.186587 3.298784 2.849996 3.779628 4.420753 2.849996 3.250699 2.497377
## 17 18 19 20 21 22 23 24
## 3.747571 3.410981 3.971965 3.234671 3.523178 2.673687 3.763600 3.074390
## 25 26 27 28 29 30 31 32
## 10.479387 4.757344 6.360157 4.869541 6.824973 3.635374 4.901597 3.955937
## 33 34 35 36 37 38 39
## 3.122474 4.228415 3.795656 4.597062 3.523178 3.427009 3.651403
La tasa de accidentes que se estima en la sección 25 es una tasa de 10.47.
\(H_{0}: \beta_{1}=0\) No existe relación lineal
\(H_{1}: \beta_{1} \neq0\) Existe ralación lineal
anova(modelo7)
## Analysis of Variance Table
##
## Response: rate
## Df Sum Sq Mean Sq F value Pr(>F)
## acpt 1 84.767 84.767 48.164 3.408e-08 ***
## Residuals 37 65.119 1.760
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Se puede ver en la tabla anova que el \(p-valor<0.05\) es decir, por lo que se rechaza la la hipotesis nula, es decir \(\beta_{1}\neq0\), es decir, existe una relación lineal, lo que indica que la variable es muy significativa.
#¿Qué % de variabilidad de la tasa de accidentes se explica con esa variables?
summary(modelo7)
##
## Call:
## lm(formula = rate ~ acpt, data = data8)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.3884 -0.9948 -0.0157 0.8197 3.8427
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.9845 0.3521 5.636 1.95e-06 ***
## acpt 0.1603 0.0231 6.940 3.41e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.327 on 37 degrees of freedom
## Multiple R-squared: 0.5655, Adjusted R-squared: 0.5538
## F-statistic: 48.16 on 1 and 37 DF, p-value: 3.408e-08
Tomando en cuenta el \(R²\)=55.38% es decir el 55.38% de la variabilidad en la tasa de accidentes en 1973 por millas se explica por el el numero el numero de puntos de acceos acpt, hay un 44.62% de variabilidad en la tasa de accidentes que no se explican por el el numero de puntos de acceso acpt
ice7<-predict(object=modelo7,newdata=data8,interval="confidence",level=0.95)
ice7
## fit lwr upr
## 1 2.721771 2.164643 3.278899
## 2 2.689715 2.126598 3.252831
## 3 2.737799 2.183631 3.291968
## 4 2.593546 2.011930 3.175162
## 5 2.337096 1.702700 2.971492
## 6 5.959454 5.227885 6.691022
## 7 3.747571 3.313739 4.181404
## 8 4.949681 4.426882 5.472480
## 9 3.186587 2.704091 3.669082
## 10 3.298784 2.830178 3.767390
## 11 2.849996 2.315853 3.384139
## 12 3.779628 3.346865 4.212390
## 13 4.420753 3.967409 4.874097
## 14 2.849996 2.315853 3.384139
## 15 3.250699 2.776368 3.725031
## 16 2.497377 1.896518 3.098236
## 17 3.747571 3.313739 4.181404
## 18 3.410981 2.954333 3.867629
## 19 3.971965 3.541388 4.402542
## 20 3.234671 2.758355 3.710988
## 21 3.523178 3.076401 3.969954
## 22 2.673687 2.107542 3.239832
## 23 3.763600 3.330327 4.196872
## 24 3.074390 2.576235 3.572544
## 25 10.479387 8.520341 12.438433
## 26 4.757344 4.264245 5.250443
## 27 6.360157 5.531129 7.189184
## 28 4.869541 4.359658 5.379424
## 29 6.824973 5.877340 7.772606
## 30 3.635374 3.196242 4.074507
## 31 4.901597 4.386636 5.416558
## 32 3.955937 3.525457 4.386417
## 33 3.122474 2.631237 3.613711
## 34 4.228415 3.789449 4.667382
## 35 3.795656 3.363354 4.227958
## 36 4.597062 4.125024 5.069101
## 37 3.523178 3.076401 3.969954
## 38 3.427009 2.971902 3.882115
## 39 3.651403 3.213174 4.089632
#Meter las variables que se ocupan
#Rectificar la clase
class(ice7)
## [1] "matrix" "array"
#Convertir a data-frame
ice7<-as.data.frame(ice7)
class(ice7)
## [1] "data.frame"
data9<-data.frame(data8, ice7$lwr,ice7$upr)
data9
## rate len adt trks sigs1 slim shld acpt itg ice7.lwr ice7.upr
## 1 4.58 4.99 69 8 0.20040080 55 10 4.6 1.20 2.164643 3.278899
## 2 2.86 16.11 73 8 0.06207325 60 10 4.4 1.43 2.126598 3.252831
## 3 3.02 9.75 49 10 0.10256410 60 10 4.7 1.54 2.183631 3.291968
## 4 2.29 10.65 61 13 0.09389671 65 10 3.8 0.94 2.011930 3.175162
## 5 1.61 20.01 28 12 0.04997501 70 10 2.2 0.65 1.702700 2.971492
## 6 6.87 5.97 30 6 2.00750419 55 10 24.8 0.34 5.227885 6.691022
## 7 3.85 8.57 46 8 0.81668611 55 8 11.0 0.47 3.313739 4.181404
## 8 6.12 5.24 25 9 0.57083969 55 10 18.5 0.38 4.426882 5.472480
## 9 3.29 15.79 43 12 1.45333122 50 4 7.5 0.95 2.704091 3.669082
## 10 5.88 8.26 23 7 1.33106538 50 5 8.2 0.12 2.830178 3.767390
## 11 4.20 7.03 23 6 1.99224751 60 10 5.4 0.29 2.315853 3.384139
## 12 4.61 13.28 20 9 1.28530120 50 2 11.2 0.15 3.346865 4.212390
## 13 4.80 5.40 18 14 0.74518519 50 8 15.2 0.00 3.967409 4.874097
## 14 3.85 2.96 21 8 0.33783784 60 10 5.4 0.34 2.315853 3.384139
## 15 2.69 11.75 27 7 0.68510638 55 10 7.9 0.26 2.776368 3.725031
## 16 1.99 8.86 22 9 0.11286682 60 10 3.2 0.68 1.896518 3.098236
## 17 2.01 9.78 19 9 0.20224949 60 10 11.0 0.20 3.313739 4.181404
## 18 4.22 5.49 9 11 0.36214936 50 6 8.9 0.18 2.954333 3.867629
## 19 2.76 8.63 12 8 0.11587486 55 6 12.4 0.14 3.541388 4.402542
## 20 2.55 20.31 12 7 1.03923683 60 10 7.8 0.05 2.758355 3.710988
## 21 1.89 40.09 15 13 0.14494388 55 8 9.6 0.05 3.076401 3.969954
## 22 2.34 11.81 8 8 0.08467401 60 10 4.3 0.00 2.107542 3.239832
## 23 2.83 11.39 5 9 0.17779631 50 8 11.1 0.00 3.330327 4.196872
## 24 1.81 22.00 5 15 0.04545455 60 7 6.8 0.00 2.576235 3.572544
## 25 9.23 3.58 23 6 2.78932961 40 2 53.0 0.56 8.520341 12.438433
## 26 8.60 3.23 13 6 1.23959752 45 2 17.3 0.31 4.264245 5.250443
## 27 8.21 7.73 7 8 0.64936611 55 8 27.3 0.13 5.531129 7.189184
## 28 2.93 14.41 10 10 0.13939625 55 6 18.0 0.00 4.359658 5.379424
## 29 7.48 11.54 12 7 0.17665511 45 3 30.2 0.09 5.877340 7.772606
## 30 2.57 11.10 9 8 0.09009009 60 7 10.3 0.00 3.196242 4.074507
## 31 5.77 22.09 4 8 0.18526935 45 3 18.2 0.00 4.386636 5.416558
## 32 2.90 9.39 5 10 0.10649627 55 1 12.3 0.00 3.525457 4.386417
## 33 2.97 19.49 4 13 0.05130836 55 4 7.1 0.00 2.631237 3.613711
## 34 1.84 21.01 5 12 0.14759638 55 8 14.0 0.00 3.789449 4.667382
## 35 3.78 27.16 2 10 0.07681885 55 3 11.3 0.04 3.363354 4.227958
## 36 2.76 14.03 3 8 0.07127584 50 4 16.3 0.07 4.125024 5.069101
## 37 4.27 20.63 1 11 0.04847310 55 4 9.6 0.00 3.076401 3.969954
## 38 3.05 20.06 3 11 0.04985045 60 8 9.0 0.00 2.971902 3.882115
## 39 4.12 12.91 1 10 0.07745933 55 3 10.4 0.00 3.213174 4.089632
Para la tasa de accidentes media de cualquier sección con 53 puntos de acceso por milla
La tasa de accidentes media con 53 puntos de accesos por milla tiene un intervalo de confianza de una tasa de accidentes media minimo de 8.52 y como maximo de 12.43.
summary(data9)
## rate len adt trks
## Min. :1.610 Min. : 2.960 Min. : 1.00 Min. : 6.000
## 1st Qu.:2.630 1st Qu.: 7.995 1st Qu.: 5.00 1st Qu.: 8.000
## Median :3.050 Median :11.390 Median :13.00 Median : 9.000
## Mean :3.933 Mean :12.884 Mean :19.62 Mean : 9.333
## 3rd Qu.:4.595 3rd Qu.:17.800 3rd Qu.:24.00 3rd Qu.:11.000
## Max. :9.230 Max. :40.090 Max. :73.00 Max. :15.000
## sigs1 slim shld acpt
## Min. :0.04545 Min. :40 Min. : 1.000 Min. : 2.20
## 1st Qu.:0.08738 1st Qu.:50 1st Qu.: 4.000 1st Qu.: 6.95
## Median :0.17666 Median :55 Median : 8.000 Median :10.30
## Mean :0.51072 Mean :55 Mean : 6.872 Mean :12.16
## 3rd Qu.:0.71515 3rd Qu.:60 3rd Qu.:10.000 3rd Qu.:14.60
## Max. :2.78933 Max. :70 Max. :10.000 Max. :53.00
## itg ice7.lwr ice7.upr
## Min. :0.0000 Min. :1.703 Min. : 2.971
## 1st Qu.:0.0000 1st Qu.:2.604 1st Qu.: 3.593
## Median :0.1300 Median :3.196 Median : 4.075
## Mean :0.2964 Mean :3.380 Mean : 4.487
## 3rd Qu.:0.3600 3rd Qu.:3.878 3rd Qu.: 4.771
## Max. :1.5400 Max. :8.520 Max. :12.438
Para la respuesta media de las 39 secciones El intervalo de confianza para la respuesta media de las 39 secciones esta en el intervalo de ¨¨[3.38 y 4.48] es decir, el intervalo de confianza de la tasa de accidentes tiene como minimo 3.38 y una tasa de accidentes maximo de 4.48 .
library(ggplot2)
ggplot(data = data8, mapping = aes(x = acpt, y = rate)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "rate ~ acpt", x = "Numero de puntos de acceso por milla ", y = "Tasa de accidentes") +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))
Notemos en la gráfica que varios puntos están cerca de la linea de regresión simple, lo que indica que la variable explicativa es buena variable, sin embargo algunos puntos estan fuera del intervalo de confianza, es decir, la avriable tasa de accidentes tiene más razones para que suceda o más variables que ocasione el incremento de la tasa de accidentes.
newdata<- data.frame(
acpt= c(53)
)
newdata
## acpt
## 1 53
Predicción
# Predicción
Proporcionderate<- predict(modelo7, newdata = newdata)
Proporcionderate
## 1
## 10.47939
#Validación de supuestos
Pruebas de normalidad
Gráficamente
hist(modelo7$residuals,col = 4, main = "Histograma de los residuales", xlab="Residuales")
Notemos que graficamente podria acercarse a una distribución normal pero consesgo positivo.
Estadisticos formales
Para probar si los residuales proviene de una población normal se usa test de shapiro, que contrasta la hipótesis:
\(H_{0}: los\ datos\ provienen\ de\ una\ distribución\ normal\)
\(H_{1}: los\ datos\ no\ provienen\ de\ una\ distribución\ normal\)
shapiro.test(modelo7$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo7$residuals
## W = 0.97454, p-value = 0.5111
De acuerdo con el \(p-valor=0.05111\) se puede decir con un 95% de confianza no se tiene suficiente evidencia para rechazar, es decir los residuales provienen de una poblacion con distribución normal, por lo que cumple.
Independencia
Para probar Independencia un supuesto muy importante, es importante saber que una muestra de manera indempendiente ie. que no hay patrones de dependencia espacial, temporal o multinivel entre las observaciones. En este supuesto espero que ¿espero que suceda cerca del acceso a la carretera sea similar a los que estan lejos?
Gráfico
# Gráfico de Residuos vs. Valores Ajustados
plot(modelo7, which = 1, col = "darkblue", pch = 19)
Aqui vemos que los residuales y los estimados son independientes.
En este caso existen pruebas estadisticas para evaluar el supuesto de independencia.El test de Durbin-Watson
contrasta la hipótesis:
\(H_{0}: los\ datos\ no\ presentan\ autocorrelacion\)
\(H_{1}: los\ datos\ presentan\ autocorrelacion\)
library(car)
durbinWatsonTest(modelo7)
## lag Autocorrelation D-W Statistic p-value
## 1 0.04902362 1.845555 0.61
## Alternative hypothesis: rho != 0
Tomando en cuenta el p-valor es mayor a 0.05, es decir, no se tienenla suficiente evidencia para rechazar la hipotesis nula, es decir los datos son independientes.
Prueba de Homocedasticidad
\(H_{0}: La\ varianza \ es \ constante\ en \ los\ residuales\)
\(H_{1}: La\ varianza \ no\ es \ constante\ en \ los \ residuales\)
Prueba de homocedasticidad:
\(H_{0}: Hay\ homocedasticidad \ de \ los \ residuales\)
\(H_{1}: No\ hay \ homocedasticidad \ de \ los \ residuales\)
ncvTest(modelo7) #prueba de homocedosticidad
Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = 1.360311, Df = 1, p = 0.24348
Con un p-valor mayor a 0.05 por lo que no se rechazar la hipotesis nula por (la varianza de los residuos son constantes).
# Calcular Distancia de Cook
cooksD <- data.frame(cooks.distance(modelo7))
cooksD
## cooks.distance.modelo7.
## 1 4.600876e-02
## 2 3.954815e-04
## 3 1.048866e-03
## 4 1.348850e-03
## 5 9.381627e-03
## 6 2.034943e-02
## 7 8.184775e-05
## 8 1.589887e-02
## 9 1.045151e-04
## 10 6.118793e-02
## 11 2.216012e-02
## 12 5.351183e-03
## 13 1.231284e-03
## 14 1.215922e-02
## 15 2.962748e-03
## 16 4.048769e-03
## 17 2.355318e-02
## 18 5.689991e-03
## 19 1.127858e-02
## 20 4.457184e-03
## 21 2.213985e-02
## 22 1.536520e-03
## 23 6.781150e-03
## 24 1.672786e-02
## 25 1.071564e+00
## 26 1.511674e-01
## 27 1.129327e-01
## 28 4.137731e-02
## 29 1.975450e-02
## 30 9.084178e-03
## 31 8.473514e-03
## 32 8.557442e-03
## 33 2.360881e-04
## 34 4.561999e-02
## 35 1.897933e-06
## 36 3.147785e-02
## 37 4.629592e-03
## 38 1.226834e-03
## 39 1.749827e-03
influenceIndexPlot(modelo7,vars="Cook")
Notemos que el punto que podria llegar a ser influyente es el punto 25, ya quie esta alejado de los demas puntos
summary(influence.measures(modelo7))
## Potentially influential observations of
## lm(formula = rate ~ acpt, data = data8) :
##
## dfb.1_ dfb.acpt dffit cov.r cook.d hat
## 25 0.96 -1.45_* -1.48_* 2.03_* 1.07_* 0.53_*
## 26 0.09 0.30 0.62 0.64_* 0.15 0.03
## 29 -0.09 0.18 0.20 1.19_* 0.02 0.12
La observación 25 es la que presenta mayor distancia de Cook sin embargo, es punto influyente pues D(25) >1
This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.
When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
You can also embed plots, for example:
Note that the echo = FALSE
parameter was added to the
code chunk to prevent printing of the R code that generated the
plot.