library(carData)
data(Highway1)
data7<-as.data.frame(Highway1)
View(data7)


data7$adt<- as.numeric(data7$adt)
data7$trks<-as.numeric(data7$trks)
data7$sigs1<- as.numeric(data7$sigs1)
data7$slim<- as.numeric(data7$slim)
data7$shld<- as.numeric(data7$shld)
data7$lane<- as.factor(data7$lane)
data7$lwid<- as.factor(data7$lwid)
str(data7)

## 'data.frame':    39 obs. of  12 variables:
##  $ rate : num  4.58 2.86 3.02 2.29 1.61 6.87 3.85 6.12 3.29 5.88 ...
##  $ len  : num  4.99 16.11 9.75 10.65 20.01 ...
##  $ adt  : num  69 73 49 61 28 30 46 25 43 23 ...
##  $ trks : num  8 8 10 13 12 6 8 9 12 7 ...
##  $ sigs1: num  0.2004 0.0621 0.1026 0.0939 0.05 ...
##  $ slim : num  55 60 60 65 70 55 55 55 50 50 ...
##  $ shld : num  10 10 10 10 10 10 8 10 4 5 ...
##  $ lane : Factor w/ 4 levels "2","4","6","8": 4 2 2 3 2 2 2 2 2 2 ...
##  $ acpt : num  4.6 4.4 4.7 3.8 2.2 24.8 11 18.5 7.5 8.2 ...
##  $ itg  : num  1.2 1.43 1.54 0.94 0.65 0.34 0.47 0.38 0.95 0.12 ...
##  $ lwid : Factor w/ 4 levels "10","11","12",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ htype: Factor w/ 4 levels "FAI","MA","MC",..: 1 1 1 1 1 4 4 4 4 4 ...

RESUMEN ESTADISTICO

summary(data7)

##       rate            len              adt             trks       
##  Min.   :1.610   Min.   : 2.960   Min.   : 1.00   Min.   : 6.000  
##  1st Qu.:2.630   1st Qu.: 7.995   1st Qu.: 5.00   1st Qu.: 8.000  
##  Median :3.050   Median :11.390   Median :13.00   Median : 9.000  
##  Mean   :3.933   Mean   :12.884   Mean   :19.62   Mean   : 9.333  
##  3rd Qu.:4.595   3rd Qu.:17.800   3rd Qu.:24.00   3rd Qu.:11.000  
##  Max.   :9.230   Max.   :40.090   Max.   :73.00   Max.   :15.000  
##      sigs1              slim         shld        lane        acpt      
##  Min.   :0.04545   Min.   :40   Min.   : 1.000   2:20   Min.   : 2.20  
##  1st Qu.:0.08738   1st Qu.:50   1st Qu.: 4.000   4:17   1st Qu.: 6.95  
##  Median :0.17666   Median :55   Median : 8.000   6: 1   Median :10.30  
##  Mean   :0.51072   Mean   :55   Mean   : 6.872   8: 1   Mean   :12.16  
##  3rd Qu.:0.71515   3rd Qu.:60   3rd Qu.:10.000          3rd Qu.:14.60  
##  Max.   :2.78933   Max.   :70   Max.   :10.000          Max.   :53.00  
##       itg         lwid    htype   
##  Min.   :0.0000   10: 1   FAI: 5  
##  1st Qu.:0.0000   11: 2   MA :13  
##  Median :0.1300   12:34   MC : 2  
##  Mean   :0.2964   13: 2   PA :19  
##  3rd Qu.:0.3600                   
##  Max.   :1.5400

Notemos que la tasa de accidentes rate por millas vehiculares tiene como minimo de 1.61 de tasa de accidentes por millas vehiculares, y como maximo de 9.23 tasa de accidentes por millas vehiculares, con un promedio de tasa de accidentes por millas de 3.93.

Para el numero de semaforos por milla en carretera sigs 1 se tiene como minimo de 1 semaforo por milla y máximo de 39 semaforos, con un promedio de 20 semaforos por milla en carretera.

El ancho del arcen por exterior de la carretera shld , tiene como minimo de ancho de 1 en pies y como maximo de 9 pies, con un promedio de 6.51 pies de ancho por arcen.

Para el limite de velocidad slim , vemos que se tiene como minimo de velocidad de 40 km/hora y como maximo de velocidad 70 km/hora de velocidad, con un promedio de velocidad de 55.

¿Qué fuentes de financiación para las carreteras tiene mayor cantidad de secciones?

La fuente de financiación con mayor cantidad de secciones es PA con 19 secciones, siguiendo de MA con 13 secciones.

Matriz de correlaciones

library(stats)
library(GGally)

## Warning: package 'GGally' was built under R version 4.4.3

## Cargando paquete requerido: ggplot2

## Warning: package 'ggplot2' was built under R version 4.4.3

## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2

data8<-data7[,c(1,2,3,4,5,6,7,9,10)]
str(data8)

## 'data.frame':    39 obs. of  9 variables:
##  $ rate : num  4.58 2.86 3.02 2.29 1.61 6.87 3.85 6.12 3.29 5.88 ...
##  $ len  : num  4.99 16.11 9.75 10.65 20.01 ...
##  $ adt  : num  69 73 49 61 28 30 46 25 43 23 ...
##  $ trks : num  8 8 10 13 12 6 8 9 12 7 ...
##  $ sigs1: num  0.2004 0.0621 0.1026 0.0939 0.05 ...
##  $ slim : num  55 60 60 65 70 55 55 55 50 50 ...
##  $ shld : num  10 10 10 10 10 10 8 10 4 5 ...
##  $ acpt : num  4.6 4.4 4.7 3.8 2.2 24.8 11 18.5 7.5 8.2 ...
##  $ itg  : num  1.2 1.43 1.54 0.94 0.65 0.34 0.47 0.38 0.95 0.12 ...

cor(data8)

##              rate        len         adt         trks       sigs1       slim
## rate   1.00000000 -0.4652896 -0.02856981 -0.512522209  0.60319061 -0.6809836
## len   -0.46528958  1.0000000 -0.27156858  0.495943140 -0.39185059  0.1862432
## adt   -0.02856981 -0.2715686  1.00000000 -0.096682243  0.15938136  0.2441566
## trks  -0.51252221  0.4959431 -0.09668224  1.000000000 -0.47530752  0.2961844
## sigs1  0.60319061 -0.3918506  0.15938136 -0.475307516  1.00000000 -0.4244150
## slim  -0.68098362  0.1862432  0.24415659  0.296184352 -0.42441499  1.0000000
## shld  -0.38690719 -0.1049261  0.45730677  0.006134713 -0.12410315  0.6890086
## acpt   0.75202547 -0.2387059 -0.22397976 -0.360266223  0.51346061 -0.6815205
## itg   -0.02484088 -0.2475622  0.90370136 -0.067231363  0.08701656  0.2412815
##               shld       acpt         itg
## rate  -0.386907190  0.7520255 -0.02484088
## len   -0.104926126 -0.2387059 -0.24756221
## adt    0.457306775 -0.2239798  0.90370136
## trks   0.006134713 -0.3602662 -0.06723136
## sigs1 -0.124103151  0.5134606  0.08701656
## slim   0.689008617 -0.6815205  0.24128154
## shld   1.000000000 -0.4249513  0.37502186
## acpt  -0.424951272  1.0000000 -0.20015776
## itg    0.375021856 -0.2001578  1.00000000

Las variables que tienen correlacion mayor a 0.6 son, la variable ““apt”, numero de puntos de acceso por milla con respecto a la tasa de accidentes con correlacion de 0.75, tambien el limite de velocidad con el ancho del arcen con una correlacion de 0.67, de igual forma el numero intercambios por tipo de autopista con el conteo promedio de trafico con una correlacion de 0.90.

Las variables que tienen correlacion mmenor a 0.6 son: la longitud del tramo de la autopista 1 con rate es decir, la tasa de accidentes con -0.46, con respecto a la tasa de accidentes los que tienen una correlacion menor a 0.6 son todos a excepcion de numero de intercambios semaforizados y a numero de puntos de acceso.

¿Qué variable esta más relacionada con la variable “rate” ?

Analizando la matriz de correlaciones, nos damos cuenta que la variable que tiene más correlación con respecto a la variable rate es decir la tasa lasa de accidentes en 1973 por millon de millas vehiculares es acept numero de acceso de puntos por millas con una correlación de \(0.75\), es una correlación muy fuerte entre esas dos variables.

MODELO DE REGRESION LINEAL SIMPLE

Tomando en cuenta que la variable rate y acpt, son las más relacionadas, tomamos como variable explicativa a la variable rat numero de acceso de puntos por millas, y como variable dependiente la variable rate es decir la tasa de accidentes en 1973.

modelo7<- lm( rate~acpt, data8)
modelo7

## 
## Call:
## lm(formula = rate ~ acpt, data = data8)
## 
## Coefficients:
## (Intercept)         acpt  
##      1.9845       0.1603

El modelo de regresión lineal simple estimado es: \(\hat{y}_{Rate} = 1.9845 + 0.1603*(acpt)\)

Donde: \(\hat{\beta}_0\)= 1.9845, esto sería la tasa de accidentes cuando el numero de accesos por milla es 0.

\(\hat{\beta}_1\)=0.1603, es decir, por cada acceso por milla adicional, la tasa de accidentes aumenta 0.1603.

summary(modelo7)

## 
## Call:
## lm(formula = rate ~ acpt, data = data8)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.3884 -0.9948 -0.0157  0.8197  3.8427 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   1.9845     0.3521   5.636 1.95e-06 ***
## acpt          0.1603     0.0231   6.940 3.41e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.327 on 37 degrees of freedom
## Multiple R-squared:  0.5655, Adjusted R-squared:  0.5538 
## F-statistic: 48.16 on 1 and 37 DF,  p-value: 3.408e-08

Notemos que el error de la variable explicativa es 0.02331, es decir es muy poco, eso nos indica que es una buena variable, ademas que es muy significativa, ya que el p-valor es menor a 0.05, nos indica que el modelo en general tomando en cuenta R cuadrado-ajustado es de 0.5538, nos indica que el 55.38% de la variabilidad de la tasa de accidentes es explicada por la variables acpt numero de accesos por milla, y el 44.62% de la variabilidad de la tasa de accidentes no es explicada por esa variable.

¿Cuál es la tasa de accidentes que se estima en la sección 25?

predict(modelo7)

##         1         2         3         4         5         6         7         8 
##  2.721771  2.689715  2.737799  2.593546  2.337096  5.959454  3.747571  4.949681 
##         9        10        11        12        13        14        15        16 
##  3.186587  3.298784  2.849996  3.779628  4.420753  2.849996  3.250699  2.497377 
##        17        18        19        20        21        22        23        24 
##  3.747571  3.410981  3.971965  3.234671  3.523178  2.673687  3.763600  3.074390 
##        25        26        27        28        29        30        31        32 
## 10.479387  4.757344  6.360157  4.869541  6.824973  3.635374  4.901597  3.955937 
##        33        34        35        36        37        38        39 
##  3.122474  4.228415  3.795656  4.597062  3.523178  3.427009  3.651403

La tasa de accidentes que se estima en la sección 25 es una tasa de 10.47.

Contraste de hipótesis para la pendiente (_{1})

\(H_{0}: \beta_{1}=0\) No existe relación lineal

\(H_{1}: \beta_{1} \neq0\) Existe ralación lineal

anova(modelo7)

## Analysis of Variance Table
## 
## Response: rate
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## acpt       1 84.767  84.767  48.164 3.408e-08 ***
## Residuals 37 65.119   1.760                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se puede ver en la tabla anova que el \(p-valor<0.05\) es decir, por lo que se rechaza la la hipotesis nula, es decir \(\beta_{1}\neq0\), es decir, existe una relación lineal, lo que indica que la variable es muy significativa.

#¿Qué % de variabilidad de la tasa de accidentes se explica con esa variables?

summary(modelo7)

## 
## Call:
## lm(formula = rate ~ acpt, data = data8)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.3884 -0.9948 -0.0157  0.8197  3.8427 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   1.9845     0.3521   5.636 1.95e-06 ***
## acpt          0.1603     0.0231   6.940 3.41e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.327 on 37 degrees of freedom
## Multiple R-squared:  0.5655, Adjusted R-squared:  0.5538 
## F-statistic: 48.16 on 1 and 37 DF,  p-value: 3.408e-08

Tomando en cuenta el \(R²\)=55.38% es decir el 55.38% de la variabilidad en la tasa de accidentes en 1973 por millas se explica por el el numero el numero de puntos de acceos acpt, hay un 44.62% de variabilidad en la tasa de accidentes que no se explican por el el numero de puntos de acceso acpt

Intervalo de confianza para la respuesta media de (95%)

ice7<-predict(object=modelo7,newdata=data8,interval="confidence",level=0.95)
ice7

##          fit      lwr       upr
## 1   2.721771 2.164643  3.278899
## 2   2.689715 2.126598  3.252831
## 3   2.737799 2.183631  3.291968
## 4   2.593546 2.011930  3.175162
## 5   2.337096 1.702700  2.971492
## 6   5.959454 5.227885  6.691022
## 7   3.747571 3.313739  4.181404
## 8   4.949681 4.426882  5.472480
## 9   3.186587 2.704091  3.669082
## 10  3.298784 2.830178  3.767390
## 11  2.849996 2.315853  3.384139
## 12  3.779628 3.346865  4.212390
## 13  4.420753 3.967409  4.874097
## 14  2.849996 2.315853  3.384139
## 15  3.250699 2.776368  3.725031
## 16  2.497377 1.896518  3.098236
## 17  3.747571 3.313739  4.181404
## 18  3.410981 2.954333  3.867629
## 19  3.971965 3.541388  4.402542
## 20  3.234671 2.758355  3.710988
## 21  3.523178 3.076401  3.969954
## 22  2.673687 2.107542  3.239832
## 23  3.763600 3.330327  4.196872
## 24  3.074390 2.576235  3.572544
## 25 10.479387 8.520341 12.438433
## 26  4.757344 4.264245  5.250443
## 27  6.360157 5.531129  7.189184
## 28  4.869541 4.359658  5.379424
## 29  6.824973 5.877340  7.772606
## 30  3.635374 3.196242  4.074507
## 31  4.901597 4.386636  5.416558
## 32  3.955937 3.525457  4.386417
## 33  3.122474 2.631237  3.613711
## 34  4.228415 3.789449  4.667382
## 35  3.795656 3.363354  4.227958
## 36  4.597062 4.125024  5.069101
## 37  3.523178 3.076401  3.969954
## 38  3.427009 2.971902  3.882115
## 39  3.651403 3.213174  4.089632

#Meter las variables que se ocupan

#Rectificar la clase
class(ice7)

## [1] "matrix" "array"

#Convertir a data-frame
ice7<-as.data.frame(ice7)
class(ice7)

## [1] "data.frame"

data9<-data.frame(data8, ice7$lwr,ice7$upr)
data9

##    rate   len adt trks      sigs1 slim shld acpt  itg ice7.lwr  ice7.upr
## 1  4.58  4.99  69    8 0.20040080   55   10  4.6 1.20 2.164643  3.278899
## 2  2.86 16.11  73    8 0.06207325   60   10  4.4 1.43 2.126598  3.252831
## 3  3.02  9.75  49   10 0.10256410   60   10  4.7 1.54 2.183631  3.291968
## 4  2.29 10.65  61   13 0.09389671   65   10  3.8 0.94 2.011930  3.175162
## 5  1.61 20.01  28   12 0.04997501   70   10  2.2 0.65 1.702700  2.971492
## 6  6.87  5.97  30    6 2.00750419   55   10 24.8 0.34 5.227885  6.691022
## 7  3.85  8.57  46    8 0.81668611   55    8 11.0 0.47 3.313739  4.181404
## 8  6.12  5.24  25    9 0.57083969   55   10 18.5 0.38 4.426882  5.472480
## 9  3.29 15.79  43   12 1.45333122   50    4  7.5 0.95 2.704091  3.669082
## 10 5.88  8.26  23    7 1.33106538   50    5  8.2 0.12 2.830178  3.767390
## 11 4.20  7.03  23    6 1.99224751   60   10  5.4 0.29 2.315853  3.384139
## 12 4.61 13.28  20    9 1.28530120   50    2 11.2 0.15 3.346865  4.212390
## 13 4.80  5.40  18   14 0.74518519   50    8 15.2 0.00 3.967409  4.874097
## 14 3.85  2.96  21    8 0.33783784   60   10  5.4 0.34 2.315853  3.384139
## 15 2.69 11.75  27    7 0.68510638   55   10  7.9 0.26 2.776368  3.725031
## 16 1.99  8.86  22    9 0.11286682   60   10  3.2 0.68 1.896518  3.098236
## 17 2.01  9.78  19    9 0.20224949   60   10 11.0 0.20 3.313739  4.181404
## 18 4.22  5.49   9   11 0.36214936   50    6  8.9 0.18 2.954333  3.867629
## 19 2.76  8.63  12    8 0.11587486   55    6 12.4 0.14 3.541388  4.402542
## 20 2.55 20.31  12    7 1.03923683   60   10  7.8 0.05 2.758355  3.710988
## 21 1.89 40.09  15   13 0.14494388   55    8  9.6 0.05 3.076401  3.969954
## 22 2.34 11.81   8    8 0.08467401   60   10  4.3 0.00 2.107542  3.239832
## 23 2.83 11.39   5    9 0.17779631   50    8 11.1 0.00 3.330327  4.196872
## 24 1.81 22.00   5   15 0.04545455   60    7  6.8 0.00 2.576235  3.572544
## 25 9.23  3.58  23    6 2.78932961   40    2 53.0 0.56 8.520341 12.438433
## 26 8.60  3.23  13    6 1.23959752   45    2 17.3 0.31 4.264245  5.250443
## 27 8.21  7.73   7    8 0.64936611   55    8 27.3 0.13 5.531129  7.189184
## 28 2.93 14.41  10   10 0.13939625   55    6 18.0 0.00 4.359658  5.379424
## 29 7.48 11.54  12    7 0.17665511   45    3 30.2 0.09 5.877340  7.772606
## 30 2.57 11.10   9    8 0.09009009   60    7 10.3 0.00 3.196242  4.074507
## 31 5.77 22.09   4    8 0.18526935   45    3 18.2 0.00 4.386636  5.416558
## 32 2.90  9.39   5   10 0.10649627   55    1 12.3 0.00 3.525457  4.386417
## 33 2.97 19.49   4   13 0.05130836   55    4  7.1 0.00 2.631237  3.613711
## 34 1.84 21.01   5   12 0.14759638   55    8 14.0 0.00 3.789449  4.667382
## 35 3.78 27.16   2   10 0.07681885   55    3 11.3 0.04 3.363354  4.227958
## 36 2.76 14.03   3    8 0.07127584   50    4 16.3 0.07 4.125024  5.069101
## 37 4.27 20.63   1   11 0.04847310   55    4  9.6 0.00 3.076401  3.969954
## 38 3.05 20.06   3   11 0.04985045   60    8  9.0 0.00 2.971902  3.882115
## 39 4.12 12.91   1   10 0.07745933   55    3 10.4 0.00 3.213174  4.089632

Para la tasa de accidentes media de cualquier sección con 53 puntos de acceso por milla

La tasa de accidentes media con 53 puntos de accesos por milla tiene un intervalo de confianza de una tasa de accidentes media minimo de 8.52 y como maximo de 12.43.

summary(data9)

##       rate            len              adt             trks       
##  Min.   :1.610   Min.   : 2.960   Min.   : 1.00   Min.   : 6.000  
##  1st Qu.:2.630   1st Qu.: 7.995   1st Qu.: 5.00   1st Qu.: 8.000  
##  Median :3.050   Median :11.390   Median :13.00   Median : 9.000  
##  Mean   :3.933   Mean   :12.884   Mean   :19.62   Mean   : 9.333  
##  3rd Qu.:4.595   3rd Qu.:17.800   3rd Qu.:24.00   3rd Qu.:11.000  
##  Max.   :9.230   Max.   :40.090   Max.   :73.00   Max.   :15.000  
##      sigs1              slim         shld             acpt      
##  Min.   :0.04545   Min.   :40   Min.   : 1.000   Min.   : 2.20  
##  1st Qu.:0.08738   1st Qu.:50   1st Qu.: 4.000   1st Qu.: 6.95  
##  Median :0.17666   Median :55   Median : 8.000   Median :10.30  
##  Mean   :0.51072   Mean   :55   Mean   : 6.872   Mean   :12.16  
##  3rd Qu.:0.71515   3rd Qu.:60   3rd Qu.:10.000   3rd Qu.:14.60  
##  Max.   :2.78933   Max.   :70   Max.   :10.000   Max.   :53.00  
##       itg            ice7.lwr        ice7.upr     
##  Min.   :0.0000   Min.   :1.703   Min.   : 2.971  
##  1st Qu.:0.0000   1st Qu.:2.604   1st Qu.: 3.593  
##  Median :0.1300   Median :3.196   Median : 4.075  
##  Mean   :0.2964   Mean   :3.380   Mean   : 4.487  
##  3rd Qu.:0.3600   3rd Qu.:3.878   3rd Qu.: 4.771  
##  Max.   :1.5400   Max.   :8.520   Max.   :12.438

Para la respuesta media de las 39 secciones El intervalo de confianza para la respuesta media de las 39 secciones esta en el intervalo de ¨¨[3.38 y 4.48] es decir, el intervalo de confianza de la tasa de accidentes tiene como minimo 3.38 y una tasa de accidentes maximo de 4.48 .

GRAFICA DE DISPERSIÓN DE LOS DATOS DEL MODELO

library(ggplot2)
ggplot(data = data8, mapping = aes(x = acpt, y = rate)) +
  geom_point(color = "firebrick", size = 2) +
  geom_smooth(method = "lm", se = TRUE, color = "black") +
  labs(title = "rate ~ acpt", x = "Numero de puntos de acceso por milla ", y = "Tasa de accidentes") +
  theme_bw() + 
  theme(plot.title = element_text(hjust = 0.5))

Notemos en la gráfica que varios puntos están cerca de la linea de regresión simple, lo que indica que la variable explicativa es buena variable, sin embargo algunos puntos estan fuera del intervalo de confianza, es decir, la avriable tasa de accidentes tiene más razones para que suceda o más variables que ocasione el incremento de la tasa de accidentes.

Intervalo de prediccion para una observacion

newdata<- data.frame(
   acpt= c(53)
   
   )

newdata

##   acpt
## 1   53

Predicción

# Predicción
Proporcionderate<- predict(modelo7, newdata = newdata)

Proporcionderate

##        1 
## 10.47939

#Validación de supuestos

VERIFICACIÓN DE SUPUESTOS :Independencia, Varianza Constante y Normalidad de los Residuales

Pruebas de normalidad

Gráficamente

hist(modelo7$residuals,col = 4, main = "Histograma de los residuales", xlab="Residuales")

Notemos que graficamente podria acercarse a una distribución normal pero consesgo positivo.

Estadisticos formales

Para probar si los residuales proviene de una población normal se usa test de shapiro, que contrasta la hipótesis:

\(H_{0}: los\ datos\ provienen\ de\ una\ distribución\ normal\)

\(H_{1}: los\ datos\ no\ provienen\ de\ una\ distribución\ normal\)

shapiro.test(modelo7$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo7$residuals
## W = 0.97454, p-value = 0.5111

De acuerdo con el \(p-valor=0.05111\) se puede decir con un 95% de confianza no se tiene suficiente evidencia para rechazar, es decir los residuales provienen de una poblacion con distribución normal, por lo que cumple.

Independencia

Para probar Independencia un supuesto muy importante, es importante saber que una muestra de manera indempendiente ie. que no hay patrones de dependencia espacial, temporal o multinivel entre las observaciones. En este supuesto espero que ¿espero que suceda cerca del acceso a la carretera sea similar a los que estan lejos?

Gráfico

# Gráfico de Residuos vs. Valores Ajustados
plot(modelo7, which = 1, col = "darkblue", pch = 19)

Aqui vemos que los residuales y los estimados son independientes.

En este caso existen pruebas estadisticas para evaluar el supuesto de independencia.El test de Durbin-Watson

contrasta la hipótesis:

\(H_{0}: los\ datos\ no\ presentan\ autocorrelacion\)

\(H_{1}: los\ datos\ presentan\ autocorrelacion\)

library(car)

durbinWatsonTest(modelo7)

##  lag Autocorrelation D-W Statistic p-value
##    1      0.04902362      1.845555    0.61
##  Alternative hypothesis: rho != 0

Tomando en cuenta el p-valor es mayor a 0.05, es decir, no se tienenla suficiente evidencia para rechazar la hipotesis nula, es decir los datos son independientes.

Prueba de Homocedasticidad

\(H_{0}: La\ varianza \ es \ constante\ en \ los\ residuales\)

\(H_{1}: La\ varianza \ no\ es \ constante\ en \ los \ residuales\)

Prueba de homocedasticidad:

\(H_{0}: Hay\ homocedasticidad \ de \ los \ residuales\)

\(H_{1}: No\ hay \ homocedasticidad \ de \ los \ residuales\)

ncvTest(modelo7) #prueba de homocedosticidad

Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = 1.360311, Df = 1, p = 0.24348

Con un p-valor mayor a 0.05 por lo que no se rechazar la hipotesis nula por (la varianza de los residuos son constantes).

Analisis de puntos influyentes

# Calcular Distancia de Cook
cooksD <- data.frame(cooks.distance(modelo7))
cooksD

##    cooks.distance.modelo7.
## 1             4.600876e-02
## 2             3.954815e-04
## 3             1.048866e-03
## 4             1.348850e-03
## 5             9.381627e-03
## 6             2.034943e-02
## 7             8.184775e-05
## 8             1.589887e-02
## 9             1.045151e-04
## 10            6.118793e-02
## 11            2.216012e-02
## 12            5.351183e-03
## 13            1.231284e-03
## 14            1.215922e-02
## 15            2.962748e-03
## 16            4.048769e-03
## 17            2.355318e-02
## 18            5.689991e-03
## 19            1.127858e-02
## 20            4.457184e-03
## 21            2.213985e-02
## 22            1.536520e-03
## 23            6.781150e-03
## 24            1.672786e-02
## 25            1.071564e+00
## 26            1.511674e-01
## 27            1.129327e-01
## 28            4.137731e-02
## 29            1.975450e-02
## 30            9.084178e-03
## 31            8.473514e-03
## 32            8.557442e-03
## 33            2.360881e-04
## 34            4.561999e-02
## 35            1.897933e-06
## 36            3.147785e-02
## 37            4.629592e-03
## 38            1.226834e-03
## 39            1.749827e-03

influenceIndexPlot(modelo7,vars="Cook")

Notemos que el punto que podria llegar a ser influyente es el punto 25, ya quie esta alejado de los demas puntos

summary(influence.measures(modelo7))

## Potentially influential observations of
##   lm(formula = rate ~ acpt, data = data8) :
## 
##    dfb.1_ dfb.acpt dffit   cov.r   cook.d  hat    
## 25  0.96  -1.45_*  -1.48_*  2.03_*  1.07_*  0.53_*
## 26  0.09   0.30     0.62    0.64_*  0.15    0.03  
## 29 -0.09   0.18     0.20    1.19_*  0.02    0.12

La observación 25 es la que presenta mayor distancia de Cook sin embargo, es punto influyente pues D(25) >1

R Markdown

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:

summary(cars)

##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

Including Plots

You can also embed plots, for example:

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.

Examen 1er parcial

María de Jesús Regino Morales

2025-09-22