Introduccion.

El dataset Boston, es un conjunto de datos que presenta variables claves que afectan el precio de la vivienda en la ciudad de Boston, acontinuación se explorara el conjunto de datos con el fin de realizar un modelo en funcion de su variable precio de vivienda y porcentaje de habitantes de estrato bajo.

1. Diagnóstico de calidad de datos.

Nombre de variables del dataset.

El dataset consta de 14 variables, entre ellas la variable respuesta medv que representa el precio de la vivienda, y la variable lstat que representa el porcentaje de habitantes de estrato bajo. Las demás variables representan diferentes características de las viviendas y su entorno.

##  [1] "crim"    "zn"      "indus"   "chas"    "nox"     "rm"      "age"    
##  [8] "dis"     "rad"     "tax"     "ptratio" "black"   "lstat"   "medv"

Estructura general del dataset.

En la estructura del dataset se evidencia que el dataset tiene 506 registros y 14 variables, sus variables son tipo numérica.

## 'data.frame':    506 obs. of  14 variables:
##  $ crim   : num  0.00632 0.02731 0.02729 0.03237 0.06905 ...
##  $ zn     : num  18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
##  $ indus  : num  2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
##  $ chas   : chr  "0" "0" "0" "0" ...
##  $ nox    : num  0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
##  $ rm     : num  6.58 6.42 7.18 7 7.15 ...
##  $ age    : num  65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
##  $ dis    : num  4.09 4.97 4.97 6.06 6.06 ...
##  $ rad    : int  1 2 2 3 3 3 5 5 5 5 ...
##  $ tax    : int  296 242 242 222 222 222 311 311 311 311 ...
##  $ ptratio: num  15.3 17.8 17.8 18.7 18.7 18.7 15.2 NA 15.2 15.2 ...
##  $ black  : num  397 397 393 395 397 ...
##  $ lstat  : num  4.98 9.14 4.03 NA 5.33 ...
##  $ medv   : num  24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...

1.1 Revisión y conversión de variable categorica chas.

En la estructura del dataset se evidencia que todas sus variables son numericas, pero según el dataset la variable chas es categorica, por lo tanto se procede con la conversión a factor.

Validacion de datos de la variable chas.

## 
##    ??     0     1 FALSE     n    No river  TRUE     Y   yes  <NA> 
##     1   462    36     1     1     1     1     1     1     1     0

Cantidad y conversión de factor

## 
##   No   Si <NA> 
##  465   40    1

##  Factor w/ 2 levels "No","Si": 1 1 1 1 1 1 1 1 1 1 ...

1.2 Inconsistencia en los datos.

##       crim                 zn             indus         chas    
##  Min.   :  0.00632   Min.   :  0.00   Min.   : 0.46   No  :465  
##  1st Qu.:  0.08276   1st Qu.:  0.00   1st Qu.: 5.19   Si  : 40  
##  Median :  0.26600   Median :  0.00   Median : 9.69   NA's:  1  
##  Mean   :  4.46577   Mean   : 11.36   Mean   :11.14             
##  3rd Qu.:  3.82138   3rd Qu.: 12.50   3rd Qu.:18.10             
##  Max.   :100.00000   Max.   :100.00   Max.   :27.74             
##                                                                 
##       nox               rm              age              dis        
##  Min.   :0.3850   Min.   :-3.000   Min.   :  2.90   Min.   : 1.130  
##  1st Qu.:0.4490   1st Qu.: 5.884   1st Qu.: 45.02   1st Qu.: 2.100  
##  Median :0.5380   Median : 6.208   Median : 77.50   Median : 3.207  
##  Mean   :0.5988   Mean   : 6.315   Mean   : 68.57   Mean   : 3.795  
##  3rd Qu.:0.6310   3rd Qu.: 6.631   3rd Qu.: 94.08   3rd Qu.: 5.188  
##  Max.   :5.0000   Max.   :30.000   Max.   :100.00   Max.   :12.127  
##                   NA's   :28                                        
##       rad              tax            ptratio          black       
##  Min.   : 1.000   Min.   :-100.0   Min.   :12.60   Min.   :  0.32  
##  1st Qu.: 4.000   1st Qu.: 277.5   1st Qu.:17.40   1st Qu.:375.38  
##  Median : 5.000   Median : 330.0   Median :19.05   Median :391.44  
##  Mean   : 9.549   Mean   : 402.2   Mean   :18.46   Mean   :356.67  
##  3rd Qu.:24.000   3rd Qu.: 666.0   3rd Qu.:20.20   3rd Qu.:396.23  
##  Max.   :24.000   Max.   : 711.0   Max.   :22.00   Max.   :396.90  
##                                    NA's   :20                      
##      lstat            medv       
##  Min.   : 1.73   Min.   :  5.00  
##  1st Qu.: 7.14   1st Qu.: 17.02  
##  Median :11.38   Median : 21.20  
##  Mean   :12.75   Mean   : 23.83  
##  3rd Qu.:17.12   3rd Qu.: 25.07  
##  Max.   :37.97   Max.   :300.00  
##  NA's   :25

1.3 Identificación de datos faltantes.

La variable *rm, lstat, ptratio, presentan un porcentaje de faltantes de 6%, 4% y 5% respectivamente, lo que representa un total de 28 registros con datos faltantes en rm, 25 registros en lstat, y 20 registros con datos faltantes en ptratio, para un total del 1% de datos faltantes en el dataset.

El siguiente grafico complementario muestra cuales son las variables que tienen mas porcentaje de datos faltantes,adicional se visualiza la matriz de categorias con faltantes, asi logramos visualizar patrones o relaciones entre los datos.

## 
##  Variables sorted by number of missings: 
##  Variable       Count
##        rm 0.055335968
##     lstat 0.049407115
##   ptratio 0.039525692
##      chas 0.001976285
##      crim 0.000000000
##        zn 0.000000000
##     indus 0.000000000
##       nox 0.000000000
##       age 0.000000000
##       dis 0.000000000
##       rad 0.000000000
##       tax 0.000000000
##     black 0.000000000
##      medv 0.000000000

Visualizacion de la variable respuesta

La variable respuesta medv, presenta 4 valores atipicos, valores como 300, para el ejercicio se procede a imputar la mediana a estos valores, con el fin de realizar graficos que permitan el analisis y visualización correcta.

Cantidad de datos con valor > a 50

sum(datos$medv > 50, na.rm = TRUE) #cuenta cuantos datos son >= 50os

## [1] 4

¨Indices de los datos con valor > a 50

which(datos$medv > 50) #cuales son las filas con > 50

## [1]  74  77 195 465

datos$medv[datos$medv > 50] <- median(datos$medv[datos$medv <= 50], na.rm = TRUE)

##  [1] 162 163 164 167 187 196 205 226 258 268 284 369 370 371 372 373

## [1] 16

En el grafico anterior se evidencia que la variable respuesta tiene una distribucion asimetrica a la derecha, hay 16 datos que tienen valores igual a 50, por lo tanto se procedera a omitir dichos registros, ya que esos valores se representarian en los datos atipicos, asi evitaremos sesgos por los valores truncados.

Gráficos exploratorios de las variables explicativas.

Se realiza graficios exploratorios en con las variables mas representativas y tambien con las que tienen datos faltantes con el fin de visualizar graficamente su comportamiento y su relacion con la variable respuesta, ademas se realiza una matriz de correlacion entre las variables cuantitativas para identificar posibles relaciones lineales entre ellas.

##                crim          zn      indus         nox          rm         age
## crim     1.00000000 -0.02600582  0.2140433  0.03514565 -0.03999995  0.20472607
## zn      -0.02600582  1.00000000 -0.5271206 -0.12407238  0.14210389 -0.56318351
## indus    0.21404334 -0.52712059  1.0000000  0.14453777 -0.18354126  0.63797045
## nox      0.03514565 -0.12407238  0.1445378  1.00000000 -0.02129463  0.17880647
## rm      -0.03999995  0.14210389 -0.1835413 -0.02129463  1.00000000 -0.08894819
## age      0.20472607 -0.56318351  0.6379705  0.17880647 -0.08894819  1.00000000
## dis     -0.18076055  0.67322746 -0.7102844 -0.16134064  0.10380682 -0.74304343
## rad      0.39455021 -0.30772559  0.5961238  0.14462894 -0.07397930  0.45193876
## tax      0.33644878 -0.27472027  0.6609543  0.16554872 -0.14080458  0.46117858
## ptratio  0.20771679 -0.38417429  0.3895617  0.03855486 -0.05384479  0.27028632
## black   -0.23573751  0.17611749 -0.3633936 -0.14118928  0.01778288 -0.27900176
## lstat    0.27953013 -0.41157666  0.6363408  0.12687234 -0.16394635  0.63138068
## medv    -0.27951864  0.40076784 -0.5980934 -0.12223503  0.25311686 -0.48846424
##                dis        rad        tax     ptratio       black      lstat
## crim    -0.1807605  0.3945502  0.3364488  0.20771679 -0.23573751  0.2795301
## zn       0.6732275 -0.3077256 -0.2747203 -0.38417429  0.17611749 -0.4115767
## indus   -0.7102844  0.5961238  0.6609543  0.38956168 -0.36339364  0.6363408
## nox     -0.1613406  0.1446289  0.1655487  0.03855486 -0.14118928  0.1268723
## rm       0.1038068 -0.0739793 -0.1408046 -0.05384479  0.01778288 -0.1639464
## age     -0.7430434  0.4519388  0.4611786  0.27028632 -0.27900176  0.6313807
## dis      1.0000000 -0.4918753 -0.4868451 -0.24728895  0.29942610 -0.5333154
## rad     -0.4918753  1.0000000  0.8363277  0.46462918 -0.45153359  0.5153481
## tax     -0.4868451  0.8363277  1.0000000  0.42632582 -0.37460679  0.5220339
## ptratio -0.2472889  0.4646292  0.4263258  1.00000000 -0.17486800  0.3678297
## black    0.2994261 -0.4515336 -0.3746068 -0.17486800  1.00000000 -0.3694898
## lstat   -0.5333154  0.5153481  0.5220339  0.36782973 -0.36948983  1.0000000
## medv     0.3665207 -0.4746477 -0.5434575 -0.52043564  0.36473882 -0.7600318
##               medv
## crim    -0.2795186
## zn       0.4007678
## indus   -0.5980934
## nox     -0.1222350
## rm       0.2531169
## age     -0.4884642
## dis      0.3665207
## rad     -0.4746477
## tax     -0.5434575
## ptratio -0.5204356
## black    0.3647388
## lstat   -0.7600318
## medv     1.0000000

2. Tratamiento de datos faltantes.

Se realiza comparación de distribuciones por los metodos ¨MEDIA, PMM y KNN con el fin de determinar cual de los metodos conserva mejor la forma original de los datos.

Según la siguiente grafica se observa lo siguiente:

Media: No cambia la media pero reduce artificialmente la variabilidad PMM: Preserva mejor la forma de la distribución original. KNN: Usa vecinos cercanos; buena opción cuando hay correlaciones entre variables.

dada la comparacion anteior el metodo que conserva la originalidad de los datos es el metodo de imputación PMM.

datos_limpio <- datos_pmm

3. identificación de datos atipicos.

Seleccionar solo variables numéricas, excluimos ‘chas’ ya que es factor

##  [1] "crim"    "zn"      "indus"   "nox"     "rm"      "age"     "dis"    
##  [8] "rad"     "tax"     "ptratio" "black"   "lstat"   "medv"

3.1. Análisis atipicos Univariado: Z-score turkey

Boxplots de todas las variables numéricas

## $crim
## $crim$stats
##          [,1]
## [1,] 0.006320
## [2,] 0.082650
## [3,] 0.253715
## [4,] 3.774980
## [5,] 9.187020
## 
## $crim$n
## [1] 490
## 
## $crim$conf
##              [,1]
## [1,] -0.009832897
## [2,]  0.517262897
## 
## $crim$out
##  [1] 100.00000 100.00000 100.00000 100.00000  13.52220  11.10810  18.49820
##  [8]  19.60910  15.28800   9.82349  23.64820  17.86670  88.97620  15.87440
## [15]  20.08490  16.81180  24.39380  22.59710  14.33370  11.57790  13.35980
## [22]  38.35180   9.91655  25.04610  14.23620   9.59571  24.80170  41.52920
## [29] 100.00000  20.71620  11.95110  14.43830  51.13580  14.05070  18.81100
## [36]  28.65580  45.74610  18.08460  10.83420  25.94060  73.53410  11.81230
## [43]  11.08740  12.04820  15.86030  12.24720  37.66190   9.33889  10.06230
## [50]  13.91340  11.16040  14.42080  15.17720  13.67810   9.39063  22.05110
## [57]   9.72418   9.96654  12.80230  10.67180   9.92485   9.32909   9.51363
## [64]  15.57570  13.07510  15.02340  10.23300  14.33370
## 
## $crim$group
##  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## [39] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## 
## $crim$names
## [1] ""
## 
## 
## $zn
## $zn$stats
##      [,1]
## [1,]  0.0
## [2,]  0.0
## [3,]  0.0
## [4,] 12.5
## [5,] 30.0
## 
## $zn$n
## [1] 490
## 
## $zn$conf
##            [,1]
## [1,] -0.8922141
## [2,]  0.8922141
## 
## $zn$out
##  [1]  75.0  75.0  75.0  90.0  85.0 100.0  80.0  80.0  45.0  45.0  45.0  45.0
## [13]  45.0  45.0  60.0  60.0  80.0  80.0  80.0  95.0  95.0  82.5  82.5  95.0
## [25]  80.0  80.0  90.0  40.0  40.0  40.0  40.0  40.0  90.0  55.0  80.0  52.5
## [37]  52.5  52.5  80.0  80.0  80.0  70.0  70.0  70.0  34.0  34.0  34.0  33.0
## [49]  33.0  33.0  33.0  35.0  35.0  35.0  55.0  55.0  85.0  80.0  40.0  40.0
## [61]  60.0  60.0  90.0  80.0  80.0
## 
## $zn$group
##  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## [39] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## 
## $zn$names
## [1] ""
## 
## 
## $indus
## $indus$stats
##       [,1]
## [1,]  0.74
## [2,]  5.19
## [3,]  9.69
## [4,] 18.10
## [5,] 27.74
## 
## $indus$n
## [1] 490
## 
## $indus$conf
##           [,1]
## [1,]  8.768521
## [2,] 10.611479
## 
## $indus$out
## numeric(0)
## 
## $indus$group
## numeric(0)
## 
## $indus$names
## [1] ""
## 
## 
## $nox
## $nox$stats
##       [,1]
## [1,] 0.385
## [2,] 0.449
## [3,] 0.538
## [4,] 0.624
## [5,] 0.871
## 
## $nox$n
## [1] 490
## 
## $nox$conf
##          [,1]
## [1,] 0.525509
## [2,] 0.550491
## 
## $nox$out
## [1] 5 5 5 5 5
## 
## $nox$group
## [1] 1 1 1 1 1
## 
## $nox$names
## [1] ""
## 
## 
## $rm
## $rm$stats
##       [,1]
## [1,] 4.880
## [2,] 5.879
## [3,] 6.193
## [4,] 6.593
## [5,] 7.645
## 
## $rm$n
## [1] 490
## 
## $rm$conf
##          [,1]
## [1,] 6.142037
## [2,] 6.243963
## 
## $rm$out
##  [1] 30.000 -3.000  8.069  7.820 -3.000 -3.000  7.765 25.000  7.853 20.000
## [11]  8.266  8.040  7.686  8.337  8.247  8.259  8.398  7.691  7.820 -3.000
## [21]  8.780  3.561  3.863  4.138  4.368  4.652  4.138  4.628
## 
## $rm$group
##  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## 
## $rm$names
## [1] ""
## 
## 
## $age
## $age$stats
##       [,1]
## [1,]   2.9
## [2,]  44.4
## [3,]  76.8
## [4,]  93.9
## [5,] 100.0
## 
## $age$n
## [1] 490
## 
## $age$conf
##          [,1]
## [1,] 73.26683
## [2,] 80.33317
## 
## $age$out
## numeric(0)
## 
## $age$group
## numeric(0)
## 
## $age$names
## [1] ""
## 
## 
## $dis
## $dis$stats
##        [,1]
## [1,] 1.1370
## [2,] 2.1107
## [3,] 3.2759
## [4,] 5.2146
## [5,] 9.2229
## 
## $dis$n
## [1] 490
## 
## $dis$conf
##          [,1]
## [1,] 3.054353
## [2,] 3.497447
## 
## $dis$out
## [1] 10.7103 10.7103 12.1265 10.5857 10.5857
## 
## $dis$group
## [1] 1 1 1 1 1
## 
## $dis$names
## [1] ""
## 
## 
## $rad
## $rad$stats
##      [,1]
## [1,]    1
## [2,]    4
## [3,]    5
## [4,]   24
## [5,]   24
## 
## $rad$n
## [1] 490
## 
## $rad$conf
##          [,1]
## [1,] 3.572458
## [2,] 6.427542
## 
## $rad$out
## numeric(0)
## 
## $rad$group
## numeric(0)
## 
## $rad$names
## [1] ""
## 
## 
## $tax
## $tax$stats
##      [,1]
## [1,] -100
## [2,]  279
## [3,]  330
## [4,]  666
## [5,]  711
## 
## $tax$n
## [1] 490
## 
## $tax$conf
##          [,1]
## [1,] 302.3771
## [2,] 357.6229
## 
## $tax$out
## numeric(0)
## 
## $tax$group
## numeric(0)
## 
## $tax$names
## [1] ""
## 
## 
## $ptratio
## $ptratio$stats
##      [,1]
## [1,] 14.7
## [2,] 17.4
## [3,] 19.0
## [4,] 20.2
## [5,] 22.0
## 
## $ptratio$n
## [1] 490
## 
## $ptratio$conf
##          [,1]
## [1,] 18.80014
## [2,] 19.19986
## 
## $ptratio$out
##  [1] 12.6 12.6 12.6 13.0 13.0 13.0 13.0 13.0 13.0 13.0 13.0 13.0 13.0
## 
## $ptratio$group
##  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1
## 
## $ptratio$names
## [1] ""
## 
## 
## $black
## $black$stats
##        [,1]
## [1,] 348.13
## [2,] 375.87
## [3,] 391.77
## [4,] 396.33
## [5,] 396.90
## 
## $black$n
## [1] 490
## 
## $black$conf
##          [,1]
## [1,] 390.3096
## [2,] 393.2304
## 
## $black$out
##  [1] 288.99 303.42 306.38 232.60 248.31  70.80 344.91 338.63 262.76 172.91
## [11] 169.27 341.60 343.28 261.95 321.02  88.01  88.63 338.92 240.16 227.61
## [21] 297.09 330.04 292.29 341.60 316.03 131.42 285.83 338.16 329.46 332.09
## [31] 314.64 179.36   2.60  35.05  28.79 210.97  88.27  27.25  21.57 127.36
## [41]  16.45  48.45 318.75 319.98 291.55   2.52   3.65   7.68  24.65  18.82
## [51]  96.73  60.72  83.45  81.33  97.95 100.19 100.63 109.85  27.49   9.32
## [61]  68.95 240.52  43.06 318.01 304.21   0.32   6.68  50.92  10.48   3.50
## [71] 272.21 255.23 334.40  22.01 331.29 302.76 344.05 318.43
## 
## $black$group
##  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## [39] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## [77] 1 1
## 
## $black$names
## [1] ""
## 
## 
## $lstat
## $lstat$stats
##        [,1]
## [1,]  1.980
## [2,]  7.390
## [3,] 11.705
## [4,] 17.160
## [5,] 30.810
## 
## $lstat$n
## [1] 490
## 
## $lstat$conf
##          [,1]
## [1,] 11.00765
## [2,] 12.40235
## 
## $lstat$out
## [1] 34.41 34.77 37.97 31.99 34.37 36.98 34.41 34.02
## 
## $lstat$group
## [1] 1 1 1 1 1 1 1 1
## 
## $lstat$names
## [1] ""
## 
## 
## $medv
## $medv$stats
##       [,1]
## [1,]  5.00
## [2,] 16.70
## [3,] 20.95
## [4,] 24.60
## [5,] 36.40
## 
## $medv$n
## [1] 490
## 
## $medv$conf
##          [,1]
## [1,] 20.38612
## [2,] 21.51388
## 
## $medv$out
##  [1] 38.7 43.8 41.3 37.2 39.8 37.9 37.0 42.3 48.5 44.8 37.6 46.7 41.7 48.3 42.8
## [16] 44.0 43.1 48.8 36.5 43.5 45.4 46.0 37.3
## 
## $medv$group
##  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## 
## $medv$names
## [1] ""

Detección automática de atípicos por variable

Resumen: número de atípicos por variable y método

##         Variable Zscore Tukey
## crim        crim      9    68
## zn            zn     26    65
## indus      indus      0     0
## nox          nox      5     5
## rm            rm      7    28
## age          age      0     0
## dis          dis      5     5
## rad          rad      0     0
## tax          tax      0     0
## ptratio  ptratio      0    13
## black      black     24    78
## lstat      lstat      3     8
## medv        medv      6    23

###Detalle para una variable clave: crim

crim tiene alta asimetría; veamos sus atípicos

(La variable crim presenta una distribución fuertemente asimétrica positiva,con la mayoría de observaciones concentradas en valores bajos y una cola extendida hacia valores altos. Esto se refleja en el histograma, donde se observa una gran cantidad de casos con tasas de crimen cercanas a cero y unos pocos casos con tasas muy elevadas, lo que indica la presencia de atípicos extremos en esta variable.))

## 
## Índices atípicos en crim (|z| > 3): 29 56 67 331 365 390 395 399 403

## Valores: 100 100 100 100 88.9762 100 51.1358 45.7461 73.5341

3.2. Análisis Multivariado: Mahalanobis y LOF

Aplicar función

Resultados

## 
## === Atípicos multivariados – Mahalanobis ===

## Umbral chi² (p=0.01, df= 13 ): 27.69

## Número de atípicos: 31

## Índices: 29 33 44 56 67 90 118 154 166 194 198 208 210 211 220 246 331 337 342 343 365 390 395 396 397 400 403 435 458 475 477

## 
## === Atípicos multivariados – LOF ===

## Índices: 211 458 210 29 390

Resumen comparativo multivariado

## $n_out_mahalanobis
## [1] 31
## 
## $n_out_lof
## [1] 5
## 
## $id_mahalanobis
##  [1]  29  33  44  56  67  90 118 154 166 194 198 208 210 211 220 246 331 337 342
## [20] 343 365 390 395 396 397 400 403 435 458 475 477
## 
## $id_lof
## [1] 211 458 210  29 390

Observaciones detectadas por AMBOS métodos

cat("\nDetectados por Mahalanobis Y LOF:\n")

## 
## Detectados por Mahalanobis Y LOF:

print(intersect(id_out_mult$Out_dist, id_out_mult$Out_LOF))

## [1]  29 210 211 390 458

4 – OBSERVACIONES INFLUYENTES

Evalución de la presencia de datos influyentes en el modelo mod <- lm(datos\(medv ~ datos\)lstat).

## 
## Call:
## lm(formula = datos_limpio$medv ~ datos_limpio$lstat)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -13.9930  -3.3736  -0.9507   1.9400  21.2614 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        32.47544    0.48051   67.58   <2e-16 ***
## datos_limpio$lstat -0.83534    0.03241  -25.78   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.118 on 488 degrees of freedom
## Multiple R-squared:  0.5766, Adjusted R-squared:  0.5757 
## F-statistic: 664.5 on 1 and 488 DF,  p-value: < 2.2e-16

#4.1. Distancia de Cook

## Umbral (4 * media): 0.011353

## Número de influyentes: 28

## Índices: 9 49 99 142 148 149 158 177 197 198 208 218 221 225 226 246 249 253 254 259 271 273 358 359 397 399 406 490

Gráfica de Cook

# 4.1. Gráficas diagnósticas integradas del modelo

Las 4 gráficas estándar de lm() — diagnóstico completo Grafica 1 – Residuos vs Ajustados : detecta no linealidad y heterocedasticidad Grafica 2 – Q-Q de residuos : evalúa normalidad de los errores Grafica 3 – Scale-Location : evalúa homocedasticidad Grafica 4 – Residuos vs Leverage : identifica puntos influyentes por Cook + leverage

#4.1. Leverage (valores hat)

## 
## === Leverage (h > 2*h_barra =  0.0082 ) ===

## Número de observaciones: 36

4.2. Tabla resumen de observaciones influyentes

Unión de todos los criterios

## 
## === Tabla de observaciones influyentes ===

##     Obs lstat medv     Cook Leverage Influyente_Cook Influyente_Lev
## 9     9 29.93 16.5 0.021626   0.0135            TRUE           TRUE
## 33   33 27.71 13.2 0.003133   0.0107           FALSE           TRUE
## 49   49 30.81 14.4 0.017033   0.0148            TRUE           TRUE
## 99   99  3.57 43.8 0.022143   0.0056            TRUE          FALSE
## 124 124 25.41 17.3 0.005836   0.0082           FALSE           TRUE
## 127 127 27.26 15.7 0.007140   0.0102           FALSE           TRUE
## 142 142 34.41 14.4 0.046228   0.0204            TRUE           TRUE
## 143 143 26.82 13.4 0.002091   0.0097           FALSE           TRUE
## 144 144 26.42 15.6 0.004859   0.0093           FALSE           TRUE
## 145 145 29.29 11.8 0.003569   0.0127           FALSE           TRUE
## 146 146 27.80 13.8 0.004365   0.0108           FALSE           TRUE
## 148 148 29.53 14.6 0.011747   0.0130            TRUE           TRUE
## 149 149 28.32 17.8 0.018042   0.0115            TRUE           TRUE
## 158 158  4.59 41.3 0.015057   0.0049            TRUE          FALSE
## 177 177  7.56 39.8 0.011532   0.0032            TRUE          FALSE
## 197 197  3.11 42.3 0.017768   0.0060            TRUE          FALSE
## 198 198  3.81 48.5 0.038621   0.0054            TRUE          FALSE
## 208 208 29.55 23.7 0.064581   0.0130            TRUE           TRUE
## 218 218  4.14 44.8 0.024918   0.0052            TRUE          FALSE
## 221 221  3.92 46.7 0.031576   0.0053            TRUE          FALSE
## 225 225  2.47 41.7 0.015977   0.0065            TRUE          FALSE
## 226 226  3.95 48.3 0.037557   0.0053            TRUE          FALSE
## 246 246  3.54 42.8 0.019162   0.0056            TRUE          FALSE
## 249 249  3.11 44.0 0.022964   0.0060            TRUE          FALSE
## 253 253  7.26 43.1 0.017988   0.0034            TRUE          FALSE
## 254 254  5.91 48.8 0.035274   0.0041            TRUE          FALSE
## 259 259  3.16 43.5 0.021354   0.0059            TRUE          FALSE
## 271 271  3.76 45.4 0.027205   0.0055            TRUE          FALSE
## 273 273  3.01 46.0 0.030020   0.0060            TRUE          FALSE
## 358 358 34.77 13.8 0.045061   0.0210            TRUE           TRUE
## 359 359 37.97 13.8 0.092734   0.0270            TRUE           TRUE
## 369 369 30.63  8.8 0.001041   0.0145           FALSE           TRUE
## 370 370 30.81  7.2 0.000062   0.0148           FALSE           TRUE
## 371 371 28.28 10.5 0.000605   0.0114           FALSE           TRUE
## 372 372 31.99  7.4 0.000883   0.0165           FALSE           TRUE
## 373 373 30.62 10.2 0.003106   0.0145           FALSE           TRUE
## 377 377 25.68  9.7 0.000289   0.0085           FALSE           TRUE
## 383 383 30.59  5.0 0.001049   0.0144           FALSE           TRUE
## 384 384 29.97  6.3 0.000347   0.0136           FALSE           TRUE
## 385 385 26.77  5.6 0.003823   0.0096           FALSE           TRUE
## 389 389 27.38  8.5 0.000245   0.0103           FALSE           TRUE
## 393 393 26.40 17.2 0.008253   0.0092           FALSE           TRUE
## 397 397 34.37 17.9 0.080867   0.0204            TRUE           TRUE
## 399 399 36.98  7.0 0.014780   0.0251            TRUE           TRUE
## 400 400 29.05  7.2 0.000246   0.0124           FALSE           TRUE
## 401 401 25.79  7.5 0.001967   0.0086           FALSE           TRUE
## 402 402 26.64 10.4 0.000006   0.0095           FALSE           TRUE
## 406 406 34.41 14.2 0.044511   0.0204            TRUE           TRUE
## 422 422 26.45  8.7 0.000511   0.0093           FALSE           TRUE
## 423 423 34.02  8.4 0.007401   0.0198           FALSE           TRUE
## 436 436 26.42 15.2 0.004140   0.0093           FALSE           TRUE
## 475 475 29.68  8.1 0.000045   0.0132           FALSE           TRUE
## 490 490  7.88 11.9 0.011624   0.0031            TRUE          FALSE

Informe Procesamiento dataset Boston

Yeimy Fernanda Sanza - Cristian Mauricio Alvear

2026-05-09