El dataset Boston, es un conjunto de datos que presenta variables claves que afectan el precio de la vivienda en la ciudad de Boston, acontinuación se explorara el conjunto de datos con el fin de realizar un modelo en funcion de su variable precio de vivienda y porcentaje de habitantes de estrato bajo.
El dataset consta de 14 variables, entre ellas la variable respuesta medv que representa el precio de la vivienda, y la variable lstat que representa el porcentaje de habitantes de estrato bajo. Las demás variables representan diferentes características de las viviendas y su entorno.
## [1] "crim" "zn" "indus" "chas" "nox" "rm" "age"
## [8] "dis" "rad" "tax" "ptratio" "black" "lstat" "medv"
En la estructura del dataset se evidencia que el dataset tiene 506 registros y 14 variables, sus variables son tipo numérica.
## 'data.frame': 506 obs. of 14 variables:
## $ crim : num 0.00632 0.02731 0.02729 0.03237 0.06905 ...
## $ zn : num 18 0 0 0 0 0 12.5 12.5 12.5 12.5 ...
## $ indus : num 2.31 7.07 7.07 2.18 2.18 2.18 7.87 7.87 7.87 7.87 ...
## $ chas : chr "0" "0" "0" "0" ...
## $ nox : num 0.538 0.469 0.469 0.458 0.458 0.458 0.524 0.524 0.524 0.524 ...
## $ rm : num 6.58 6.42 7.18 7 7.15 ...
## $ age : num 65.2 78.9 61.1 45.8 54.2 58.7 66.6 96.1 100 85.9 ...
## $ dis : num 4.09 4.97 4.97 6.06 6.06 ...
## $ rad : int 1 2 2 3 3 3 5 5 5 5 ...
## $ tax : int 296 242 242 222 222 222 311 311 311 311 ...
## $ ptratio: num 15.3 17.8 17.8 18.7 18.7 18.7 15.2 NA 15.2 15.2 ...
## $ black : num 397 397 393 395 397 ...
## $ lstat : num 4.98 9.14 4.03 NA 5.33 ...
## $ medv : num 24 21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 ...
En la estructura del dataset se evidencia que todas sus variables son numericas, pero según el dataset la variable chas es categorica, por lo tanto se procede con la conversión a factor.
##
## ?? 0 1 FALSE n No river TRUE Y yes <NA>
## 1 462 36 1 1 1 1 1 1 1 0
##
## No Si <NA>
## 465 40 1
## Factor w/ 2 levels "No","Si": 1 1 1 1 1 1 1 1 1 1 ...
## crim zn indus chas
## Min. : 0.00632 Min. : 0.00 Min. : 0.46 No :465
## 1st Qu.: 0.08276 1st Qu.: 0.00 1st Qu.: 5.19 Si : 40
## Median : 0.26600 Median : 0.00 Median : 9.69 NA's: 1
## Mean : 4.46577 Mean : 11.36 Mean :11.14
## 3rd Qu.: 3.82138 3rd Qu.: 12.50 3rd Qu.:18.10
## Max. :100.00000 Max. :100.00 Max. :27.74
##
## nox rm age dis
## Min. :0.3850 Min. :-3.000 Min. : 2.90 Min. : 1.130
## 1st Qu.:0.4490 1st Qu.: 5.884 1st Qu.: 45.02 1st Qu.: 2.100
## Median :0.5380 Median : 6.208 Median : 77.50 Median : 3.207
## Mean :0.5988 Mean : 6.315 Mean : 68.57 Mean : 3.795
## 3rd Qu.:0.6310 3rd Qu.: 6.631 3rd Qu.: 94.08 3rd Qu.: 5.188
## Max. :5.0000 Max. :30.000 Max. :100.00 Max. :12.127
## NA's :28
## rad tax ptratio black
## Min. : 1.000 Min. :-100.0 Min. :12.60 Min. : 0.32
## 1st Qu.: 4.000 1st Qu.: 277.5 1st Qu.:17.40 1st Qu.:375.38
## Median : 5.000 Median : 330.0 Median :19.05 Median :391.44
## Mean : 9.549 Mean : 402.2 Mean :18.46 Mean :356.67
## 3rd Qu.:24.000 3rd Qu.: 666.0 3rd Qu.:20.20 3rd Qu.:396.23
## Max. :24.000 Max. : 711.0 Max. :22.00 Max. :396.90
## NA's :20
## lstat medv
## Min. : 1.73 Min. : 5.00
## 1st Qu.: 7.14 1st Qu.: 17.02
## Median :11.38 Median : 21.20
## Mean :12.75 Mean : 23.83
## 3rd Qu.:17.12 3rd Qu.: 25.07
## Max. :37.97 Max. :300.00
## NA's :25
La variable *rm, lstat, ptratio, presentan un porcentaje de faltantes de 6%, 4% y 5% respectivamente, lo que representa un total de 28 registros con datos faltantes en rm, 25 registros en lstat, y 20 registros con datos faltantes en ptratio, para un total del 1% de datos faltantes en el dataset.
El siguiente grafico complementario muestra cuales son las variables que tienen mas porcentaje de datos faltantes,adicional se visualiza la matriz de categorias con faltantes, asi logramos visualizar patrones o relaciones entre los datos.
##
## Variables sorted by number of missings:
## Variable Count
## rm 0.055335968
## lstat 0.049407115
## ptratio 0.039525692
## chas 0.001976285
## crim 0.000000000
## zn 0.000000000
## indus 0.000000000
## nox 0.000000000
## age 0.000000000
## dis 0.000000000
## rad 0.000000000
## tax 0.000000000
## black 0.000000000
## medv 0.000000000
La variable respuesta medv, presenta 4 valores atipicos, valores como 300, para el ejercicio se procede a imputar la mediana a estos valores, con el fin de realizar graficos que permitan el analisis y visualización correcta.
sum(datos$medv > 50, na.rm = TRUE) #cuenta cuantos datos son >= 50os
## [1] 4
which(datos$medv > 50) #cuales son las filas con > 50
## [1] 74 77 195 465
datos$medv[datos$medv > 50] <- median(datos$medv[datos$medv <= 50], na.rm = TRUE)
## [1] 162 163 164 167 187 196 205 226 258 268 284 369 370 371 372 373
## [1] 16
En el grafico anterior se evidencia que la variable respuesta tiene una distribucion asimetrica a la derecha, hay 16 datos que tienen valores igual a 50, por lo tanto se procedera a omitir dichos registros, ya que esos valores se representarian en los datos atipicos, asi evitaremos sesgos por los valores truncados.
Se realiza graficios exploratorios en con las variables mas representativas y tambien con las que tienen datos faltantes con el fin de visualizar graficamente su comportamiento y su relacion con la variable respuesta, ademas se realiza una matriz de correlacion entre las variables cuantitativas para identificar posibles relaciones lineales entre ellas.
## crim zn indus nox rm age
## crim 1.00000000 -0.02600582 0.2140433 0.03514565 -0.03999995 0.20472607
## zn -0.02600582 1.00000000 -0.5271206 -0.12407238 0.14210389 -0.56318351
## indus 0.21404334 -0.52712059 1.0000000 0.14453777 -0.18354126 0.63797045
## nox 0.03514565 -0.12407238 0.1445378 1.00000000 -0.02129463 0.17880647
## rm -0.03999995 0.14210389 -0.1835413 -0.02129463 1.00000000 -0.08894819
## age 0.20472607 -0.56318351 0.6379705 0.17880647 -0.08894819 1.00000000
## dis -0.18076055 0.67322746 -0.7102844 -0.16134064 0.10380682 -0.74304343
## rad 0.39455021 -0.30772559 0.5961238 0.14462894 -0.07397930 0.45193876
## tax 0.33644878 -0.27472027 0.6609543 0.16554872 -0.14080458 0.46117858
## ptratio 0.20771679 -0.38417429 0.3895617 0.03855486 -0.05384479 0.27028632
## black -0.23573751 0.17611749 -0.3633936 -0.14118928 0.01778288 -0.27900176
## lstat 0.27953013 -0.41157666 0.6363408 0.12687234 -0.16394635 0.63138068
## medv -0.27951864 0.40076784 -0.5980934 -0.12223503 0.25311686 -0.48846424
## dis rad tax ptratio black lstat
## crim -0.1807605 0.3945502 0.3364488 0.20771679 -0.23573751 0.2795301
## zn 0.6732275 -0.3077256 -0.2747203 -0.38417429 0.17611749 -0.4115767
## indus -0.7102844 0.5961238 0.6609543 0.38956168 -0.36339364 0.6363408
## nox -0.1613406 0.1446289 0.1655487 0.03855486 -0.14118928 0.1268723
## rm 0.1038068 -0.0739793 -0.1408046 -0.05384479 0.01778288 -0.1639464
## age -0.7430434 0.4519388 0.4611786 0.27028632 -0.27900176 0.6313807
## dis 1.0000000 -0.4918753 -0.4868451 -0.24728895 0.29942610 -0.5333154
## rad -0.4918753 1.0000000 0.8363277 0.46462918 -0.45153359 0.5153481
## tax -0.4868451 0.8363277 1.0000000 0.42632582 -0.37460679 0.5220339
## ptratio -0.2472889 0.4646292 0.4263258 1.00000000 -0.17486800 0.3678297
## black 0.2994261 -0.4515336 -0.3746068 -0.17486800 1.00000000 -0.3694898
## lstat -0.5333154 0.5153481 0.5220339 0.36782973 -0.36948983 1.0000000
## medv 0.3665207 -0.4746477 -0.5434575 -0.52043564 0.36473882 -0.7600318
## medv
## crim -0.2795186
## zn 0.4007678
## indus -0.5980934
## nox -0.1222350
## rm 0.2531169
## age -0.4884642
## dis 0.3665207
## rad -0.4746477
## tax -0.5434575
## ptratio -0.5204356
## black 0.3647388
## lstat -0.7600318
## medv 1.0000000
Se realiza comparación de distribuciones por los metodos ¨MEDIA, PMM y KNN con el fin de determinar cual de los metodos conserva mejor la forma original de los datos.
Según la siguiente grafica se observa lo siguiente:
Media: No cambia la media pero reduce artificialmente la variabilidad PMM: Preserva mejor la forma de la distribución original. KNN: Usa vecinos cercanos; buena opción cuando hay correlaciones entre variables.
dada la comparacion anteior el metodo que conserva la originalidad de los datos es el metodo de imputación PMM.
datos_limpio <- datos_pmm
Seleccionar solo variables numéricas, excluimos ‘chas’ ya que es factor
## [1] "crim" "zn" "indus" "nox" "rm" "age" "dis"
## [8] "rad" "tax" "ptratio" "black" "lstat" "medv"
## $crim
## $crim$stats
## [,1]
## [1,] 0.006320
## [2,] 0.082650
## [3,] 0.253715
## [4,] 3.774980
## [5,] 9.187020
##
## $crim$n
## [1] 490
##
## $crim$conf
## [,1]
## [1,] -0.009832897
## [2,] 0.517262897
##
## $crim$out
## [1] 100.00000 100.00000 100.00000 100.00000 13.52220 11.10810 18.49820
## [8] 19.60910 15.28800 9.82349 23.64820 17.86670 88.97620 15.87440
## [15] 20.08490 16.81180 24.39380 22.59710 14.33370 11.57790 13.35980
## [22] 38.35180 9.91655 25.04610 14.23620 9.59571 24.80170 41.52920
## [29] 100.00000 20.71620 11.95110 14.43830 51.13580 14.05070 18.81100
## [36] 28.65580 45.74610 18.08460 10.83420 25.94060 73.53410 11.81230
## [43] 11.08740 12.04820 15.86030 12.24720 37.66190 9.33889 10.06230
## [50] 13.91340 11.16040 14.42080 15.17720 13.67810 9.39063 22.05110
## [57] 9.72418 9.96654 12.80230 10.67180 9.92485 9.32909 9.51363
## [64] 15.57570 13.07510 15.02340 10.23300 14.33370
##
## $crim$group
## [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## [39] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##
## $crim$names
## [1] ""
##
##
## $zn
## $zn$stats
## [,1]
## [1,] 0.0
## [2,] 0.0
## [3,] 0.0
## [4,] 12.5
## [5,] 30.0
##
## $zn$n
## [1] 490
##
## $zn$conf
## [,1]
## [1,] -0.8922141
## [2,] 0.8922141
##
## $zn$out
## [1] 75.0 75.0 75.0 90.0 85.0 100.0 80.0 80.0 45.0 45.0 45.0 45.0
## [13] 45.0 45.0 60.0 60.0 80.0 80.0 80.0 95.0 95.0 82.5 82.5 95.0
## [25] 80.0 80.0 90.0 40.0 40.0 40.0 40.0 40.0 90.0 55.0 80.0 52.5
## [37] 52.5 52.5 80.0 80.0 80.0 70.0 70.0 70.0 34.0 34.0 34.0 33.0
## [49] 33.0 33.0 33.0 35.0 35.0 35.0 55.0 55.0 85.0 80.0 40.0 40.0
## [61] 60.0 60.0 90.0 80.0 80.0
##
## $zn$group
## [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## [39] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##
## $zn$names
## [1] ""
##
##
## $indus
## $indus$stats
## [,1]
## [1,] 0.74
## [2,] 5.19
## [3,] 9.69
## [4,] 18.10
## [5,] 27.74
##
## $indus$n
## [1] 490
##
## $indus$conf
## [,1]
## [1,] 8.768521
## [2,] 10.611479
##
## $indus$out
## numeric(0)
##
## $indus$group
## numeric(0)
##
## $indus$names
## [1] ""
##
##
## $nox
## $nox$stats
## [,1]
## [1,] 0.385
## [2,] 0.449
## [3,] 0.538
## [4,] 0.624
## [5,] 0.871
##
## $nox$n
## [1] 490
##
## $nox$conf
## [,1]
## [1,] 0.525509
## [2,] 0.550491
##
## $nox$out
## [1] 5 5 5 5 5
##
## $nox$group
## [1] 1 1 1 1 1
##
## $nox$names
## [1] ""
##
##
## $rm
## $rm$stats
## [,1]
## [1,] 4.880
## [2,] 5.879
## [3,] 6.193
## [4,] 6.593
## [5,] 7.645
##
## $rm$n
## [1] 490
##
## $rm$conf
## [,1]
## [1,] 6.142037
## [2,] 6.243963
##
## $rm$out
## [1] 30.000 -3.000 8.069 7.820 -3.000 -3.000 7.765 25.000 7.853 20.000
## [11] 8.266 8.040 7.686 8.337 8.247 8.259 8.398 7.691 7.820 -3.000
## [21] 8.780 3.561 3.863 4.138 4.368 4.652 4.138 4.628
##
## $rm$group
## [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##
## $rm$names
## [1] ""
##
##
## $age
## $age$stats
## [,1]
## [1,] 2.9
## [2,] 44.4
## [3,] 76.8
## [4,] 93.9
## [5,] 100.0
##
## $age$n
## [1] 490
##
## $age$conf
## [,1]
## [1,] 73.26683
## [2,] 80.33317
##
## $age$out
## numeric(0)
##
## $age$group
## numeric(0)
##
## $age$names
## [1] ""
##
##
## $dis
## $dis$stats
## [,1]
## [1,] 1.1370
## [2,] 2.1107
## [3,] 3.2759
## [4,] 5.2146
## [5,] 9.2229
##
## $dis$n
## [1] 490
##
## $dis$conf
## [,1]
## [1,] 3.054353
## [2,] 3.497447
##
## $dis$out
## [1] 10.7103 10.7103 12.1265 10.5857 10.5857
##
## $dis$group
## [1] 1 1 1 1 1
##
## $dis$names
## [1] ""
##
##
## $rad
## $rad$stats
## [,1]
## [1,] 1
## [2,] 4
## [3,] 5
## [4,] 24
## [5,] 24
##
## $rad$n
## [1] 490
##
## $rad$conf
## [,1]
## [1,] 3.572458
## [2,] 6.427542
##
## $rad$out
## numeric(0)
##
## $rad$group
## numeric(0)
##
## $rad$names
## [1] ""
##
##
## $tax
## $tax$stats
## [,1]
## [1,] -100
## [2,] 279
## [3,] 330
## [4,] 666
## [5,] 711
##
## $tax$n
## [1] 490
##
## $tax$conf
## [,1]
## [1,] 302.3771
## [2,] 357.6229
##
## $tax$out
## numeric(0)
##
## $tax$group
## numeric(0)
##
## $tax$names
## [1] ""
##
##
## $ptratio
## $ptratio$stats
## [,1]
## [1,] 14.7
## [2,] 17.4
## [3,] 19.0
## [4,] 20.2
## [5,] 22.0
##
## $ptratio$n
## [1] 490
##
## $ptratio$conf
## [,1]
## [1,] 18.80014
## [2,] 19.19986
##
## $ptratio$out
## [1] 12.6 12.6 12.6 13.0 13.0 13.0 13.0 13.0 13.0 13.0 13.0 13.0 13.0
##
## $ptratio$group
## [1] 1 1 1 1 1 1 1 1 1 1 1 1 1
##
## $ptratio$names
## [1] ""
##
##
## $black
## $black$stats
## [,1]
## [1,] 348.13
## [2,] 375.87
## [3,] 391.77
## [4,] 396.33
## [5,] 396.90
##
## $black$n
## [1] 490
##
## $black$conf
## [,1]
## [1,] 390.3096
## [2,] 393.2304
##
## $black$out
## [1] 288.99 303.42 306.38 232.60 248.31 70.80 344.91 338.63 262.76 172.91
## [11] 169.27 341.60 343.28 261.95 321.02 88.01 88.63 338.92 240.16 227.61
## [21] 297.09 330.04 292.29 341.60 316.03 131.42 285.83 338.16 329.46 332.09
## [31] 314.64 179.36 2.60 35.05 28.79 210.97 88.27 27.25 21.57 127.36
## [41] 16.45 48.45 318.75 319.98 291.55 2.52 3.65 7.68 24.65 18.82
## [51] 96.73 60.72 83.45 81.33 97.95 100.19 100.63 109.85 27.49 9.32
## [61] 68.95 240.52 43.06 318.01 304.21 0.32 6.68 50.92 10.48 3.50
## [71] 272.21 255.23 334.40 22.01 331.29 302.76 344.05 318.43
##
## $black$group
## [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## [39] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## [77] 1 1
##
## $black$names
## [1] ""
##
##
## $lstat
## $lstat$stats
## [,1]
## [1,] 1.980
## [2,] 7.390
## [3,] 11.705
## [4,] 17.160
## [5,] 30.810
##
## $lstat$n
## [1] 490
##
## $lstat$conf
## [,1]
## [1,] 11.00765
## [2,] 12.40235
##
## $lstat$out
## [1] 34.41 34.77 37.97 31.99 34.37 36.98 34.41 34.02
##
## $lstat$group
## [1] 1 1 1 1 1 1 1 1
##
## $lstat$names
## [1] ""
##
##
## $medv
## $medv$stats
## [,1]
## [1,] 5.00
## [2,] 16.70
## [3,] 20.95
## [4,] 24.60
## [5,] 36.40
##
## $medv$n
## [1] 490
##
## $medv$conf
## [,1]
## [1,] 20.38612
## [2,] 21.51388
##
## $medv$out
## [1] 38.7 43.8 41.3 37.2 39.8 37.9 37.0 42.3 48.5 44.8 37.6 46.7 41.7 48.3 42.8
## [16] 44.0 43.1 48.8 36.5 43.5 45.4 46.0 37.3
##
## $medv$group
## [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##
## $medv$names
## [1] ""
## Variable Zscore Tukey
## crim crim 9 68
## zn zn 26 65
## indus indus 0 0
## nox nox 5 5
## rm rm 7 28
## age age 0 0
## dis dis 5 5
## rad rad 0 0
## tax tax 0 0
## ptratio ptratio 0 13
## black black 24 78
## lstat lstat 3 8
## medv medv 6 23
###Detalle para una variable clave: crim
(La variable crim presenta una distribución fuertemente asimétrica positiva,con la mayoría de observaciones concentradas en valores bajos y una cola extendida hacia valores altos. Esto se refleja en el histograma, donde se observa una gran cantidad de casos con tasas de crimen cercanas a cero y unos pocos casos con tasas muy elevadas, lo que indica la presencia de atípicos extremos en esta variable.))
##
## Índices atípicos en crim (|z| > 3): 29 56 67 331 365 390 395 399 403
## Valores: 100 100 100 100 88.9762 100 51.1358 45.7461 73.5341
##
## === Atípicos multivariados – Mahalanobis ===
## Umbral chi² (p=0.01, df= 13 ): 27.69
## Número de atípicos: 31
## Índices: 29 33 44 56 67 90 118 154 166 194 198 208 210 211 220 246 331 337 342 343 365 390 395 396 397 400 403 435 458 475 477
##
## === Atípicos multivariados – LOF ===
## Índices: 211 458 210 29 390
## $n_out_mahalanobis
## [1] 31
##
## $n_out_lof
## [1] 5
##
## $id_mahalanobis
## [1] 29 33 44 56 67 90 118 154 166 194 198 208 210 211 220 246 331 337 342
## [20] 343 365 390 395 396 397 400 403 435 458 475 477
##
## $id_lof
## [1] 211 458 210 29 390
cat("\nDetectados por Mahalanobis Y LOF:\n")
##
## Detectados por Mahalanobis Y LOF:
print(intersect(id_out_mult$Out_dist, id_out_mult$Out_LOF))
## [1] 29 210 211 390 458
##
## Call:
## lm(formula = datos_limpio$medv ~ datos_limpio$lstat)
##
## Residuals:
## Min 1Q Median 3Q Max
## -13.9930 -3.3736 -0.9507 1.9400 21.2614
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 32.47544 0.48051 67.58 <2e-16 ***
## datos_limpio$lstat -0.83534 0.03241 -25.78 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.118 on 488 degrees of freedom
## Multiple R-squared: 0.5766, Adjusted R-squared: 0.5757
## F-statistic: 664.5 on 1 and 488 DF, p-value: < 2.2e-16
#4.1. Distancia de Cook
## Umbral (4 * media): 0.011353
## Número de influyentes: 28
## Índices: 9 49 99 142 148 149 158 177 197 198 208 218 221 225 226 246 249 253 254 259 271 273 358 359 397 399 406 490
# 4.1. Gráficas diagnósticas integradas del modelo
Las 4 gráficas estándar de lm() — diagnóstico completo
Grafica 1 – Residuos vs Ajustados : detecta no linealidad y
heterocedasticidad Grafica 2 – Q-Q de residuos : evalúa normalidad de
los errores Grafica 3 – Scale-Location : evalúa homocedasticidad Grafica
4 – Residuos vs Leverage : identifica puntos influyentes por Cook +
leverage
#4.1. Leverage (valores hat)
##
## === Leverage (h > 2*h_barra = 0.0082 ) ===
## Número de observaciones: 36
Unión de todos los criterios
##
## === Tabla de observaciones influyentes ===
## Obs lstat medv Cook Leverage Influyente_Cook Influyente_Lev
## 9 9 29.93 16.5 0.021626 0.0135 TRUE TRUE
## 33 33 27.71 13.2 0.003133 0.0107 FALSE TRUE
## 49 49 30.81 14.4 0.017033 0.0148 TRUE TRUE
## 99 99 3.57 43.8 0.022143 0.0056 TRUE FALSE
## 124 124 25.41 17.3 0.005836 0.0082 FALSE TRUE
## 127 127 27.26 15.7 0.007140 0.0102 FALSE TRUE
## 142 142 34.41 14.4 0.046228 0.0204 TRUE TRUE
## 143 143 26.82 13.4 0.002091 0.0097 FALSE TRUE
## 144 144 26.42 15.6 0.004859 0.0093 FALSE TRUE
## 145 145 29.29 11.8 0.003569 0.0127 FALSE TRUE
## 146 146 27.80 13.8 0.004365 0.0108 FALSE TRUE
## 148 148 29.53 14.6 0.011747 0.0130 TRUE TRUE
## 149 149 28.32 17.8 0.018042 0.0115 TRUE TRUE
## 158 158 4.59 41.3 0.015057 0.0049 TRUE FALSE
## 177 177 7.56 39.8 0.011532 0.0032 TRUE FALSE
## 197 197 3.11 42.3 0.017768 0.0060 TRUE FALSE
## 198 198 3.81 48.5 0.038621 0.0054 TRUE FALSE
## 208 208 29.55 23.7 0.064581 0.0130 TRUE TRUE
## 218 218 4.14 44.8 0.024918 0.0052 TRUE FALSE
## 221 221 3.92 46.7 0.031576 0.0053 TRUE FALSE
## 225 225 2.47 41.7 0.015977 0.0065 TRUE FALSE
## 226 226 3.95 48.3 0.037557 0.0053 TRUE FALSE
## 246 246 3.54 42.8 0.019162 0.0056 TRUE FALSE
## 249 249 3.11 44.0 0.022964 0.0060 TRUE FALSE
## 253 253 7.26 43.1 0.017988 0.0034 TRUE FALSE
## 254 254 5.91 48.8 0.035274 0.0041 TRUE FALSE
## 259 259 3.16 43.5 0.021354 0.0059 TRUE FALSE
## 271 271 3.76 45.4 0.027205 0.0055 TRUE FALSE
## 273 273 3.01 46.0 0.030020 0.0060 TRUE FALSE
## 358 358 34.77 13.8 0.045061 0.0210 TRUE TRUE
## 359 359 37.97 13.8 0.092734 0.0270 TRUE TRUE
## 369 369 30.63 8.8 0.001041 0.0145 FALSE TRUE
## 370 370 30.81 7.2 0.000062 0.0148 FALSE TRUE
## 371 371 28.28 10.5 0.000605 0.0114 FALSE TRUE
## 372 372 31.99 7.4 0.000883 0.0165 FALSE TRUE
## 373 373 30.62 10.2 0.003106 0.0145 FALSE TRUE
## 377 377 25.68 9.7 0.000289 0.0085 FALSE TRUE
## 383 383 30.59 5.0 0.001049 0.0144 FALSE TRUE
## 384 384 29.97 6.3 0.000347 0.0136 FALSE TRUE
## 385 385 26.77 5.6 0.003823 0.0096 FALSE TRUE
## 389 389 27.38 8.5 0.000245 0.0103 FALSE TRUE
## 393 393 26.40 17.2 0.008253 0.0092 FALSE TRUE
## 397 397 34.37 17.9 0.080867 0.0204 TRUE TRUE
## 399 399 36.98 7.0 0.014780 0.0251 TRUE TRUE
## 400 400 29.05 7.2 0.000246 0.0124 FALSE TRUE
## 401 401 25.79 7.5 0.001967 0.0086 FALSE TRUE
## 402 402 26.64 10.4 0.000006 0.0095 FALSE TRUE
## 406 406 34.41 14.2 0.044511 0.0204 TRUE TRUE
## 422 422 26.45 8.7 0.000511 0.0093 FALSE TRUE
## 423 423 34.02 8.4 0.007401 0.0198 FALSE TRUE
## 436 436 26.42 15.2 0.004140 0.0093 FALSE TRUE
## 475 475 29.68 8.1 0.000045 0.0132 FALSE TRUE
## 490 490 7.88 11.9 0.011624 0.0031 TRUE FALSE