Universidad del Valle - Escuela de Estadistica

                        Programa Academico de:                            
     Esp. en Estadistica Aplicada, Maestria en Analitica e Int Negocios      
     Asignatura : Tecnicas de Mineria de Datos y Aprendizaje Automatico    
                 Estudiantes: Diana Carolina Echavarria                   
                              Oscar Fernando Peñafiel

Punto 1.

Verifique el formato de las variables de estudio y realice un análisis exploratorio de los datos dirigido a la identificación de datos atípicos y la visualización de la estructura de correlación entre variables.

Base de datos con el formato ajustado:

## 'data.frame':    506 obs. of  14 variables:
##  $ CRIM   : num  3.474 0.527 0.612 0.52 1.519 ...
##  $ ZN     : num  0 0 20 20 0 0 20 0 22 0 ...
##  $ INDUS  : num  18.1 6.2 3.97 3.97 19.58 ...
##  $ CHAS   : Factor w/ 2 levels "Limita con el rio",..: 1 2 2 2 1 2 2 2 2 2 ...
##  $ NOX    : num  0.718 0.504 0.647 0.647 0.605 0.507 0.575 0.504 0.431 0.507 ...
##  $ RM     : num  8.78 8.72 8.7 8.4 8.38 ...
##  $ AGE    : num  82.9 83 86.9 91.5 93.9 73.3 67 78.3 8.4 70.4 ...
##  $ DIS    : num  1.9 2.89 1.8 2.29 2.16 ...
##  $ RAD    : num  24 8 5 5 5 8 5 8 7 8 ...
##  $ TAX    : num  666 307 264 264 403 307 264 307 330 307 ...
##  $ PTRATIO: num  20.2 17.4 13 13 14.7 17.4 13 17.4 19.1 17.4 ...
##  $ B      : num  355 382 390 387 388 ...
##  $ LSTAT  : num  5.29 4.63 5.12 5.91 3.32 2.47 7.44 4.14 3.54 3.95 ...
##  $ MEDV   : num  21.9 50 50 48.8 50 41.7 50 44.8 42.8 48.3 ...

Histograma de la variable MEDV

Se puede observar que para la variable MEDV hay valores atípicos cuando el valor es 50

Revisión de datos faltantes:

Gráfico de valores ausentes

Se observa que no hay valores ausentes en la base de datos

## integer(0)

Visualización de las variables

Las conclusiones mas relevantes que se pueden observar son:

1. CRIM, ZN, RM, DIS, PTRATIO,B, MEDV tiene valores extremos, sin embargo, parecen tener un comportamiento adecuado para algunos barrios por lo que NO se excluyen del análisis.

2. INDUS,RAD,TAX,PTRATIO,B Tiene una alta frecuencia en valores puntuales, característicos de algunos barrios, por lo que no se realiza ninguna transformación.

Detección de valores atípicos de forma multivariada

Análisis de correlación

El gráfico de dispersión se puede evidenciar los valores atípicos que tienen las variables RAD y TAX.

Por otro lado, el análisis de la matriz de correlación permite observar una fuerte correlación positiva entre RAD y TAX, sin embargo, esta obedece a la presencia de valores extremos en sus variables. Este mismo efecto se puede ver todas las variables que se relacionen con RAD o TAX.

para el caso de las variables NOX e INDUS, se evidencia una fuerte correlación positiva, debido a mayor concentración de las industrias se generará mayor cantidad de óxido nitroso. Adicionalmente, se identifica que MEDV y RM se incrementan en el mismo sentido, en el que a mayor numero promedio de cuartos, el valor promedio de la vivienda crece.

Por otro lado, se identifica una fuerte relación negativa entre NOX y DIS, explicada porque entre más alejado se encuentre el barrio de las zonas industriales, menos exposición se tendrá al óxido nitroso. Adicionalmente se identifica otra relación negativa entre LTAT Y MEDV, en la que a mayor concentración de % de población de estatus más bajo, el precio medio de la vivienda decrece. Por último, RM Y LSTAT también tienen una relación negativa explicada porque las personas con escasos recursos no tienen la posibilidad de adquirir casas con muchas habitaciones.

Punto 2.

Analice los datos desde una perspectiva multivariante, a través de un Análisis de Componentes Principales, caracterizando/comprendiendo los factores obtenidos y generando la matriz de puntuaciones (proyecciones) de los barrios en el espacio de los factores.

Componentes y valores propios

Una vez corrido el modelo de PCA, se identifica que tomando 3 componentes, se alcanza a tener el 74,52% de la varianza de los datos.

Componentes de la varianza explicada

Al realizar el análisis de Componentes principales se puede observar que el primer componente se encuentra bien representado principalmente por las variables: CRIM,INDUS, NOX, AGE, DIS,RAD,TAX,LSTAT y MEDV. En el segundo componente resalta la variable RM y por último en el tercer componente resalta la variable ZN.

Los siguientes gráficos muestran que tomar tres componentes incrementan la calidad de la representación de las variables, en las que las más fuertes son: TAX, MEDV, RAD, DIS que se encuentran por arriba del 80%

Componentes principales

En el gráfico se puede observar que el componente 1 puede representar las características de un barrio promedio de Boston, principalmente en las altas tasas de criminalidad, bastante industria, alta contaminación, altas tasas de impuestos y un porcentaje alto de población pobre.

Por el contrario, el componente 2, recoge algunas características asociadas a barrios con un valor medio de las viviendas más alto y con un número promedio mayor de habitaciones, no obstante, estos barrios se encuentran cercanos a las carreteras principales.

Por último, el componente 3, recoge a los barrios que se encuentran muy lejos de los centros de empleo de Boston y que son zonas principalmente residenciales.

Como se resumió en el análisis anterior de los componentes, se puede observar que en el componente 1 a la derecha se van a representar las variables que muestran un barrio con peores condiciones, mientras que a la derecha se representará el que cuenta con mejores condiciones, en el componente 2 se ve que se encuentran los barrios con mejores condiciones en cuanto a valor monetario de la casa y cantidad de habitaciones, además se encuentran alejados de los centros de empleo.

Cuando se hace el análisis entre el componente 1 y 3, en la dimensión 3 se puede ver que hay una diferencia entre las casas que se encuentran cerca de los centros de empleo de las que se encuentran a las afueras de Boston.

La representación simultanea muestra la ubicación de los individuos y su relación con las variables. En el primer gráfico se muestra que los barrios con mejores condiciones son los que se encuentran al extremo izquierdo como lo son el 29,30,390, mientras que los peores barrios se encuentran en el lado derecho, tal es el caso de los barrios 468,463,479.

El segundo gráfico permite observar cuáles barrios se encuentran más alejados de los centros de empleo y que a su vez presentan mejores condiciones, estos barrios se encuentran en la parte superior izquierda del gráfico como son 381,386,241

Representación de los Barrios suplementarios

En los siguientes gráficos se muestra la ubicacion de los barrios más alejados del total de las observaciones analizadas, los cuales poseen variables atípicas que no permitirían realizar un mejor análisis al ser incluidos desde el principio.

Punto 3.

Utilice la matriz de puntuaciones (obtenidas en el punto 2) como insumo de un algoritmo de agrupación que conduzca a establecer grupos de barrios con similares características.

Identificación de K óptimos

El siguiente gráfico se muestra que el número sugerido de cluster en el que disminuye significativamente la variación marginal de los SSE es de 5.

Centroides de los 5 grupos:

##        Dim.1      Dim.2      Dim.3
## 1  0.9507471 -1.0266912 -0.8872218
## 2 -3.4953126  0.7221822  1.4815753
## 3 -1.3255026 -0.7996795  0.0992153
## 4  3.8419248  0.8263186  0.6356546
## 5 -2.2820466  1.3121494 -1.5976904

El gráfico de la silhouette, muestra que existe una buena agrupación entre cluster a pesar de que algunos individuos de los cluster tienen valores negativos. En este sentido, las distancias intracluster son bajas y las distancias entre cluster son altas.

Interpretación gráficos de cluster

El primer gráfico permite identificar claramente los cluster 4 y 2: en los que el cluster 2 recoge la información de los barrios con casas de alto valor con muchas habitaciones y en zonas residenciales, mientras que el cluster 4 muestra la agrupación de los barrios con mas índices de criminalidad, zonas industriales, alta contaminación, alto porcentaje de población pobre, entre otras.

En el tercer gráfico se ve una separación clara entre los cluster 2 y el 5, pese a que son barrios buenos, la diferencia se observa en que el cluster 2 contiene barrios que están mas alejados de los centros de empleo.

En todos los gráficos, el cluster 3 muestra los barrios promedio de Boston, puesto que no se observa una diferenciación marcada respecto a los otros grupos.

Punto 4

Desarrolle un proceso de minería de reglas de asociación (Algoritmo a priori) para descubrir/describir las características particulares de los barrios que se aglomeran en cada grupo.

4.1.

Agregue una nueva columna (Grupo) a la hoja de datos Boston en la cual registre la etiqueta del grupo en la que cada barrio fue asignado. Esto es, la agrupación resultado del punto 3.

## 'data.frame':    490 obs. of  18 variables:
##  $ CRIM   : num  3.474 0.52 0.575 0.315 0.369 ...
##  $ ZN     : num  0 20 0 0 22 0 0 0 95 20 ...
##  $ INDUS  : num  18.1 3.97 6.2 6.2 5.86 6.2 2.89 6.2 2.68 3.33 ...
##  $ CHAS   : Factor w/ 2 levels "Limita con el rio",..: 1 2 2 2 2 2 2 2 2 2 ...
##  $ NOX    : num  0.718 0.647 0.507 0.504 0.431 ...
##  $ RM     : num  8.78 8.4 8.34 8.27 8.26 ...
##  $ AGE    : num  82.9 91.5 73.3 78.3 8.4 70.4 76 86.5 33.2 64.5 ...
##  $ DIS    : num  1.9 2.29 3.84 2.89 8.91 ...
##  $ RAD    : num  24 5 8 8 7 8 2 8 4 5 ...
##  $ TAX    : num  666 264 307 307 330 307 276 307 224 216 ...
##  $ PTRATIO: num  20.2 13 17.4 17.4 19.1 17.4 18 17.4 14.7 14.9 ...
##  $ B      : num  355 387 386 385 397 ...
##  $ LSTAT  : num  5.29 5.91 2.47 4.14 3.54 3.95 4.21 3.13 3.81 3.76 ...
##  $ MEDV   : num  21.9 48.8 41.7 44.8 42.8 48.3 38.7 37.6 48.5 45.4 ...
##  $ Dim.1  : num  -2.58 -2.44 -2.74 -2.83 -2.1 ...
##  $ Dim.2  : num  2.9 2.93 3.09 1.96 2.37 ...
##  $ Dim.3  : num  -2.27 -2.62 -2.47 -2.13 -2.32 ...
##  $ Grupos : Factor w/ 5 levels "1","2","3","4",..: 5 5 5 5 5 5 5 5 5 5 ...

4.2.

Respecto a las variables cuantitativas de la hoja de datos Boston, estas deben ser segmentadas (recodificadas en atributos), utilizando para ello los percentiles 20, 40, 60, 80, como puntos de división para generar cinco categorías: Muy bajo, Bajo, Medio, Alto y Muy alto.

## 'data.frame':    490 obs. of  15 variables:
##  $ CHAS     : Factor w/ 2 levels "Limita con el rio",..: 1 2 2 2 2 2 2 2 2 2 ...
##  $ Grupos   : Factor w/ 5 levels "1","2","3","4",..: 5 5 5 5 5 5 5 5 5 5 ...
##  $ CRIM_c   : Factor w/ 5 levels "Muy Bajo","Bajo",..: 4 3 4 3 3 3 2 3 1 1 ...
##  $ INDUS_c  : Factor w/ 5 levels "Muy Bajo","Bajo",..: 4 1 2 2 2 2 1 2 1 1 ...
##  $ NOX_c    : Factor w/ 5 levels "Muy Bajo","Bajo",..: 5 4 2 2 1 2 2 2 1 2 ...
##  $ RM_c     : Factor w/ 5 levels "Muy Bajo","Bajo",..: 5 5 5 5 5 5 5 5 5 5 ...
##  $ AGE_c    : Factor w/ 5 levels "Muy Bajo","Bajo",..: 3 4 3 3 1 3 3 4 1 2 ...
##  $ DIS_c    : Factor w/ 5 levels "Muy Bajo","Bajo",..: 1 2 3 3 5 3 3 3 4 4 ...
##  $ TAX_c    : Factor w/ 5 levels "Muy Bajo","Bajo",..: 4 1 2 2 3 2 2 2 1 1 ...
##  $ PTRATIO_c: Factor w/ 5 levels "Muy Bajo","Bajo",..: 4 1 2 2 3 2 2 2 1 1 ...
##  $ B_c      : Factor w/ 5 levels "Muy Bajo","Bajo",..: 1 2 2 2 4 2 4 2 3 2 ...
##  $ LSTAT_c  : Factor w/ 5 levels "Muy Bajo","Bajo",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ MEDV_c   : Factor w/ 5 levels "Muy Bajo","Bajo",..: 3 5 5 5 5 5 5 5 5 5 ...
##  $ RAD_c    : Factor w/ 5 levels "Muy Bajo","Bajo",..: 5 3 4 4 4 4 2 4 3 3 ...
##  $ ZN_c     : Factor w/ 5 levels "Muy Bajo","Bajo",..: 1 2 1 1 2 1 1 1 5 2 ...

4.3

Luego de la recodificación, usted dispone ahora de 15 variables asociación. En este caso, el objetivo es encontrar asociaciones entre los 67 ítems que ahora caracterizan a los barrios (2 niveles de la variable CHAS y 5 niveles para cada una de las 13 variables recodificadas) y las etiquetas de los grupos conformados en el clustering.

En este punto, se eliminó la variable CHAS porque tiene una gran frecuencia en los barrios, pero que no ayuda a identificar reglas de asociación relevantes

##    id CRIM_c  INDUS_c    NOX_c     RM_c    AGE_c    DIS_c    TAX_c PTRATIO_c
## 1   1   Alto     Alto Muy Alto Muy Alto    Medio Muy Bajo     Alto      Alto
## 4   2  Medio Muy Bajo     Alto Muy Alto     Alto     Bajo Muy Bajo  Muy Bajo
## 6   3   Alto     Bajo     Bajo Muy Alto    Medio    Medio     Bajo      Bajo
## 8   4  Medio     Bajo     Bajo Muy Alto    Medio    Medio     Bajo      Bajo
## 9   5  Medio     Bajo Muy Bajo Muy Alto Muy Bajo Muy Alto    Medio     Medio
## 10  6  Medio     Bajo     Bajo Muy Alto    Medio    Medio     Bajo      Bajo
## 11  7   Bajo Muy Bajo     Bajo Muy Alto    Medio    Medio     Bajo      Bajo
##         B_c  LSTAT_c   MEDV_c    RAD_c     ZN_c Grupos
## 1  Muy Bajo Muy Bajo    Medio Muy Alto Muy Bajo      5
## 4      Bajo Muy Bajo Muy Alto    Medio     Bajo      5
## 6      Bajo Muy Bajo Muy Alto     Alto Muy Bajo      5
## 8      Bajo Muy Bajo Muy Alto     Alto Muy Bajo      5
## 9      Alto Muy Bajo Muy Alto     Alto     Bajo      5
## 10     Bajo Muy Bajo Muy Alto     Alto Muy Bajo      5
## 11     Alto Muy Bajo Muy Alto     Bajo Muy Bajo      5

Al identificar los items más frecuentes se evidencia que la mayoría de vecindarios no estan ubicados en zonas residenciales, su cercanía con las avenidas radiales es intermedia y el porcentaje de personas de color es alto.

Itemset mas frecuentes que cumplen con el mínimo soporte.

##      items                              support   transIdenticalToItemsets
## [1]  {ZN_c = Muy Bajo}                  0.7367347 0                       
## [2]  {RAD_c = Medio}                    0.4428571 0                       
## [3]  {B_c = Alto}                       0.4000000 0                       
## [4]  {TAX_c = Alto}                     0.3795918 0                       
## [5]  {TAX_c = Alto,ZN_c = Muy Bajo}     0.3693878 0                       
## [6]  {RAD_c = Medio,ZN_c = Muy Bajo}    0.3081633 0                       
## [7]  {PTRATIO_c = Alto}                 0.2857143 0                       
## [8]  {PTRATIO_c = Alto,ZN_c = Muy Bajo} 0.2857143 0                       
## [9]  {INDUS_c = Alto}                   0.2836735 0                       
## [10] {B_c = Alto,ZN_c = Muy Bajo}       0.2795918 0                       
##      count
## [1]  361  
## [2]  217  
## [3]  196  
## [4]  186  
## [5]  181  
## [6]  151  
## [7]  140  
## [8]  140  
## [9]  139  
## [10] 137

Conjunto de itemset más frecuentes

4.4

Una vez obtenga las reglas de asociación (que involucran a todos los atributos), seleccione solo aquellas que presentan como evento consecuencia (RHS) a alguna de las etiquetas de grupo.

Reglas grupo 1

Se identifica por tener bajos porcentajes de población negra, una muy baja distancia a los centros de empleo y un valor de las casas bajo, además se encuentra en una zona poco residencial y las personas que habitan el barrio llevan mucho tiempo habitándolo (desde 1940). Este grupo tiene índices muy altos de criminalidad y tiene un alto acceso a las avenidas radiales al igual que se encuentran en zonas industriales. Este grupo tiene unos altos impuestos.

## set of 346 rules

##     lhs                    rhs             support confidence   coverage     lift count
## [1] {B_c = Muy Bajo,                                                                   
##      DIS_c = Muy Bajo,                                                                 
##      MEDV_c = Bajo}     => {Grupos = 1} 0.02244898  0.7857143 0.02857143 3.468468    11
## [2] {B_c = Muy Bajo,                                                                   
##      DIS_c = Muy Bajo,                                                                 
##      MEDV_c = Bajo,                                                                    
##      ZN_c = Muy Bajo}   => {Grupos = 1} 0.02244898  0.7857143 0.02857143 3.468468    11
## [3] {AGE_c = Muy Alto,                                                                 
##      B_c = Muy Bajo,                                                                   
##      CRIM_c = Muy Alto} => {Grupos = 1} 0.02448980  0.6315789 0.03877551 2.788051    12
## [4] {AGE_c = Muy Alto,                                                                 
##      B_c = Muy Bajo,                                                                   
##      CRIM_c = Muy Alto,                                                                
##      RAD_c = Muy Alto}  => {Grupos = 1} 0.02448980  0.6315789 0.03877551 2.788051    12
## [5] {AGE_c = Muy Alto,                                                                 
##      B_c = Muy Bajo,                                                                   
##      CRIM_c = Muy Alto,                                                                
##      INDUS_c = Alto}    => {Grupos = 1} 0.02448980  0.6315789 0.03877551 2.788051    12

## Available control parameters (with default values):
## layout    =  stress
## circular  =  FALSE
## ggraphdots    =  NULL
## edges     =  <environment>
## nodes     =  <environment>
## nodetext  =  <environment>
## colors    =  c("#EE0000FF", "#EEEEEEFF")
## engine    =  ggplot2
## max   =  100
## verbose   =  FALSE

Reglas grupo 2

El grupo 2 tiene una alta distancia a los centros de empleo, se encuentra ubicado en una zona de baja industria y contiene un porcentaje muy bajo de población pobre. En este grupo se encuentra un alto porcentaje de población negra, una baja tasa de criminalidad baja y sus casas son de alto valor con una cantidad de cuartos muy alta. Este grupo tiene unos impuestos muy bajos.

## set of 12 rules

##     lhs                     rhs             support confidence   coverage     lift count
## [1] {DIS_c = Alto,                                                                      
##      INDUS_c = Bajo,                                                                    
##      LSTAT_c = Muy Bajo} => {Grupos = 2} 0.01632653  0.5714286 0.02857143 4.057971     8
## [2] {B_c = Alto,                                                                        
##      CRIM_c = Bajo,                                                                     
##      MEDV_c = Muy Alto}  => {Grupos = 2} 0.01632653  0.5333333 0.03061224 3.787440     8
## [3] {B_c = Alto,                                                                        
##      MEDV_c = Muy Alto,                                                                 
##      RM_c = Muy Alto,                                                                   
##      TAX_c = Muy Bajo}   => {Grupos = 2} 0.01632653  0.5333333 0.03061224 3.787440     8
## [4] {INDUS_c = Muy Bajo,                                                                
##      LSTAT_c = Bajo,                                                                    
##      MEDV_c = Muy Alto}  => {Grupos = 2} 0.01836735  0.5294118 0.03469388 3.759591     9
## [5] {DIS_c = Alto,                                                                      
##      LSTAT_c = Muy Bajo,                                                                
##      RM_c = Muy Alto}    => {Grupos = 2} 0.01836735  0.5294118 0.03469388 3.759591     9

## Available control parameters (with default values):
## layout    =  stress
## circular  =  FALSE
## ggraphdots    =  NULL
## edges     =  <environment>
## nodes     =  <environment>
## nodetext  =  <environment>
## colors    =  c("#EE0000FF", "#EEEEEEFF")
## engine    =  ggplot2
## max   =  100
## verbose   =  FALSE

Reglas grupo 3

En el grupo sus barrios están caracterizador por el hecho de que al menos la mitad de sus propietarios viven en sus casas, las cuales tienen una baja valorización, con un porcentaje de cuartos promedio. Estos barrios se encuentran en zonas residenciales y se ubican mas bien en zonas industriales, el porcentaje de población pobre es alto y en la mayoría de los casos, la criminalidad es alta.

## set of 119 rules

##     lhs                    rhs             support confidence   coverage     lift count
## [1] {AGE_c = Medio,                                                                    
##      MEDV_c = Bajo,                                                                    
##      ZN_c = Muy Bajo}   => {Grupos = 3} 0.02244898  0.5789474 0.03877551 2.199102    11
## [2] {LSTAT_c = Alto,                                                                   
##      RM_c = Medio,                                                                     
##      TAX_c = Alto}      => {Grupos = 3} 0.02448980  0.5714286 0.04285714 2.170543    12
## [3] {CRIM_c = Muy Bajo,                                                                
##      INDUS_c = Bajo,                                                                   
##      RAD_c = Medio}     => {Grupos = 3} 0.02448980  0.5714286 0.04285714 2.170543    12
## [4] {LSTAT_c = Alto,                                                                   
##      RM_c = Medio,                                                                     
##      TAX_c = Alto,                                                                     
##      ZN_c = Muy Bajo}   => {Grupos = 3} 0.02448980  0.5714286 0.04285714 2.170543    12
## [5] {CRIM_c = Alto,                                                                    
##      RM_c = Bajo}       => {Grupos = 3} 0.02244898  0.5500000 0.04081633 2.089147    11

## Available control parameters (with default values):
## layout    =  stress
## circular  =  FALSE
## ggraphdots    =  NULL
## edges     =  <environment>
## nodes     =  <environment>
## nodetext  =  <environment>
## colors    =  c("#EE0000FF", "#EEEEEEFF")
## engine    =  ggplot2
## max   =  100
## verbose   =  FALSE

Reglas grupo 4

El grupo cuatro tiene un bajo indice de criminalidad, esta medianamente cerca de las avenidas principales, tienen una contaminación promedio y no son barrios residenciales. Tienen una alta población negra, se encuentra muy alejado de los centros de empleo y el valor de las casas es muy bajo.

## set of 16 rules

##     lhs                   rhs             support confidence   coverage     lift count
## [1] {CRIM_c = Bajo,                                                                   
##      NOX_c = Medio,                                                                   
##      RAD_c = Medio,                                                                   
##      ZN_c = Muy Bajo}  => {Grupos = 4} 0.02244898  0.7333333 0.03061224 2.785530    11
## [2] {CRIM_c = Bajo,                                                                   
##      NOX_c = Medio,                                                                   
##      ZN_c = Muy Bajo}  => {Grupos = 4} 0.03061224  0.6818182 0.04489796 2.589852    15
## [3] {CRIM_c = Bajo,                                                                   
##      NOX_c = Medio,                                                                   
##      RAD_c = Medio}    => {Grupos = 4} 0.02448980  0.6315789 0.03877551 2.399021    12
## [4] {CRIM_c = Bajo,                                                                   
##      NOX_c = Medio}    => {Grupos = 4} 0.03265306  0.6153846 0.05306122 2.337507    16
## [5] {B_c = Alto,                                                                      
##      DIS_c = Muy Alto,                                                                
##      INDUS_c = Bajo}   => {Grupos = 4} 0.02448980  0.5454545 0.04489796 2.071882    12

## Available control parameters (with default values):
## layout    =  stress
## circular  =  FALSE
## ggraphdots    =  NULL
## edges     =  <environment>
## nodes     =  <environment>
## nodetext  =  <environment>
## colors    =  c("#EE0000FF", "#EEEEEEFF")
## engine    =  ggplot2
## max   =  100
## verbose   =  FALSE

Reglas grupo 5

El grupo cinco tiene una muy alta valorización de sus casas, las cuales tienen muchas habitaciones. Son barrios con muy bajo porcentaje de personas pobres y tiene un porcentaje de criminalidad promedio. Estos barrios tienen baja contaminación.

## set of 204 rules

##     lhs                     rhs             support confidence   coverage     lift count
## [1] {DIS_c = Medio,                                                                     
##      LSTAT_c = Muy Bajo,                                                                
##      MEDV_c = Muy Alto,                                                                 
##      RM_c = Muy Alto}    => {Grupos = 5} 0.02653061  0.9285714 0.02857143 8.750000    13
## [2] {DIS_c = Medio,                                                                     
##      LSTAT_c = Muy Bajo,                                                                
##      MEDV_c = Muy Alto,                                                                 
##      PTRATIO_c = Bajo,                                                                  
##      RM_c = Muy Alto}    => {Grupos = 5} 0.02448980  0.9230769 0.02653061 8.698225    12
## [3] {DIS_c = Medio,                                                                     
##      LSTAT_c = Muy Bajo,                                                                
##      MEDV_c = Muy Alto,                                                                 
##      NOX_c = Bajo,                                                                      
##      RM_c = Muy Alto}    => {Grupos = 5} 0.02448980  0.9230769 0.02653061 8.698225    12
## [4] {DIS_c = Medio,                                                                     
##      LSTAT_c = Muy Bajo,                                                                
##      MEDV_c = Muy Alto,                                                                 
##      NOX_c = Bajo,                                                                      
##      PTRATIO_c = Bajo,                                                                  
##      RM_c = Muy Alto}    => {Grupos = 5} 0.02448980  0.9230769 0.02653061 8.698225    12
## [5] {DIS_c = Medio,                                                                     
##      LSTAT_c = Muy Bajo,                                                                
##      MEDV_c = Muy Alto,                                                                 
##      RM_c = Muy Alto,                                                                   
##      ZN_c = Muy Bajo}    => {Grupos = 5} 0.02244898  0.9166667 0.02448980 8.637821    11

## Available control parameters (with default values):
## layout    =  stress
## circular  =  FALSE
## ggraphdots    =  NULL
## edges     =  <environment>
## nodes     =  <environment>
## nodetext  =  <environment>
## colors    =  c("#EE0000FF", "#EEEEEEFF")
## engine    =  ggplot2
## max   =  100
## verbose   =  FALSE

Laboratorio_2

Diana Carolina Echavarria Cardenas y Oscar Fernando Peñafiel Acosta

2022-07-02