#1.- INTRODUCCIÓN

El término clustering hace referencia a un amplio abanico de técnicas no supervisadas cuya finalidad es encontrar patrones o grupos (clusters) dentro de un conjunto de observaciones. Las particiones se establecen de forma que, las observaciones que están dentro de un mismo grupo, son similares entre ellas y distintas a las observaciones de otros grupos. Se trata de un método no supervisado, ya que el proceso ignora la variable respuesta que indica a que grupo pertenece realmente cada observación (si es que existe tal variable). Esta característica diferencia al clustering de las técnicas supervisadas, que emplean un set de entrenamiento en el que se conoce la verdadera clasificación.

Dada la utilidad del clustering en disciplinas muy distintas (genómica, marketing…), se han desarrollado multitud de variantes y adaptaciones de sus métodos y algoritmos. Pueden diferenciarse tres grupos principales:

Partitioning Clustering: Este tipo de algoritmos requieren que el usuario especifique de antemano el número de clusters que se van a crear (K-means, K-medoids, CLARA).

Hierarchical Clustering: Este tipo de algoritmos no requieren que el usuario especifique de antemano el número de clusters. (agglomerative clustering, divisive clusterig).

Métodos que combinan o modifican los anteriores (hierarchical K-means, fuzzy clustering, model based clustering y density based clustering). # 2.- MEDIDAS DE DISTANCIA

Todos los métodos de clustering tienen una cosa en común, para poder llevar a cabo las agrupaciones necesitan definir y cuantificar la similitud entre las observaciones. El término distancia se emplea dentro del contexto del clustering como cuantificación de la similitud o diferencia entre observaciones. Si se representan las observaciones en un espacio p dimensional, siendo p el número de variables asociadas a cada observación, cuando más se asemejen dos observaciones más próximas estarán, de ahí que se emplee el término distancia.

La característica que hace del clustering un método adaptable a escenarios muy diversos es que puede emplear cualquier tipo de distancia, lo que permite al investigador escoger la más adecuad.

2.1.- DISTANCIA EUCLIDEA

La distancia euclídea entre dos puntos p y q se define como la longitud del segmento que une ambos puntos. En coordenadas cartesianas, la distancia euclídea se calcula empleando el teorema de Pitágoras.

Una forma de dar mayor peso a aquellas observaciones que están más alejadas es emplear la distancia euclídea al cuadrado. En el caso del clustering, donde se busca agrupar observaciones que minimicen la distancia, esto se traduce en una mayor influencia de aquellas observaciones que están más distantes.

La siguiente imagen muestra el perfil de dos observaciones definidas por 10 variables (espacio con 10 dimensiones).

library(ggplot2)

observacion_a <- c(4, 4.5, 4, 7.5, 7, 6, 5, 5.5, 5, 6)
observacion_b <- c(4, 4.5, 4, 7.5, 7, 6, 5, 5.5, 5, 6) + 5
datos <- data.frame(observacion = rep(c("a", "b"), each = 10), 
                    valor = c(observacion_a, observacion_b), predictor = 1:10)
datos
##    observacion valor predictor
## 1            a   4.0         1
## 2            a   4.5         2
## 3            a   4.0         3
## 4            a   7.5         4
## 5            a   7.0         5
## 6            a   6.0         6
## 7            a   5.0         7
## 8            a   5.5         8
## 9            a   5.0         9
## 10           a   6.0        10
## 11           b   9.0         1
## 12           b   9.5         2
## 13           b   9.0         3
## 14           b  12.5         4
## 15           b  12.0         5
## 16           b  11.0         6
## 17           b  10.0         7
## 18           b  10.5         8
## 19           b  10.0         9
## 20           b  11.0        10
ggplot(data=datos, aes(x=as.factor(predictor), y = valor, colour = observacion)) +
  geom_path(aes(group=observacion)) +
  geom_point() +
  geom_line(aes(group = predictor), colour = "black", linetype = "dashed") +
  labs(x="predictor") +
  theme_bw() +
  theme(legend.position = "bottom")

La distancia euclídea entre las dos observaciones equivale a la raíz cuadrada de la suma de las longitudes de los segmentos rojos que unen cada par de puntos. Tiene en cuenta, por lo tanto, el desplazamiento individual de cada una de las variables.

2.2- DISTANCIA DE MANHATTAN

La distancia de Manhattan, también conocida como taxicab metric, rectilinear distance o L1 distance, define la distancia entre dos puntos p y q como el sumatorio de las diferencias absolutas entre cada dimensión. Esta medida se ve menos afectada por outliers (es más robusta) que la distancia euclídea, debido a que no eleva al cuadrado las diferencias.

La siguiente imagen muestra una comparación entre la distancia euclídea (segmento azul) y la distancia de manhattan (segmento rojo y verde) en un espacio bidimensional. Existen múltiples caminos para unir dos puntos con el mismo valor de distancia de manhattan, ya que su valor es igual al desplazamiento total en cada una de las dimensiones.

datos <- data.frame(observacion = c("a", "b"), x = c(2, 7), y = c(2,7))

manhattan <- data.frame(
              x = rep(2:6, each = 2), 
              y = rep(2:6, each = 2) + rep (c(0,1), 5),
              xend = rep(2:6, each =2) + rep(c(0,1), 5),
              yend = rep(3:7, each = 2))

manhattan_2 <- data.frame(
                x = c(2, 5, 5, 7),
                y = c(2, 2, 4, 4),
                xend = c(5, 5, 7, 7),
                yend = c(2, 4, 4, 7))
head(manhattan)
##   x y xend yend
## 1 2 2    2    3
## 2 2 3    3    3
## 3 3 3    3    4
## 4 3 4    4    4
## 5 4 4    4    5
## 6 4 5    5    5
head(manhattan_2)
##   x y xend yend
## 1 2 2    5    2
## 2 5 2    5    4
## 3 5 4    7    4
## 4 7 4    7    7
ggplot(data = datos, aes(x=x, y =y)) +
  geom_segment(aes(x=2, y=2, xend =7, yend=7), colour = "blue", size = 1.2) +
  geom_segment(data = manhattan, aes(x=x, y=y, xend=xend, yend = yend),
               color = "red", size = 1.2) + 
  geom_segment(data = manhattan_2, aes(x=x, y=y, xend=xend, yend = yend),
               color = "green", size = 1.2) + 
  geom_point(size =3) +
  theme(panel.grid.minor = element_blank(),
        panel.grid.major = element_line(size = 1.5),
        panel.background = element_rect(fill = "grey", 
                                        colour = "white",
                                        size = 0.5,linetype = "solid"))
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: The `size` argument of `element_rect()` is deprecated as of ggplot2 3.4.0.
## ℹ Please use the `linewidth` argument instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: The `size` argument of `element_line()` is deprecated as of ggplot2 3.4.0.
## ℹ Please use the `linewidth` argument instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

## 2.3.- DISTANCIA DE CORRELACIÓN

La correlación es una medida de distancia muy útil cuando la definición de similitud se hace en términos de patrón o forma y no de desplazamiento o magnitud. ¿Qué quiere decir esto? En la imagen del apartado de la distancia euclídea, las dos observaciones tienen exactamente el mismo patrón, la única diferencia es que una de ellas está desplazada 4 unidades por encima de la otra. Si se emplea como medida de similitud 1 menos el valor de la correlación, ambas observaciones se consideran idénticas (su distancia es 0).

library(ggplot2)
observacion_a <- c(4, 4.5, 4, 7.5, 7, 6, 5, 5.5, 5, 6)
observacion_b <- c(4, 4.5, 4, 7.5, 7, 6, 5, 5.5, 5, 6) + 5
observacion_c <- c(5, 5.5, 4.8, 5.4, 4.7, 5.6, 5.3, 5.5, 5.2, 4.8)

datos <- data.frame(observacion = rep(c("a", "b", "c"), each = 10),
                    valor = c(observacion_a, observacion_b, observacion_c),
                    predictor = 1:10)
datos
##    observacion valor predictor
## 1            a   4.0         1
## 2            a   4.5         2
## 3            a   4.0         3
## 4            a   7.5         4
## 5            a   7.0         5
## 6            a   6.0         6
## 7            a   5.0         7
## 8            a   5.5         8
## 9            a   5.0         9
## 10           a   6.0        10
## 11           b   9.0         1
## 12           b   9.5         2
## 13           b   9.0         3
## 14           b  12.5         4
## 15           b  12.0         5
## 16           b  11.0         6
## 17           b  10.0         7
## 18           b  10.5         8
## 19           b  10.0         9
## 20           b  11.0        10
## 21           c   5.0         1
## 22           c   5.5         2
## 23           c   4.8         3
## 24           c   5.4         4
## 25           c   4.7         5
## 26           c   5.6         6
## 27           c   5.3         7
## 28           c   5.5         8
## 29           c   5.2         9
## 30           c   4.8        10
ggplot(data=datos, aes(x=as.factor(predictor), y = valor, colour = observacion)) +
  geom_path(aes(group=observacion)) +
  geom_point() +
  labs(x="predictor") +
  theme_bw() +
  theme(legend.position = "bottom")

dist(x = rbind(observacion_a, observacion_b, observacion_c), method ="euclidian")
##               observacion_a observacion_b
## observacion_b      15.81139              
## observacion_c       3.75100      17.06077
1 - cor(x =cbind(observacion_a, observacion_b, observacion_c), method = "pearson")
##               observacion_a observacion_b observacion_c
## observacion_a     0.0000000     0.0000000     0.9466303
## observacion_b     0.0000000     0.0000000     0.9466303
## observacion_c     0.9466303     0.9466303     0.0000000

Este ejemplo pone de manifiesto que no existe una única medida de distancia que sea mejor que las demás, sino que, dependiendo del cotnexto, una será más adecuada que otra.

** 2.4.- DISTANCIA DE COSENO**

El coseno del ángulo que forman dos vectores puede interpretarse como una medida de similitud de sus orientaciones, independientemente de sus magnitudes. Si dos vectores tienen exactamente la misma orientación (el ángulo que forman es 0º) su coseno toma el valor de 1, si son perpendiculares (forman un ángulo de 90º) su coseno es 0 y si tienen orientaciones opuestas (ángulo de 180º) su coseno es de -1.

a <- c(4, 4.5, 4, 7, 7, 6, 5, 5.5, 5, 6)
b <- c(5, 5.5, 4.8, 5.4, 4.7, 5.6, 5.3, 5.5, 5.2, 4.8)
# Correlación de Pearson
#------------------------------
cor(x=a, y=b, method = "pearson")
## [1] 0.02427991
# Coseno
#---------------------------
coseno <- function(x,y){
  resultado <- x%*%y /(sqrt(x%*%x) * sqrt (y %*%y))
  return(as.numeric(resultado))
}

coseno(a, b)
## [1] 0.9802813
# Coseno tras centrar los valores
a <- a-mean(a)
b <- b-mean(b)
coseno(a, b)
## [1] 0.02427991

La distancia coseno de dos puntos centrados coincide con la correlación de Pearson.

3.- ESCALAMIENTO DE VARIABLES

Al igual que en otros métodos estadísticos (PCA, ridge regression, lasso…), la escala en la que se miden las variables y la magnitud de su varianza pueden afectar en gran medida a los resultados obtenidos por clustering. Si una variable tiene una escala mucho mayor que el resto, determinará en gran medida el valor de distancia/similitud obtenido al comparar las observaciones, dirigiendo así la agrupación final. Escalar y centrar las variables de forma que todas ellas tengan media 0 y desviación estándar 1 antes de calcular la matriz de distancias asegura que todas las variables tengan el mismo peso cuando se realice el clustering. Sebastian Raschka hace un análisis muy explicativo de los distintos tipos de escalado y normalización.

3.1.- EJEMPLO CON USARREST

El set de datos USArrests contiene información sobre el número de delitos (asaltos, asesinatos y secuestros) junto con el porcentaje de población urbana para cada uno de los 50 estados de USA. Empleando estas variables se pretende calcular una matriz de distancias que permita identificar los Estados más similares.

data("USArrests")

# Normalizamos
#----------------------
datos <- scale(USArrests, center = TRUE, scale = TRUE)
# Distancia eucllídea
#------------------------------
mat_dist <- dist(x=datos, method = "euclidean")
round(as.matrix(mat_dist), 2)
##                Alabama Alaska Arizona Arkansas California Colorado Connecticut
## Alabama           0.00   2.70    2.29     1.29       3.26     2.65        3.22
## Alaska            2.70   0.00    2.70     2.83       3.01     2.33        4.74
## Arizona           2.29   2.70    0.00     2.72       1.31     1.37        3.26
## Arkansas          1.29   2.83    2.72     0.00       3.76     2.83        2.61
## California        3.26   3.01    1.31     3.76       0.00     1.29        4.07
## Colorado          2.65   2.33    1.37     2.83       1.29     0.00        3.33
## Connecticut       3.22   4.74    3.26     2.61       4.07     3.33        0.00
## Delaware          2.02   3.62    1.91     1.80       3.07     2.55        1.76
## Florida           2.30   3.00    1.75     3.37       2.03     2.45        4.47
## Georgia           1.13   2.82    2.79     2.21       3.38     2.86        3.97
## Hawaii            3.39   4.53    3.26     2.97       3.66     2.82        1.38
## Idaho             2.91   4.06    3.52     1.77       4.49     3.48        1.64
## Illinois          1.87   3.27    1.08     2.46       1.91     1.79        2.74
## Indiana           2.08   3.37    2.64     1.45       3.41     2.37        1.61
## Iowa              3.49   4.73    4.12     2.43       4.97     3.94        1.55
## Kansas            2.29   3.68    2.78     1.57       3.61     2.63        1.23
## Kentucky          1.85   3.54    3.36     1.06       4.25     3.23        2.33
## Louisiana         0.77   2.96    2.22     2.03       3.02     2.65        3.53
## Maine             3.49   4.83    4.30     2.36       5.27     4.27        1.88
## Maryland          1.29   2.28    1.21     2.06       2.23     1.97        3.50
## Massachusetts     2.99   4.37    2.52     2.69       3.22     2.65        0.95
## Michigan          1.88   2.12    1.19     2.59       1.51     1.24        3.70
## Minnesota         3.23   4.43    3.54     2.33       4.31     3.33        0.98
## Mississippi       1.28   3.26    3.46     1.93       4.42     3.85        4.18
## Missouri          1.63   2.54    1.60     1.67       2.29     1.31        2.44
## Montana           2.33   3.66    3.33     1.23       4.25     3.18        1.86
## Nebraska          2.66   3.91    3.16     1.72       4.02     3.00        1.21
## Nevada            3.10   2.34    1.93     3.71       1.20     1.40        4.59
## New Hampshire     3.56   4.87    4.24     2.49       5.13     4.11        1.62
## New Jersey        2.70   4.18    2.18     2.74       2.75     2.32        1.61
## New Mexico        1.60   2.06    1.04     2.32       1.80     1.55        3.62
## New York          2.07   3.29    1.07     2.75       1.68     1.74        3.02
## North Carolina    1.60   3.24    3.15     2.07       4.28     3.86        4.19
## North Dakota      4.06   5.21    4.93     2.88       5.87     4.80        2.51
## Ohio              2.27   3.59    2.36     1.96       3.01     2.12        1.44
## Oklahoma          1.96   3.34    2.26     1.42       3.15     2.23        1.45
## Oregon            2.37   2.70    2.00     1.85       2.66     1.53        2.18
## Pennsylvania      2.52   4.12    2.92     1.97       3.71     2.85        0.87
## Rhode Island      3.40   5.06    3.06     3.09       3.89     3.48        1.08
## South Carolina    0.92   2.56    2.80     1.71       3.75     3.21        4.01
## South Dakota      3.08   4.25    4.10     1.87       5.05     3.97        2.24
## Tennessee         0.84   2.34    2.30     1.43       3.01     2.20        3.23
## Texas             1.65   3.15    1.64     2.35       2.17     1.79        2.87
## Utah              3.09   3.95    2.52     2.60       3.07     2.25        1.28
## Vermont           3.98   4.87    5.10     2.74       6.03     4.89        3.21
## Virginia          1.49   3.05    2.31     1.00       3.22     2.26        1.93
## Washington        2.65   3.27    2.14     2.13       2.77     1.79        1.70
## West Virginia     3.12   4.50    4.50     2.00       5.49     4.42        2.71
## Wisconsin         3.50   4.87    3.94     2.61       4.74     3.78        1.04
## Wyoming           1.83   3.50    2.69     0.99       3.72     2.82        1.62
##                Delaware Florida Georgia Hawaii Idaho Illinois Indiana Iowa
## Alabama            2.02    2.30    1.13   3.39  2.91     1.87    2.08 3.49
## Alaska             3.62    3.00    2.82   4.53  4.06     3.27    3.37 4.73
## Arizona            1.91    1.75    2.79   3.26  3.52     1.08    2.64 4.12
## Arkansas           1.80    3.37    2.21   2.97  1.77     2.46    1.45 2.43
## California         3.07    2.03    3.38   3.66  4.49     1.91    3.41 4.97
## Colorado           2.55    2.45    2.86   2.82  3.48     1.79    2.37 3.94
## Connecticut        1.76    4.47    3.97   1.38  1.64     2.74    1.61 1.55
## Delaware           0.00    3.06    2.98   2.47  2.04     1.56    1.70 2.61
## Florida            3.06    0.00    2.18   4.36  4.70     1.77    3.62 5.27
## Georgia            2.98    2.18    0.00   3.81  3.80     2.31    2.69 4.25
## Hawaii             2.47    4.36    3.81   0.00  2.37     2.73    1.55 2.16
## Idaho              2.04    4.70    3.80   2.37  0.00     3.27    1.49 0.86
## Illinois           1.56    1.77    2.31   2.73  3.27     0.00    2.20 3.74
## Indiana            1.70    3.62    2.69   1.55  1.49     2.20    0.00 1.78
## Iowa               2.61    5.27    4.25   2.16  0.86     3.74    1.78 0.00
## Kansas             1.55    3.84    3.01   1.46  1.21     2.32    0.43 1.47
## Kentucky           2.25    3.95    2.44   2.52  1.66     2.85    1.18 1.94
## Louisiana          2.33    1.75    0.86   3.57  3.53     1.65    2.50 4.04
## Maine              2.66    5.39    4.33   2.72  0.85     3.93    2.10 0.65
## Maryland           1.96    1.44    1.84   3.61  3.40     1.34    2.54 4.06
## Massachusetts      1.44    3.78    3.67   1.33  2.22     2.01    1.66 2.35
## Michigan           2.52    1.34    1.92   3.41  3.78     1.40    2.61 4.32
## Minnesota          2.17    4.76    3.96   1.47  1.01     3.16    1.32 0.76
## Mississippi        3.05    3.09    1.58   4.48  3.60     3.09    3.09 4.16
## Missouri           1.67    2.52    2.10   2.18  2.47     1.36    1.22 2.94
## Montana            2.03    4.27    3.10   2.25  0.83     2.97    1.00 1.24
## Nebraska           1.81    4.31    3.43   1.66  0.75     2.80    0.86 0.98
## Nevada             3.59    1.95    2.90   4.03  4.73     2.39    3.53 5.22
## New Hampshire      2.67    5.38    4.34   2.31  0.92     3.85    1.93 0.21
## New Jersey         1.58    3.19    3.20   1.51  2.74     1.46    1.76 2.91
## New Mexico         2.23    1.30    1.90   3.55  3.59     1.34    2.59 4.21
## New York           1.90    1.57    2.36   2.91  3.59     0.35    2.46 4.04
## North Carolina     2.75    3.00    2.34   4.73  3.59     3.01    3.34 4.30
## North Dakota       3.36    6.04    4.86   3.20  1.41     4.61    2.66 1.05
## Ohio               1.58    3.39    2.80   1.15  1.96     1.81    0.70 2.16
## Oklahoma           1.18    3.36    2.71   1.66  1.52     1.84    0.53 1.94
## Oregon             1.77    3.34    3.00   2.00  1.98     2.07    1.18 2.47
## Pennsylvania       1.59    3.94    3.18   1.21  1.52     2.31    0.84 1.57
## Rhode Island       1.62    4.23    4.18   2.06  2.46     2.51    2.33 2.55
## South Carolina     2.70    2.53    1.40   4.25  3.45     2.62    2.85 4.10
## South Dakota       2.67    5.10    3.87   2.80  0.81     3.80    1.84 0.99
## Tennessee          2.32    2.40    1.01   3.07  2.92     1.95    1.81 3.42
## Texas              2.00    1.85    1.76   2.59  3.32     0.82    2.00 3.70
## Utah               1.81    3.93    3.72   1.07  2.03     2.28    1.40 2.17
## Vermont            3.71    6.08    4.71   3.72  1.78     4.86    2.87 1.73
## Virginia           1.41    3.15    2.22   2.05  1.70     1.86    0.61 2.17
## Washington         1.64    3.56    3.30   1.55  1.89     2.06    1.14 2.25
## West Virginia      3.04    5.30    3.85   3.28  1.44     4.11    2.25 1.53
## Wisconsin          2.44    5.11    4.23   1.67  1.21     3.48    1.68 0.63
## Wyoming            1.26    3.63    2.73   2.19  1.17     2.26    0.89 1.72
##                Kansas Kentucky Louisiana Maine Maryland Massachusetts Michigan
## Alabama          2.29     1.85      0.77  3.49     1.29          2.99     1.88
## Alaska           3.68     3.54      2.96  4.83     2.28          4.37     2.12
## Arizona          2.78     3.36      2.22  4.30     1.21          2.52     1.19
## Arkansas         1.57     1.06      2.03  2.36     2.06          2.69     2.59
## California       3.61     4.25      3.02  5.27     2.23          3.22     1.51
## Colorado         2.63     3.23      2.65  4.27     1.97          2.65     1.24
## Connecticut      1.23     2.33      3.53  1.88     3.50          0.95     3.70
## Delaware         1.55     2.25      2.33  2.66     1.96          1.44     2.52
## Florida          3.84     3.95      1.75  5.39     1.44          3.78     1.34
## Georgia          3.01     2.44      0.86  4.33     1.84          3.67     1.92
## Hawaii           1.46     2.52      3.57  2.72     3.61          1.33     3.41
## Idaho            1.21     1.66      3.53  0.85     3.40          2.22     3.78
## Illinois         2.32     2.85      1.65  3.93     1.34          2.01     1.40
## Indiana          0.43     1.18      2.50  2.10     2.54          1.66     2.61
## Iowa             1.47     1.94      4.04  0.65     4.06          2.35     4.32
## Kansas           0.00     1.30      2.73  1.79     2.74          1.43     2.90
## Kentucky         1.30     0.00      2.42  1.99     2.82          2.63     3.12
## Louisiana        2.73     2.42      0.00  4.09     1.27          3.15     1.67
## Maine            1.79     1.99      4.09  0.00     4.13          2.69     4.53
## Maryland         2.74     2.82      1.27  4.13     0.00          2.97     1.08
## Massachusetts    1.43     2.63      3.15  2.69     2.97          0.00     3.06
## Michigan         2.90     3.12      1.67  4.53     1.08          3.06     0.00
## Minnesota        0.97     1.93      3.69  1.30     3.64          1.66     3.80
## Mississippi      3.27     2.39      1.63  4.00     2.30          4.12     2.97
## Missouri         1.52     1.97      1.84  3.21     1.57          1.98     1.41
## Montana          0.92     0.85      2.94  1.33     3.02          2.29     3.33
## Nebraska         0.53     1.42      3.17  1.32     3.13          1.69     3.35
## Nevada           3.84     4.16      2.84  5.52     2.26          3.86     1.26
## New Hampshire    1.61     2.01      4.12  0.50     4.17          2.46     4.46
## New Jersey       1.71     2.69      2.68  3.25     2.63          0.80     2.57
## New Mexico       2.84     3.00      1.49  4.35     0.54          3.03     0.58
## New York         2.61     3.12      1.75  4.26     1.44          2.25     1.29
## North Carolina   3.44     2.88      1.99  4.06     2.05          4.08     3.02
## North Dakota     2.40     2.45      4.70  0.73     4.74          3.34     5.12
## Ohio             0.78     1.77      2.50  2.55     2.51          1.16     2.45
## Oklahoma         0.52     1.46      2.35  2.19     2.25          1.34     2.43
## Oregon           1.34     2.14      2.75  2.78     2.25          1.87     2.16
## Pennsylvania     0.55     1.59      2.84  1.92     2.96          1.13     3.10
## Rhode Island     2.01     3.05      3.56  2.73     3.44          0.94     3.73
## South Carolina   3.06     2.42      1.32  4.00     1.62          3.83     2.32
## South Dakota     1.67     1.51      3.75  0.78     3.80          2.89     4.17
## Tennessee        2.15     1.75      1.13  3.54     1.52          2.97     1.60
## Texas            2.24     2.53      1.33  3.94     1.54          2.26     1.29
## Utah             1.28     2.55      3.34  2.62     3.03          0.90     2.94
## Vermont          2.73     2.39      4.68  1.43     4.74          3.93     5.13
## Virginia         0.84     1.09      1.96  2.35     2.01          1.85     2.24
## Washington       1.16     2.26      2.97  2.63     2.54          1.35     2.47
## West Virginia    2.12     1.52      3.79  1.18     4.03          3.38     4.47
## Wisconsin        1.32     2.10      3.96  1.15     4.01          1.89     4.20
## Wyoming          0.76     1.07      2.38  1.77     2.40          1.82     2.83
##                Minnesota Mississippi Missouri Montana Nebraska Nevada
## Alabama             3.23        1.28     1.63    2.33     2.66   3.10
## Alaska              4.43        3.26     2.54    3.66     3.91   2.34
## Arizona             3.54        3.46     1.60    3.33     3.16   1.93
## Arkansas            2.33        1.93     1.67    1.23     1.72   3.71
## California          4.31        4.42     2.29    4.25     4.02   1.20
## Colorado            3.33        3.85     1.31    3.18     3.00   1.40
## Connecticut         0.98        4.18     2.44    1.86     1.21   4.59
## Delaware            2.17        3.05     1.67    2.03     1.81   3.59
## Florida             4.76        3.09     2.52    4.27     4.31   1.95
## Georgia             3.96        1.58     2.10    3.10     3.43   2.90
## Hawaii              1.47        4.48     2.18    2.25     1.66   4.03
## Idaho               1.01        3.60     2.47    0.83     0.75   4.73
## Illinois            3.16        3.09     1.36    2.97     2.80   2.39
## Indiana             1.32        3.09     1.22    1.00     0.86   3.53
## Iowa                0.76        4.16     2.94    1.24     0.98   5.22
## Kansas              0.97        3.27     1.52    0.92     0.53   3.84
## Kentucky            1.93        2.39     1.97    0.85     1.42   4.16
## Louisiana           3.69        1.63     1.84    2.94     3.17   2.84
## Maine               1.30        4.00     3.21    1.33     1.32   5.52
## Maryland            3.64        2.30     1.57    3.02     3.13   2.26
## Massachusetts       1.66        4.12     1.98    2.29     1.69   3.86
## Michigan            3.80        2.97     1.41    3.33     3.35   1.26
## Minnesota           0.00        4.11     2.41    1.27     0.61   4.64
## Mississippi         4.11        0.00     2.87    3.00     3.53   4.11
## Missouri            2.41        2.87     0.00    2.03     1.97   2.35
## Montana             1.27        3.00     2.03    0.00     0.74   4.32
## Nebraska            0.61        3.53     1.97    0.74     0.00   4.26
## Nevada              4.64        4.11     2.35    4.32     4.26   0.00
## New Hampshire       0.93        4.19     3.09    1.33     1.13   5.39
## New Jersey          2.23        3.89     1.71    2.59     2.12   3.35
## New Mexico          3.74        2.66     1.46    3.19     3.25   1.72
## New York            3.44        3.27     1.53    3.27     3.09   2.17
## North Carolina      4.22        1.18     3.02    3.22     3.65   4.18
## North Dakota        1.81        4.48     3.78    1.83     1.90   6.05
## Ohio                1.52        3.41     1.13    1.64     1.27   3.29
## Oklahoma            1.42        3.05     1.09    1.22     0.97   3.41
## Oregon              1.93        3.50     1.00    1.80     1.57   2.86
## Pennsylvania        1.01        3.50     1.78    1.32     0.85   4.04
## Rhode Island        2.03        4.39     2.75    2.69     2.13   4.62
## South Carolina      3.95        0.79     2.38    2.90     3.35   3.44
## South Dakota        1.50        3.54     2.89    0.89     1.26   5.14
## Tennessee           3.10        1.83     1.24    2.25     2.55   2.67
## Texas               3.14        2.84     1.17    2.83     2.76   2.28
## Utah                1.42        4.26     1.75    2.10     1.46   3.59
## Vermont             2.40        4.20     3.88    1.93     2.30   6.04
## Virginia            1.79        2.54     0.98    1.16     1.25   3.30
## Washington          1.60        3.81     1.25    1.84     1.39   3.16
## West Virginia       2.08        3.33     3.25    1.28     1.81   5.50
## Wisconsin           0.49        4.30     2.82    1.49     0.97   5.08
## Wyoming             1.48        2.68     1.61    0.82     0.93   3.92
##                New Hampshire New Jersey New Mexico New York North Carolina
## Alabama                 3.56       2.70       1.60     2.07           1.60
## Alaska                  4.87       4.18       2.06     3.29           3.24
## Arizona                 4.24       2.18       1.04     1.07           3.15
## Arkansas                2.49       2.74       2.32     2.75           2.07
## California              5.13       2.75       1.80     1.68           4.28
## Colorado                4.11       2.32       1.55     1.74           3.86
## Connecticut             1.62       1.61       3.62     3.02           4.19
## Delaware                2.67       1.58       2.23     1.90           2.75
## Florida                 5.38       3.19       1.30     1.57           3.00
## Georgia                 4.34       3.20       1.90     2.36           2.34
## Hawaii                  2.31       1.51       3.55     2.91           4.73
## Idaho                   0.92       2.74       3.59     3.59           3.59
## Illinois                3.85       1.46       1.34     0.35           3.01
## Indiana                 1.93       1.76       2.59     2.46           3.34
## Iowa                    0.21       2.91       4.21     4.04           4.30
## Kansas                  1.61       1.71       2.84     2.61           3.44
## Kentucky                2.01       2.69       3.00     3.12           2.88
## Louisiana               4.12       2.68       1.49     1.75           1.99
## Maine                   0.50       3.25       4.35     4.26           4.06
## Maryland                4.17       2.63       0.54     1.44           2.05
## Massachusetts           2.46       0.80       3.03     2.25           4.08
## Michigan                4.46       2.57       0.58     1.29           3.02
## Minnesota               0.93       2.23       3.74     3.44           4.22
## Mississippi             4.19       3.89       2.66     3.27           1.18
## Missouri                3.09       1.71       1.46     1.53           3.02
## Montana                 1.33       2.59       3.19     3.27           3.22
## Nebraska                1.13       2.12       3.25     3.09           3.65
## Nevada                  5.39       3.35       1.72     2.17           4.18
## New Hampshire           0.00       3.03       4.34     4.16           4.32
## New Jersey              3.03       0.00       2.62     1.63           3.94
## New Mexico              4.34       2.62       0.00     1.33           2.53
## New York                4.16       1.63       1.33     0.00           3.22
## North Carolina          4.32       3.94       2.53     3.22           0.00
## North Dakota            0.92       3.92       4.95     4.93           4.58
## Ohio                    2.31       1.11       2.50     2.04           3.62
## Oklahoma                2.07       1.47       2.34     2.14           3.14
## Oregon                  2.64       1.97       2.16     2.27           3.51
## Pennsylvania            1.68       1.42       3.06     2.59           3.68
## Rhode Island            2.58       1.47       3.60     2.77           4.22
## South Carolina          4.16       3.58       1.96     2.78           1.05
## South Dakota            0.99       3.33       4.00     4.11           3.70
## Tennessee               3.53       2.63       1.55     2.08           2.34
## Texas                   3.82       1.62       1.44     0.85           3.09
## Utah                    2.33       1.31       2.98     2.48           4.27
## Vermont                 1.67       4.40       4.94     5.17           4.39
## Virginia                2.29       1.83       2.13     2.14           2.75
## Washington              2.42       1.58       2.48     2.27           3.81
## West Virginia           1.46       3.74       4.27     4.43           3.60
## Wisconsin               0.72       2.47       4.13     3.77           4.44
## Wyoming                 1.80       2.04       2.63     2.59           2.75
##                North Dakota Ohio Oklahoma Oregon Pennsylvania Rhode Island
## Alabama                4.06 2.27     1.96   2.37         2.52         3.40
## Alaska                 5.21 3.59     3.34   2.70         4.12         5.06
## Arizona                4.93 2.36     2.26   2.00         2.92         3.06
## Arkansas               2.88 1.96     1.42   1.85         1.97         3.09
## California             5.87 3.01     3.15   2.66         3.71         3.89
## Colorado               4.80 2.12     2.23   1.53         2.85         3.48
## Connecticut            2.51 1.44     1.45   2.18         0.87         1.08
## Delaware               3.36 1.58     1.18   1.77         1.59         1.62
## Florida                6.04 3.39     3.36   3.34         3.94         4.23
## Georgia                4.86 2.80     2.71   3.00         3.18         4.18
## Hawaii                 3.20 1.15     1.66   2.00         1.21         2.06
## Idaho                  1.41 1.96     1.52   1.98         1.52         2.46
## Illinois               4.61 1.81     1.84   2.07         2.31         2.51
## Indiana                2.66 0.70     0.53   1.18         0.84         2.33
## Iowa                   1.05 2.16     1.94   2.47         1.57         2.55
## Kansas                 2.40 0.78     0.52   1.34         0.55         2.01
## Kentucky               2.45 1.77     1.46   2.14         1.59         3.05
## Louisiana              4.70 2.50     2.35   2.75         2.84         3.56
## Maine                  0.73 2.55     2.19   2.78         1.92         2.73
## Maryland               4.74 2.51     2.25   2.25         2.96         3.44
## Massachusetts          3.34 1.16     1.34   1.87         1.13         0.94
## Michigan               5.12 2.45     2.43   2.16         3.10         3.73
## Minnesota              1.81 1.52     1.42   1.93         1.01         2.03
## Mississippi            4.48 3.41     3.05   3.50         3.50         4.39
## Missouri               3.78 1.13     1.09   1.00         1.78         2.75
## Montana                1.83 1.64     1.22   1.80         1.32         2.69
## Nebraska               1.90 1.27     0.97   1.57         0.85         2.13
## Nevada                 6.05 3.29     3.41   2.86         4.04         4.62
## New Hampshire          0.92 2.31     2.07   2.64         1.68         2.58
## New Jersey             3.92 1.11     1.47   1.97         1.42         1.47
## New Mexico             4.95 2.50     2.34   2.16         3.06         3.60
## New York               4.93 2.04     2.14   2.27         2.59         2.77
## North Carolina         4.58 3.62     3.14   3.51         3.68         4.22
## North Dakota           0.00 3.14     2.82   3.29         2.56         3.40
## Ohio                   3.14 0.00     0.65   1.24         0.78         1.97
## Oklahoma               2.82 0.65     0.00   1.07         0.82         1.97
## Oregon                 3.29 1.24     1.07   0.00         1.73         2.66
## Pennsylvania           2.56 0.78     0.82   1.73         0.00         1.64
## Rhode Island           3.40 1.97     1.97   2.66         1.64         0.00
## South Carolina         4.51 3.13     2.75   3.01         3.34         4.19
## South Dakota           1.03 2.44     2.03   2.50         1.98         3.13
## Tennessee              4.06 2.02     1.85   2.03         2.43         3.57
## Texas                  4.57 1.67     1.83   2.11         2.25         2.88
## Utah                   3.17 1.02     1.24   1.28         1.25         1.76
## Vermont                0.98 3.48     3.10   3.43         3.03         4.11
## Virginia               2.94 0.98     0.56   1.27         1.18         2.43
## Washington             3.17 0.97     0.96   0.59         1.40         2.17
## West Virginia          1.27 2.87     2.46   3.03         2.38         3.54
## Wisconsin              1.62 1.86     1.79   2.41         1.22         2.08
## Wyoming                2.42 1.31     0.74   1.60         1.07         2.17
##                South Carolina South Dakota Tennessee Texas Utah Vermont
## Alabama                  0.92         3.08      0.84  1.65 3.09    3.98
## Alaska                   2.56         4.25      2.34  3.15 3.95    4.87
## Arizona                  2.80         4.10      2.30  1.64 2.52    5.10
## Arkansas                 1.71         1.87      1.43  2.35 2.60    2.74
## California               3.75         5.05      3.01  2.17 3.07    6.03
## Colorado                 3.21         3.97      2.20  1.79 2.25    4.89
## Connecticut              4.01         2.24      3.23  2.87 1.28    3.21
## Delaware                 2.70         2.67      2.32  2.00 1.81    3.71
## Florida                  2.53         5.10      2.40  1.85 3.93    6.08
## Georgia                  1.40         3.87      1.01  1.76 3.72    4.71
## Hawaii                   4.25         2.80      3.07  2.59 1.07    3.72
## Idaho                    3.45         0.81      2.92  3.32 2.03    1.78
## Illinois                 2.62         3.80      1.95  0.82 2.28    4.86
## Indiana                  2.85         1.84      1.81  2.00 1.40    2.87
## Iowa                     4.10         0.99      3.42  3.70 2.17    1.73
## Kansas                   3.06         1.67      2.15  2.24 1.28    2.73
## Kentucky                 2.42         1.51      1.75  2.53 2.55    2.39
## Louisiana                1.32         3.75      1.13  1.33 3.34    4.68
## Maine                    4.00         0.78      3.54  3.94 2.62    1.43
## Maryland                 1.62         3.80      1.52  1.54 3.03    4.74
## Massachusetts            3.83         2.89      2.97  2.26 0.90    3.93
## Michigan                 2.32         4.17      1.60  1.29 2.94    5.13
## Minnesota                3.95         1.50      3.10  3.14 1.42    2.40
## Mississippi              0.79         3.54      1.83  2.84 4.26    4.20
## Missouri                 2.38         2.89      1.24  1.17 1.75    3.88
## Montana                  2.90         0.89      2.25  2.83 2.10    1.93
## Nebraska                 3.35         1.26      2.55  2.76 1.46    2.30
## Nevada                   3.44         5.14      2.67  2.28 3.59    6.04
## New Hampshire            4.16         0.99      3.53  3.82 2.33    1.67
## New Jersey               3.58         3.33      2.63  1.62 1.31    4.40
## New Mexico               1.96         4.00      1.55  1.44 2.98    4.94
## New York                 2.78         4.11      2.08  0.85 2.48    5.17
## North Carolina           1.05         3.70      2.34  3.09 4.27    4.39
## North Dakota             4.51         1.03      4.06  4.57 3.17    0.98
## Ohio                     3.13         2.44      2.02  1.67 1.02    3.48
## Oklahoma                 2.75         2.03      1.85  1.83 1.24    3.10
## Oregon                   3.01         2.50      2.03  2.11 1.28    3.43
## Pennsylvania             3.34         1.98      2.43  2.25 1.25    3.03
## Rhode Island             4.19         3.13      3.57  2.88 1.76    4.11
## South Carolina           0.00         3.52      1.44  2.45 3.89    4.27
## South Dakota             3.52         0.00      3.06  3.71 2.68    1.09
## Tennessee                1.44         3.06      0.00  1.47 2.87    3.94
## Texas                    2.45         3.71      1.47  0.00 2.40    4.74
## Utah                     3.89         2.68      2.87  2.40 0.00    3.65
## Vermont                  4.27         1.09      3.94  4.74 3.65    0.00
## Virginia                 2.26         2.03      1.35  1.69 1.76    3.06
## Washington               3.38         2.51      2.38  2.16 0.69    3.48
## West Virginia            3.47         0.71      3.17  3.96 3.27    1.04
## Wisconsin                4.22         1.54      3.43  3.45 1.81    2.35
## Wyoming                  2.51         1.56      1.93  2.26 1.86    2.63
##                Virginia Washington West Virginia Wisconsin Wyoming
## Alabama            1.49       2.65          3.12      3.50    1.83
## Alaska             3.05       3.27          4.50      4.87    3.50
## Arizona            2.31       2.14          4.50      3.94    2.69
## Arkansas           1.00       2.13          2.00      2.61    0.99
## California         3.22       2.77          5.49      4.74    3.72
## Colorado           2.26       1.79          4.42      3.78    2.82
## Connecticut        1.93       1.70          2.71      1.04    1.62
## Delaware           1.41       1.64          3.04      2.44    1.26
## Florida            3.15       3.56          5.30      5.11    3.63
## Georgia            2.22       3.30          3.85      4.23    2.73
## Hawaii             2.05       1.55          3.28      1.67    2.19
## Idaho              1.70       1.89          1.44      1.21    1.17
## Illinois           1.86       2.06          4.11      3.48    2.26
## Indiana            0.61       1.14          2.25      1.68    0.89
## Iowa               2.17       2.25          1.53      0.63    1.72
## Kansas             0.84       1.16          2.12      1.32    0.76
## Kentucky           1.09       2.26          1.52      2.10    1.07
## Louisiana          1.96       2.97          3.79      3.96    2.38
## Maine              2.35       2.63          1.18      1.15    1.77
## Maryland           2.01       2.54          4.03      4.01    2.40
## Massachusetts      1.85       1.35          3.38      1.89    1.82
## Michigan           2.24       2.47          4.47      4.20    2.83
## Minnesota          1.79       1.60          2.08      0.49    1.48
## Mississippi        2.54       3.81          3.33      4.30    2.68
## Missouri           0.98       1.25          3.25      2.82    1.61
## Montana            1.16       1.84          1.28      1.49    0.82
## Nebraska           1.25       1.39          1.81      0.97    0.93
## Nevada             3.30       3.16          5.50      5.08    3.92
## New Hampshire      2.29       2.42          1.46      0.72    1.80
## New Jersey         1.83       1.58          3.74      2.47    2.04
## New Mexico         2.13       2.48          4.27      4.13    2.63
## New York           2.14       2.27          4.43      3.77    2.59
## North Carolina     2.75       3.81          3.60      4.44    2.75
## North Dakota       2.94       3.17          1.27      1.62    2.42
## Ohio               0.98       0.97          2.87      1.86    1.31
## Oklahoma           0.56       0.96          2.46      1.79    0.74
## Oregon             1.27       0.59          3.03      2.41    1.60
## Pennsylvania       1.18       1.40          2.38      1.22    1.07
## Rhode Island       2.43       2.17          3.54      2.08    2.17
## South Carolina     2.26       3.38          3.47      4.22    2.51
## South Dakota       2.03       2.51          0.71      1.54    1.56
## Tennessee          1.35       2.38          3.17      3.43    1.93
## Texas              1.69       2.16          3.96      3.45    2.26
## Utah               1.76       0.69          3.27      1.81    1.86
## Vermont            3.06       3.48          1.04      2.35    2.63
## Virginia           0.00       1.38          2.34      2.13    0.70
## Washington         1.38       0.00          3.08      2.06    1.59
## West Virginia      2.34       3.08          0.00      2.03    1.88
## Wisconsin          2.13       2.06          2.03      0.00    1.74
## Wyoming            0.70       1.59          1.88      1.74    0.00
library(factoextra)
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
mat_dist <- get_dist(x = datos, method = "pearson")
round(as.matrix(mat_dist), 2)
##                Alabama Alaska Arizona Arkansas California Colorado Connecticut
## Alabama           0.00   0.71    1.45     0.09       1.87     1.69        1.71
## Alaska            0.71   0.00    0.83     0.37       0.81     0.52        1.86
## Arizona           1.45   0.83    0.00     1.18       0.29     0.60        0.78
## Arkansas          0.09   0.37    1.18     0.00       1.59     1.37        1.90
## California        1.87   0.81    0.29     1.59       0.00     0.11        0.66
## Colorado          1.69   0.52    0.60     1.37       0.11     0.00        1.02
## Connecticut       1.71   1.86    0.78     1.90       0.66     1.02        0.00
## Delaware          1.14   1.48    0.34     1.19       0.90     1.36        0.46
## Florida           0.10   0.79    1.04     0.14       1.70     1.71        1.55
## Georgia           0.12   0.74    1.78     0.25       1.86     1.53        1.70
## Hawaii            1.81   1.58    1.15     1.94       0.57     0.63        0.24
## Idaho             1.48   0.79    0.00     1.19       0.25     0.53        0.79
## Illinois          1.31   1.87    0.70     1.53       0.99     1.44        0.15
## Indiana           1.47   1.14    1.53     1.55       0.78     0.55        0.78
## Iowa              1.90   1.61    0.92     1.99       0.44     0.61        0.14
## Kansas            1.77   1.63    1.19     1.93       0.63     0.71        0.22
## Kentucky          0.23   0.82    1.89     0.39       1.82     1.47        1.61
## Louisiana         0.04   0.97    1.61     0.24       1.97     1.82        1.53
## Maine             1.24   1.76    0.56     1.41       0.97     1.44        0.24
## Maryland          0.31   0.46    0.67     0.15       1.31     1.32        1.65
## Massachusetts     1.79   1.79    0.68     1.92       0.54     0.90        0.01
## Michigan          0.79   0.02    0.94     0.45       0.78     0.44        1.84
## Minnesota         1.94   1.56    0.82     1.99       0.36     0.54        0.15
## Mississippi       0.00   0.70    1.44     0.08       1.86     1.68        1.72
## Missouri          1.43   0.46    1.08     1.20       0.44     0.13        1.25
## Montana           0.36   0.40    1.69     0.33       1.49     1.04        1.84
## Nebraska          1.96   1.45    0.83     1.97       0.30     0.44        0.23
## Nevada            1.35   0.26    0.85     1.03       0.37     0.09        1.39
## New Hampshire     1.81   1.78    0.93     1.98       0.59     0.84        0.05
## New Jersey        1.70   1.88    0.93     1.92       0.72     1.02        0.01
## New Mexico        0.49   0.15    0.62     0.19       1.02     0.90        1.80
## New York          1.44   1.91    0.75     1.67       0.91     1.33        0.07
## North Carolina    0.10   0.68    1.02     0.10       1.66     1.64        1.62
## North Dakota      1.83   0.93    0.15     1.58       0.04     0.27        0.56
## Ohio              1.76   1.60    1.21     1.92       0.63     0.69        0.25
## Oklahoma          1.92   1.64    0.76     2.00       0.40     0.64        0.08
## Oregon            1.70   0.52    0.47     1.36       0.07     0.01        0.99
## Pennsylvania      1.58   1.90    1.23     1.86       0.91     1.10        0.11
## Rhode Island      1.55   1.86    0.65     1.73       0.77     1.20        0.05
## South Carolina    0.03   0.52    1.27     0.02       1.72     1.54        1.82
## South Dakota      0.30   0.14    1.25     0.11       1.33     0.97        2.00
## Tennessee         0.20   0.46    1.69     0.22       1.65     1.24        1.86
## Texas             0.94   1.70    1.81     1.32       1.53     1.48        0.63
## Utah              1.99   1.39    0.60     1.95       0.19     0.40        0.22
## Vermont           0.40   0.08    1.19     0.18       1.20     0.83        1.99
## Virginia          0.34   0.82    1.93     0.50       1.73     1.34        1.57
## Washington        1.96   1.00    0.45     1.76       0.03     0.14        0.51
## West Virginia     0.04   0.62    1.60     0.11       1.83     1.54        1.80
## Wisconsin         1.79   1.78    1.00     1.97       0.62     0.83        0.07
## Wyoming           0.34   1.33    1.02     0.54       1.70     1.91        1.02
##                Delaware Florida Georgia Hawaii Idaho Illinois Indiana Iowa
## Alabama            1.14    0.10    0.12   1.81  1.48     1.31    1.47 1.90
## Alaska             1.48    0.79    0.74   1.58  0.79     1.87    1.14 1.61
## Arizona            0.34    1.04    1.78   1.15  0.00     0.70    1.53 0.92
## Arkansas           1.19    0.14    0.25   1.94  1.19     1.53    1.55 1.99
## California         0.90    1.70    1.86   0.57  0.25     0.99    0.78 0.44
## Colorado           1.36    1.71    1.53   0.63  0.53     1.44    0.55 0.61
## Connecticut        0.46    1.55    1.70   0.24  0.79     0.15    0.78 0.14
## Delaware           0.00    0.72    1.54   1.13  0.39     0.15    1.70 0.92
## Florida            0.72    0.00    0.42   1.91  1.09     1.02    1.82 1.90
## Georgia            1.54    0.42    0.00   1.50  1.79     1.51    1.01 1.68
## Hawaii             1.13    1.91    1.50   0.00  1.12     0.69    0.20 0.03
## Idaho              0.39    1.09    1.79   1.12  0.00     0.75    1.48 0.90
## Illinois           0.15    1.02    1.51   0.69  0.75     0.00    1.28 0.55
## Indiana            1.70    1.82    1.01   0.20  1.48     1.28    0.00 0.35
## Iowa               0.92    1.90    1.68   0.03  0.90     0.55    0.35 0.00
## Kansas             1.11    1.88    1.46   0.00  1.16     0.65    0.21 0.03
## Kentucky           1.64    0.59    0.02   1.31  1.89     1.52    0.81 1.52
## Louisiana          1.13    0.19    0.10   1.62  1.65     1.15    1.34 1.73
## Maine              0.06    0.90    1.53   0.85  0.62     0.02    1.45 0.68
## Maryland           0.71    0.12    0.68   1.98  0.70     1.19    1.89 1.91
## Massachusetts      0.46    1.60    1.79   0.24  0.69     0.19    0.78 0.12
## Michigan           1.61    0.92    0.72   1.44  0.89     1.93    0.97 1.51
## Minnesota          0.88    1.90    1.75   0.05  0.80     0.55    0.40 0.01
## Mississippi        1.14    0.10    0.12   1.81  1.47     1.32    1.48 1.90
## Missouri           1.77    1.67    1.10   0.63  1.01     1.72    0.29 0.73
## Montana            1.85    0.73    0.13   1.37  1.66     1.86    0.75 1.57
## Nebraska           0.99    1.95    1.74   0.05  0.79     0.67    0.34 0.02
## Nevada             1.64    1.50    1.15   0.87  0.78     1.76    0.55 0.92
## New Hampshire      0.74    1.76    1.65   0.08  0.93     0.35    0.49 0.03
## New Jersey         0.60    1.61    1.62   0.17  0.94     0.22    0.64 0.10
## New Mexico         1.01    0.37    0.75   1.89  0.62     1.52    1.65 1.84
## New York           0.24    1.20    1.57   0.52  0.79     0.02    1.11 0.39
## North Carolina     0.78    0.01    0.41   1.95  1.06     1.11    1.81 1.94
## North Dakota       0.63    1.56    1.94   0.66  0.12     0.78    1.00 0.49
## Ohio               1.15    1.89    1.44   0.00  1.18     0.69    0.19 0.04
## Oklahoma           0.74    1.83    1.79   0.09  0.75     0.42    0.51 0.02
## Oregon             1.23    1.66    1.61   0.69  0.41     1.36    0.67 0.64
## Pennsylvania       0.83    1.61    1.38   0.12  1.23     0.35    0.46 0.13
## Rhode Island       0.23    1.28    1.68   0.48  0.68     0.04    1.09 0.34
## South Carolina     1.13    0.09    0.19   1.91  1.30     1.41    1.57 1.98
## South Dakota       1.57    0.48    0.29   1.73  1.23     1.86    1.18 1.84
## Tennessee          1.71    0.53    0.05   1.52  1.67     1.76    0.93 1.70
## Texas              1.25    1.20    0.64   0.47  1.83     0.74    0.44 0.62
## Utah               0.82    1.89    1.87   0.15  0.57     0.61    0.52 0.07
## Vermont            1.61    0.59    0.37   1.67  1.16     1.91    1.12 1.77
## Virginia           1.76    0.75    0.07   1.17  1.92     1.58    0.65 1.40
## Washington         0.96    1.85    1.86   0.35  0.40     0.92    0.58 0.26
## West Virginia      1.41    0.26    0.03   1.70  1.62     1.51    1.24 1.84
## Wisconsin          0.80    1.78    1.61   0.06  0.99     0.39    0.44 0.03
## Wyoming            0.38    0.15    0.67   1.58  1.09     0.50    1.77 1.52
##                Kansas Kentucky Louisiana Maine Maryland Massachusetts Michigan
## Alabama          1.77     0.23      0.04  1.24     0.31          1.79     0.79
## Alaska           1.63     0.82      0.97  1.76     0.46          1.79     0.02
## Arizona          1.19     1.89      1.61  0.56     0.67          0.68     0.94
## Arkansas         1.93     0.39      0.24  1.41     0.15          1.92     0.45
## California       0.63     1.82      1.97  0.97     1.31          0.54     0.78
## Colorado         0.71     1.47      1.82  1.44     1.32          0.90     0.44
## Connecticut      0.22     1.61      1.53  0.24     1.65          0.01     1.84
## Delaware         1.11     1.64      1.13  0.06     0.71          0.46     1.61
## Florida          1.88     0.59      0.19  0.90     0.12          1.60     0.92
## Georgia          1.46     0.02      0.10  1.53     0.68          1.79     0.72
## Hawaii           0.00     1.31      1.62  0.85     1.98          0.24     1.44
## Idaho            1.16     1.89      1.65  0.62     0.70          0.69     0.89
## Illinois         0.65     1.52      1.15  0.02     1.19          0.19     1.93
## Indiana          0.21     0.81      1.34  1.45     1.89          0.78     0.97
## Iowa             0.03     1.52      1.73  0.68     1.91          0.12     1.51
## Kansas           0.00     1.28      1.57  0.81     1.98          0.23     1.50
## Kentucky         1.28     0.00      0.17  1.57     0.88          1.70     0.77
## Louisiana        1.57     0.17      0.00  1.13     0.51          1.63     1.02
## Maine            0.81     1.57      1.13  0.00     1.01          0.27     1.85
## Maryland         1.98     0.88      0.51  1.01     0.00          1.64     0.62
## Massachusetts    0.23     1.70      1.63  0.27     1.64          0.00     1.76
## Michigan         1.50     0.77      1.02  1.85     0.62          1.76     0.00
## Minnesota        0.07     1.60      1.80  0.67     1.87          0.12     1.46
## Mississippi      1.78     0.23      0.05  1.25     0.30          1.80     0.77
## Missouri         0.69     0.99      1.51  1.77     1.42          1.17     0.33
## Montana          1.37     0.12      0.42  1.88     0.81          1.87     0.34
## Nebraska         0.08     1.58      1.84  0.79     1.87          0.18     1.34
## Nevada           0.95     1.10      1.52  1.76     1.15          1.29     0.18
## New Hampshire    0.07     1.51      1.61  0.48     1.85          0.05     1.71
## New Jersey       0.14     1.50      1.49  0.33     1.75          0.03     1.83
## New Mexico       1.92     0.92      0.75  1.35     0.10          1.75     0.26
## New York         0.48     1.54      1.26  0.07     1.36          0.11     1.94
## North Carolina   1.92     0.58      0.21  0.98     0.08          1.67     0.82
## North Dakota     0.71     1.94      1.94  0.73     1.18          0.45     0.94
## Ohio             0.00     1.25      1.56  0.86     1.99          0.25     1.47
## Oklahoma         0.10     1.66      1.77  0.53     1.81          0.05     1.57
## Oregon           0.77     1.57      1.85  1.34     1.23          0.87     0.46
## Pennsylvania     0.09     1.23      1.32  0.51     1.85          0.15     1.81
## Rhode Island     0.45     1.64      1.39  0.08     1.39          0.06     1.89
## South Carolina   1.89     0.33      0.14  1.31     0.18          1.87     0.61
## South Dakota     1.75     0.37      0.48  1.78     0.38          1.99     0.16
## Tennessee        1.51     0.07      0.25  1.76     0.66          1.91     0.43
## Texas            0.42     0.50      0.66  0.91     1.63          0.73     1.60
## Utah             0.18     1.76      1.92  0.68     1.73          0.15     1.32
## Vermont          1.70     0.45      0.60  1.83     0.44          1.96     0.09
## Virginia         1.15     0.02      0.27  1.65     1.02          1.65     0.74
## Washington       0.41     1.78      2.00  0.94     1.54          0.41     0.94
## West Virginia    1.67     0.10      0.08  1.48     0.45          1.87     0.64
## Wisconsin        0.05     1.46      1.59  0.53     1.88          0.07     1.69
## Wyoming          1.52     0.80      0.30  0.43     0.40          1.11     1.46
##                Minnesota Mississippi Missouri Montana Nebraska Nevada
## Alabama             1.94        0.00     1.43    0.36     1.96   1.35
## Alaska              1.56        0.70     0.46    0.40     1.45   0.26
## Arizona             0.82        1.44     1.08    1.69     0.83   0.85
## Arkansas            1.99        0.08     1.20    0.33     1.97   1.03
## California          0.36        1.86     0.44    1.49     0.30   0.37
## Colorado            0.54        1.68     0.13    1.04     0.44   0.09
## Connecticut         0.15        1.72     1.25    1.84     0.23   1.39
## Delaware            0.88        1.14     1.77    1.85     0.99   1.64
## Florida             1.90        0.10     1.67    0.73     1.95   1.50
## Georgia             1.75        0.12     1.10    0.13     1.74   1.15
## Hawaii              0.05        1.81     0.63    1.37     0.05   0.87
## Idaho               0.80        1.47     1.01    1.66     0.79   0.78
## Illinois            0.55        1.32     1.72    1.86     0.67   1.76
## Indiana             0.40        1.48     0.29    0.75     0.34   0.55
## Iowa                0.01        1.90     0.73    1.57     0.02   0.92
## Kansas              0.07        1.78     0.69    1.37     0.08   0.95
## Kentucky            1.60        0.23     0.99    0.12     1.58   1.10
## Louisiana           1.80        0.05     1.51    0.42     1.84   1.52
## Maine               0.67        1.25     1.77    1.88     0.79   1.76
## Maryland            1.87        0.30     1.42    0.81     1.87   1.15
## Massachusetts       0.12        1.80     1.17    1.87     0.18   1.29
## Michigan            1.46        0.77     0.33    0.34     1.34   0.18
## Minnesota           0.00        1.94     0.70    1.62     0.01   0.87
## Mississippi         1.94        0.00     1.42    0.36     1.96   1.34
## Missouri            0.70        1.42     0.00    0.60     0.58   0.05
## Montana             1.62        0.36     0.60    0.00     1.54   0.64
## Nebraska            0.01        1.96     0.58    1.54     0.00   0.74
## Nevada              0.87        1.34     0.05    0.64     0.74   0.00
## New Hampshire       0.05        1.82     0.98    1.68     0.09   1.17
## New Jersey          0.12        1.71     1.18    1.74     0.19   1.36
## New Mexico          1.78        0.47     0.98    0.65     1.73   0.69
## New York            0.41        1.45     1.59    1.87     0.52   1.68
## North Carolina      1.94        0.10     1.59    0.67     1.97   1.41
## North Dakota        0.39        1.82     0.68    1.68     0.37   0.57
## Ohio                0.08        1.77     0.66    1.34     0.08   0.91
## Oklahoma            0.01        1.92     0.85    1.72     0.04   1.00
## Oregon              0.56        1.69     0.21    1.14     0.46   0.13
## Pennsylvania        0.18        1.59     1.11    1.51     0.24   1.36
## Rhode Island        0.34        1.56     1.51    1.92     0.44   1.58
## South Carolina      1.99        0.03     1.34    0.36     1.99   1.20
## South Dakota        1.83        0.29     0.72    0.14     1.75   0.59
## Tennessee           1.75        0.20     0.82    0.03     1.70   0.83
## Texas               0.72        0.95     1.16    0.86     0.77   1.46
## Utah                0.03        2.00     0.65    1.68     0.03   0.74
## Vermont             1.76        0.39     0.60    0.16     1.66   0.46
## Virginia            1.48        0.35     0.84    0.10     1.45   0.99
## Washington          0.20        1.95     0.42    1.51     0.15   0.42
## West Virginia       1.89        0.04     1.19    0.18     1.88   1.16
## Wisconsin           0.05        1.80     0.94    1.62     0.09   1.15
## Wyoming             1.55        0.35     1.96    1.15     1.65   1.88
##                New Hampshire New Jersey New Mexico New York North Carolina
## Alabama                 1.81       1.70       0.49     1.44           0.10
## Alaska                  1.78       1.88       0.15     1.91           0.68
## Arizona                 0.93       0.93       0.62     0.75           1.02
## Arkansas                1.98       1.92       0.19     1.67           0.10
## California              0.59       0.72       1.02     0.91           1.66
## Colorado                0.84       1.02       0.90     1.33           1.64
## Connecticut             0.05       0.01       1.80     0.07           1.62
## Delaware                0.74       0.60       1.01     0.24           0.78
## Florida                 1.76       1.61       0.37     1.20           0.01
## Georgia                 1.65       1.62       0.75     1.57           0.41
## Hawaii                  0.08       0.17       1.89     0.52           1.95
## Idaho                   0.93       0.94       0.62     0.79           1.06
## Illinois                0.35       0.22       1.52     0.02           1.11
## Indiana                 0.49       0.64       1.65     1.11           1.81
## Iowa                    0.03       0.10       1.84     0.39           1.94
## Kansas                  0.07       0.14       1.92     0.48           1.92
## Kentucky                1.51       1.50       0.92     1.54           0.58
## Louisiana               1.61       1.49       0.75     1.26           0.21
## Maine                   0.48       0.33       1.35     0.07           0.98
## Maryland                1.85       1.75       0.10     1.36           0.08
## Massachusetts           0.05       0.03       1.75     0.11           1.67
## Michigan                1.71       1.83       0.26     1.94           0.82
## Minnesota               0.05       0.12       1.78     0.41           1.94
## Mississippi             1.82       1.71       0.47     1.45           0.10
## Missouri                0.98       1.18       0.98     1.59           1.59
## Montana                 1.68       1.74       0.65     1.87           0.67
## Nebraska                0.09       0.19       1.73     0.52           1.97
## Nevada                  1.17       1.36       0.69     1.68           1.41
## New Hampshire           0.00       0.02       1.90     0.22           1.82
## New Jersey              0.02       0.00       1.89     0.12           1.69
## New Mexico              1.90       1.89       0.00     1.66           0.30
## New York                0.22       0.12       1.66     0.00           1.29
## North Carolina          1.82       1.69       0.30     1.29           0.00
## North Dakota            0.58       0.65       0.99     0.73           1.53
## Ohio                    0.08       0.17       1.91     0.52           1.93
## Oklahoma                0.03       0.07       1.78     0.29           1.87
## Oregon                  0.85       1.02       0.84     1.28           1.58
## Pennsylvania            0.06       0.05       1.98     0.23           1.69
## Rhode Island            0.19       0.10       1.64     0.01           1.37
## South Carolina          1.92       1.83       0.30     1.56           0.06
## South Dakota            1.94       1.98       0.22     1.94           0.40
## Tennessee               1.76       1.78       0.59     1.80           0.48
## Texas                   0.53       0.50       1.81     0.66           1.28
## Utah                    0.13       0.22       1.60     0.47           1.91
## Vermont                 1.90       1.97       0.22     1.97           0.50
## Virginia                1.42       1.44       1.01     1.56           0.74
## Washington              0.40       0.53       1.26     0.80           1.82
## West Virginia           1.81       1.75       0.54     1.61           0.24
## Wisconsin               0.00       0.03       1.92     0.26           1.84
## Wyoming                 1.29       1.09       0.82     0.65           0.22
##                North Dakota Ohio Oklahoma Oregon Pennsylvania Rhode Island
## Alabama                1.83 1.76     1.92   1.70         1.58         1.55
## Alaska                 0.93 1.60     1.64   0.52         1.90         1.86
## Arizona                0.15 1.21     0.76   0.47         1.23         0.65
## Arkansas               1.58 1.92     2.00   1.36         1.86         1.73
## California             0.04 0.63     0.40   0.07         0.91         0.77
## Colorado               0.27 0.69     0.64   0.01         1.10         1.20
## Connecticut            0.56 0.25     0.08   0.99         0.11         0.05
## Delaware               0.63 1.15     0.74   1.23         0.83         0.23
## Florida                1.56 1.89     1.83   1.66         1.61         1.28
## Georgia                1.94 1.44     1.79   1.61         1.38         1.68
## Hawaii                 0.66 0.00     0.09   0.69         0.12         0.48
## Idaho                  0.12 1.18     0.75   0.41         1.23         0.68
## Illinois               0.78 0.69     0.42   1.36         0.35         0.04
## Indiana                1.00 0.19     0.51   0.67         0.46         1.09
## Iowa                   0.49 0.04     0.02   0.64         0.13         0.34
## Kansas                 0.71 0.00     0.10   0.77         0.09         0.45
## Kentucky               1.94 1.25     1.66   1.57         1.23         1.64
## Louisiana              1.94 1.56     1.77   1.85         1.32         1.39
## Maine                  0.73 0.86     0.53   1.34         0.51         0.08
## Maryland               1.18 1.99     1.81   1.23         1.85         1.39
## Massachusetts          0.45 0.25     0.05   0.87         0.15         0.06
## Michigan               0.94 1.47     1.57   0.46         1.81         1.89
## Minnesota              0.39 0.08     0.01   0.56         0.18         0.34
## Mississippi            1.82 1.77     1.92   1.69         1.59         1.56
## Missouri               0.68 0.66     0.85   0.21         1.11         1.51
## Montana                1.68 1.34     1.72   1.14         1.51         1.92
## Nebraska               0.37 0.08     0.04   0.46         0.24         0.44
## Nevada                 0.57 0.91     1.00   0.13         1.36         1.58
## New Hampshire          0.58 0.08     0.03   0.85         0.06         0.19
## New Jersey             0.65 0.17     0.07   1.02         0.05         0.10
## New Mexico             0.99 1.91     1.78   0.84         1.98         1.64
## New York               0.73 0.52     0.29   1.28         0.23         0.01
## North Carolina         1.53 1.93     1.87   1.58         1.69         1.37
## North Dakota           0.00 0.72     0.39   0.19         0.90         0.60
## Ohio                   0.72 0.00     0.11   0.75         0.10         0.49
## Oklahoma               0.39 0.11     0.00   0.64         0.15         0.23
## Oregon                 0.19 0.75     0.64   0.00         1.14         1.14
## Pennsylvania           0.90 0.10     0.15   1.14         0.00         0.24
## Rhode Island           0.60 0.49     0.23   1.14         0.24         0.00
## South Carolina         1.69 1.88     1.98   1.53         1.75         1.64
## South Dakota           1.44 1.72     1.91   1.00         1.88         1.96
## Tennessee              1.79 1.48     1.83   1.33         1.55         1.88
## Texas                  1.59 0.41     0.73   1.58         0.27         0.75
## Utah                   0.21 0.19     0.04   0.38         0.34         0.38
## Vermont                1.33 1.67     1.84   0.86         1.88         1.98
## Virginia               1.89 1.12     1.56   1.46         1.15         1.66
## Washington             0.09 0.41     0.24   0.13         0.68         0.67
## West Virginia          1.88 1.65     1.91   1.59         1.57         1.71
## Wisconsin              0.62 0.06     0.03   0.86         0.04         0.23
## Wyoming                1.48 1.55     1.42   1.84         1.12         0.75
##                South Carolina South Dakota Tennessee Texas Utah Vermont
## Alabama                  0.03         0.30      0.20  0.94 1.99    0.40
## Alaska                   0.52         0.14      0.46  1.70 1.39    0.08
## Arizona                  1.27         1.25      1.69  1.81 0.60    1.19
## Arkansas                 0.02         0.11      0.22  1.32 1.95    0.18
## California               1.72         1.33      1.65  1.53 0.19    1.20
## Colorado                 1.54         0.97      1.24  1.48 0.40    0.83
## Connecticut              1.82         2.00      1.86  0.63 0.22    1.99
## Delaware                 1.13         1.57      1.71  1.25 0.82    1.61
## Florida                  0.09         0.48      0.53  1.20 1.89    0.59
## Georgia                  0.19         0.29      0.05  0.64 1.87    0.37
## Hawaii                   1.91         1.73      1.52  0.47 0.15    1.67
## Idaho                    1.30         1.23      1.67  1.83 0.57    1.16
## Illinois                 1.41         1.86      1.76  0.74 0.61    1.91
## Indiana                  1.57         1.18      0.93  0.44 0.52    1.12
## Iowa                     1.98         1.84      1.70  0.62 0.07    1.77
## Kansas                   1.89         1.75      1.51  0.42 0.18    1.70
## Kentucky                 0.33         0.37      0.07  0.50 1.76    0.45
## Louisiana                0.14         0.48      0.25  0.66 1.92    0.60
## Maine                    1.31         1.78      1.76  0.91 0.68    1.83
## Maryland                 0.18         0.38      0.66  1.63 1.73    0.44
## Massachusetts            1.87         1.99      1.91  0.73 0.15    1.96
## Michigan                 0.61         0.16      0.43  1.60 1.32    0.09
## Minnesota                1.99         1.83      1.75  0.72 0.03    1.76
## Mississippi              0.03         0.29      0.20  0.95 2.00    0.39
## Missouri                 1.34         0.72      0.82  1.16 0.65    0.60
## Montana                  0.36         0.14      0.03  0.86 1.68    0.16
## Nebraska                 1.99         1.75      1.70  0.77 0.03    1.66
## Nevada                   1.20         0.59      0.83  1.46 0.74    0.46
## New Hampshire            1.92         1.94      1.76  0.53 0.13    1.90
## New Jersey               1.83         1.98      1.78  0.50 0.22    1.97
## New Mexico               0.30         0.22      0.59  1.81 1.60    0.22
## New York                 1.56         1.94      1.80  0.66 0.47    1.97
## North Carolina           0.06         0.40      0.48  1.28 1.91    0.50
## North Dakota             1.69         1.44      1.79  1.59 0.21    1.33
## Ohio                     1.88         1.72      1.48  0.41 0.19    1.67
## Oklahoma                 1.98         1.91      1.83  0.73 0.04    1.84
## Oregon                   1.53         1.00      1.33  1.58 0.38    0.86
## Pennsylvania             1.75         1.88      1.55  0.27 0.34    1.88
## Rhode Island             1.64         1.96      1.88  0.75 0.38    1.98
## South Carolina           0.00         0.19      0.22  1.17 1.99    0.28
## South Dakota             0.19         0.00      0.13  1.35 1.77    0.01
## Tennessee                0.22         0.13      0.00  0.85 1.82    0.17
## Texas                    1.17         1.35      0.85  0.00 0.97    1.41
## Utah                     1.99         1.77      1.82  0.97 0.00    1.68
## Vermont                  0.28         0.01      0.17  1.41 1.68    0.00
## Virginia                 0.45         0.41      0.09  0.46 1.64    0.46
## Washington               1.86         1.48      1.69  1.30 0.08    1.35
## West Virginia            0.07         0.20      0.07  0.86 1.97    0.29
## Wisconsin                1.91         1.92      1.71  0.49 0.15    1.88
## Wyoming                  0.41         1.00      0.92  0.90 1.60    1.13
##                Virginia Washington West Virginia Wisconsin Wyoming
## Alabama            0.34       1.96          0.04      1.79    0.34
## Alaska             0.82       1.00          0.62      1.78    1.33
## Arizona            1.93       0.45          1.60      1.00    1.02
## Arkansas           0.50       1.76          0.11      1.97    0.54
## California         1.73       0.03          1.83      0.62    1.70
## Colorado           1.34       0.14          1.54      0.83    1.91
## Connecticut        1.57       0.51          1.80      0.07    1.02
## Delaware           1.76       0.96          1.41      0.80    0.38
## Florida            0.75       1.85          0.26      1.78    0.15
## Georgia            0.07       1.86          0.03      1.61    0.67
## Hawaii             1.17       0.35          1.70      0.06    1.58
## Idaho              1.92       0.40          1.62      0.99    1.09
## Illinois           1.58       0.92          1.51      0.39    0.50
## Indiana            0.65       0.58          1.24      0.44    1.77
## Iowa               1.40       0.26          1.84      0.03    1.52
## Kansas             1.15       0.41          1.67      0.05    1.52
## Kentucky           0.02       1.78          0.10      1.46    0.80
## Louisiana          0.27       2.00          0.08      1.59    0.30
## Maine              1.65       0.94          1.48      0.53    0.43
## Maryland           1.02       1.54          0.45      1.88    0.40
## Massachusetts      1.65       0.41          1.87      0.07    1.11
## Michigan           0.74       0.94          0.64      1.69    1.46
## Minnesota          1.48       0.20          1.89      0.05    1.55
## Mississippi        0.35       1.95          0.04      1.80    0.35
## Missouri           0.84       0.42          1.19      0.94    1.96
## Montana            0.10       1.51          0.18      1.62    1.15
## Nebraska           1.45       0.15          1.88      0.09    1.65
## Nevada             0.99       0.42          1.16      1.15    1.88
## New Hampshire      1.42       0.40          1.81      0.00    1.29
## New Jersey         1.44       0.53          1.75      0.03    1.09
## New Mexico         1.01       1.26          0.54      1.92    0.82
## New York           1.56       0.80          1.61      0.26    0.65
## North Carolina     0.74       1.82          0.24      1.84    0.22
## North Dakota       1.89       0.09          1.88      0.62    1.48
## Ohio               1.12       0.41          1.65      0.06    1.55
## Oklahoma           1.56       0.24          1.91      0.03    1.42
## Oregon             1.46       0.13          1.59      0.86    1.84
## Pennsylvania       1.15       0.68          1.57      0.04    1.12
## Rhode Island       1.66       0.67          1.71      0.23    0.75
## South Carolina     0.45       1.86          0.07      1.91    0.41
## South Dakota       0.41       1.48          0.20      1.92    1.00
## Tennessee          0.09       1.69          0.07      1.71    0.92
## Texas              0.46       1.30          0.86      0.49    0.90
## Utah               1.64       0.08          1.97      0.15    1.60
## Vermont            0.46       1.35          0.29      1.88    1.13
## Virginia           0.00       1.66          0.18      1.36    0.97
## Washington         1.66       0.00          1.90      0.41    1.76
## West Virginia      0.18       1.90          0.00      1.78    0.56
## Wisconsin          1.36       0.41          1.78      0.00    1.32
## Wyoming            0.97       1.76          0.56      1.32    0.00
fviz_dist(dist.obj = mat_dist, lab_size = 5) + 
  theme(legend.position = "bottom")

# 4.- K-MEANS

El método K-means clustering (MacQueen, 1967) agrupa las observaciones en K clusters distintos, donde el número K lo determina el analista antes de ejecutar del algoritmo. K-means clustering encuentra los K mejores clusters, entendiendo como mejor cluster aquel cuya varianza interna (intra-cluster variation) sea lo más pequeña posible. Se trata por lo tanto de un problema de optimización, en el que se reparten las observaciones en K clusters de forma que la suma de las varianzas internas de todos ellos sea lo menor posible. Para poder solucionar este problema es necesario definir un modo de cuantificar la varianza interna.

El algoritmo empleado para ello es:

Asignar aleatoriamente un número entre 1 y K a cada observación. Esto sirve como asignación inicial aleatoria de las observaciones a los clusters.

Iterar los siguientes pasos hasta que la asignación de las observaciones a los clusters no cambie o se alcance un número máximo de iteraciones establecido por el usuario.

2.1 Para cada uno de los clusters calcular su centroide. Entendiendo por centroide la posición definida por la media de cada una de las dimensiones (variables) de las observaciones que forman el cluster. Aunque no es siempre equivalente, puede entenderse como el centro de gravedad.

2.2 Asignar cada observación al cluster cuyo centroide está más próximo.

Este algoritmo garantiza que, en cada paso, se reduzca la intra-varianza total de los clusters hasta alcanzar un óptimo local. La siguiente imagen muestra cómo van cambiando las asignaciones de las observaciones a medida que se ejecuta cada paso del algoritmo.

Ventajas y desventajas

K-means es uno de los métodos de clustering más utilizados. Destaca por la sencillez y velocidad de su algoritmo, sin embargo, presenta una serie de limitaciones que se deben tener en cuenta.

Requiere que se indique de antemano el número de clusters que se van a crear. Esto puede ser complicado si no se dispone de información adicional sobre los datos con los que se trabaja. Se han desarrollado varias estrategias para ayudar a identificar potenciales valores óptimos de K (ver más adelante), aunque todas ellas son orientativas.

Las agrupaciones resultantes pueden variar dependiendo de la asignación aleatoria inicial de los centroides. Para minimizar este problema se recomienda repetir el proceso de clustering entre 25-50 veces y seleccionar como resultado definitivo el que tenga menor suma total de varianza interna. Aun así, solo se puede garantizar la reproducibilidad de los resultados si se emplean semillas.

Presenta problemas de robustez frente a outliers. La única solución es excluirlos o recurrir a otros métodos de clustering más robustos como K-medoids (PAM).

4.1.- EJEMPLO K-MEANS

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.3     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(ggpubr)
set.seed(101)
# Se simulan datos aleatorios con dos dimensiones
datos <- matrix(rnorm(n = 1000*2), nrow = 1000, ncol = 2,
                dimnames = list(NULL,c("x", "y")))
datos <- as.data.frame(datos)

# Se determina la media que va a tener cada grupo en cada una de las dos
# dimensiones. En total 2*4 medias. Este valor se utiliza para separar
# cada grupo de los demás.
media_grupos <- matrix(rnorm(n = 8, mean = 0, sd = 4), nrow = 4, ncol = 2,
                       dimnames = list(NULL, c("media_x", "media_y")))
media_grupos <- as.data.frame(media_grupos)
media_grupos <- media_grupos %>% mutate(grupo = c("a","b","c","d"))

# Se genera un vector que asigne aleatoriamente cada observación a uno de
# los 4 grupos
datos <- datos %>% mutate(grupo = sample(x = c("a","b","c","d"),
                                         size = 1000,
                                         replace = TRUE))
# Se incrementa el valor de cada observación con la media correspondiente al
# grupo asignado.
datos <- left_join(datos, media_grupos, by = "grupo")
datos <- datos %>% mutate(x = x + media_x,
                          y = y + media_y)

ggplot(data = datos, aes(x = x, y = y, color = grupo)) +
  geom_point(size = 2.5) +
  theme_bw()

set.seed(12345)
km_cluster <- kmeans(x=datos[,c("x", "y")], centers = 4, nstart = 50)
km_cluster
## K-means clustering with 4 clusters of sizes 246, 276, 229, 249
## 
## Cluster means:
##            x         y
## 1  4.6806544  1.970390
## 2 -1.7355382  2.515924
## 3 -0.1348714  9.028214
## 4  5.1321158 -3.493268
## 
## Clustering vector:
##    [1] 3 4 4 1 4 2 4 4 2 1 4 4 4 2 3 4 4 4 3 2 4 2 1 1 4 3 3 4 3 1 2 4 4 4 1 4 4
##   [38] 3 2 3 3 1 4 4 1 4 2 4 3 2 1 4 2 3 3 1 4 3 1 3 2 1 2 4 2 2 3 2 3 4 4 1 2 1
##   [75] 3 4 4 2 4 4 1 3 3 3 2 1 1 2 2 2 2 3 4 2 1 3 4 3 1 4 1 4 3 1 4 1 4 3 2 2 3
##  [112] 2 3 4 2 3 3 3 1 1 1 3 1 3 3 3 4 4 4 2 3 3 2 2 3 3 4 1 1 2 3 4 3 1 3 3 3 4
##  [149] 3 4 1 4 3 2 2 2 3 1 2 3 3 2 3 4 2 1 2 4 1 2 4 4 3 4 4 4 2 1 4 4 1 4 2 4 2
##  [186] 3 4 3 1 3 1 4 4 2 1 3 1 2 4 1 1 4 2 3 1 1 2 1 3 1 2 2 4 4 4 3 4 4 2 3 2 3
##  [223] 4 2 3 1 1 2 3 1 1 2 1 2 1 2 1 4 4 4 1 1 4 3 4 3 3 2 1 4 3 4 4 2 1 1 4 1 1
##  [260] 1 1 1 1 3 3 4 1 4 3 2 1 1 3 4 4 2 1 1 2 4 3 3 3 3 1 4 3 1 3 3 1 2 4 2 2 4
##  [297] 4 1 3 4 3 4 2 2 3 3 1 4 3 2 4 2 2 2 3 2 2 4 4 2 2 4 3 2 2 1 1 2 4 3 1 2 1
##  [334] 3 2 3 3 3 1 3 2 4 1 2 2 2 1 4 2 1 3 3 4 3 4 3 4 1 2 1 3 3 2 4 3 4 1 1 2 2
##  [371] 2 2 3 2 4 4 3 4 3 2 1 1 2 4 1 3 3 3 4 4 1 4 2 2 3 4 3 4 4 1 2 4 1 3 4 3 4
##  [408] 2 2 2 1 3 1 1 1 4 2 2 2 2 1 3 3 2 4 4 4 3 2 2 4 4 3 3 2 2 2 4 2 4 1 3 2 2
##  [445] 3 2 3 1 1 2 3 3 3 2 2 1 4 4 2 3 2 3 1 2 4 2 2 1 3 2 1 3 4 1 4 4 1 1 4 2 3
##  [482] 4 1 2 4 3 2 4 2 3 3 1 2 2 2 4 4 3 2 2 4 4 2 1 3 4 4 3 1 2 4 2 3 4 4 4 2 1
##  [519] 2 1 3 1 1 4 1 2 2 2 3 3 3 1 3 2 1 1 2 3 2 3 3 4 4 1 3 3 2 2 4 4 4 4 2 3 1
##  [556] 4 4 2 1 1 3 1 1 1 2 4 2 4 4 3 2 2 2 4 2 4 3 4 1 2 2 2 2 1 2 1 2 4 2 1 2 1
##  [593] 1 1 2 4 3 1 1 2 4 1 2 2 3 1 2 2 1 2 2 1 1 2 1 2 4 2 3 1 1 3 1 3 4 2 3 2 2
##  [630] 2 1 2 3 3 2 2 4 1 3 3 1 4 4 4 4 4 3 4 4 4 1 1 2 4 1 1 2 4 2 3 1 2 3 1 2 3
##  [667] 2 4 4 1 2 3 4 1 3 1 1 4 2 2 1 3 1 1 3 3 1 3 2 4 4 4 1 1 1 4 4 4 4 2 4 1 4
##  [704] 1 1 4 3 4 1 2 1 4 1 3 1 4 3 1 3 4 2 2 2 3 4 2 2 1 2 1 4 4 3 1 2 4 1 2 1 3
##  [741] 2 2 3 3 3 3 1 3 4 4 4 1 2 1 2 3 1 4 1 4 2 3 4 1 2 4 1 2 2 1 1 2 1 1 4 4 3
##  [778] 2 3 1 4 2 1 3 3 1 3 1 2 1 4 4 1 3 3 1 1 3 1 4 4 2 4 2 2 1 3 1 1 3 2 1 3 3
##  [815] 1 3 1 3 3 3 1 2 4 2 3 3 2 4 1 4 3 4 4 2 2 1 1 1 4 3 4 2 2 3 4 2 4 4 3 2 3
##  [852] 3 2 1 2 2 1 2 2 2 2 2 2 3 1 3 1 4 1 1 3 2 4 1 4 2 2 2 4 2 1 1 2 2 2 2 3 1
##  [889] 1 3 2 2 4 1 2 1 4 4 4 4 1 1 4 3 1 2 1 4 1 4 2 2 1 2 2 1 2 2 2 2 3 1 4 4 3
##  [926] 3 3 4 1 4 3 2 2 3 2 4 1 2 3 2 1 2 2 3 1 4 3 4 4 3 4 1 3 2 2 1 2 3 2 4 2 2
##  [963] 2 4 2 2 3 2 1 1 1 1 1 4 2 1 3 2 1 2 2 3 1 1 1 4 1 3 2 3 4 2 3 4 4 3 2 3 3
## [1000] 1
## 
## Within cluster sum of squares by cluster:
## [1] 475.6118 539.4635 464.3227 505.5678
##  (between_SS / total_SS =  93.3 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"
datos <- datos %>% mutate(cluster=km_cluster$cluster)
datos <- datos %>% mutate(cluster = as.factor(cluster), 
                          grupo = as.factor(grupo))
ggplot(data = datos, aes(x=x, y=y, color = grupo)) +
  geom_text(aes(label = cluster), size = 2) +
  theme_bw() +
  theme(legend.position = "bottom")

# Matriz de confusión
# -------------------------------
table(km_cluster$cluster, datos[, "grupo"],
      dnn = list("cluster", "grupo real"))
##        grupo real
## cluster   a   b   c   d
##       1 244   0   0   2
##       2   0 276   0   0
##       3   0   0 229   0
##       4   0   0   0 249

##4.2.- EJEMPLO 2 K-MEANS

El set de datos USArrests contiene información sobre el número de delitos (asaltos, asesinatos y secuestros) junto con el porcentaje de población urbana para cada uno de los 50 estados de USA. Se pretende estudiar si existe una agrupación subyacente de los estados empleando K-means-clustering.

El paquete factoextra creado por Alboukadel Kassambara contiene funciones que facilitan en gran medida la visualización y evaluación de los resultados de clustering.

Si se emplea K-means-clustering con distancia euclídea hay que asegurarse de que las variables empleadas son de tipo continuo, ya que trabaja con la media de cada una de ellas.

data("USArrests")
head(USArrests)
##            Murder Assault UrbanPop Rape
## Alabama      13.2     236       58 21.2
## Alaska       10.0     263       48 44.5
## Arizona       8.1     294       80 31.0
## Arkansas      8.8     190       50 19.5
## California    9.0     276       91 40.6
## Colorado      7.9     204       78 38.7
str(USArrests)
## 'data.frame':    50 obs. of  4 variables:
##  $ Murder  : num  13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
##  $ Assault : int  236 263 294 190 276 204 110 238 335 211 ...
##  $ UrbanPop: int  58 48 80 50 91 78 77 72 80 60 ...
##  $ Rape    : num  21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...
datos <- scale(USArrests)
str(datos)
##  num [1:50, 1:4] 1.2426 0.5079 0.0716 0.2323 0.2783 ...
##  - attr(*, "dimnames")=List of 2
##   ..$ : chr [1:50] "Alabama" "Alaska" "Arizona" "Arkansas" ...
##   ..$ : chr [1:4] "Murder" "Assault" "UrbanPop" "Rape"
##  - attr(*, "scaled:center")= Named num [1:4] 7.79 170.76 65.54 21.23
##   ..- attr(*, "names")= chr [1:4] "Murder" "Assault" "UrbanPop" "Rape"
##  - attr(*, "scaled:scale")= Named num [1:4] 4.36 83.34 14.47 9.37
##   ..- attr(*, "names")= chr [1:4] "Murder" "Assault" "UrbanPop" "Rape"
summary(datos)
##      Murder           Assault           UrbanPop             Rape        
##  Min.   :-1.6044   Min.   :-1.5090   Min.   :-2.31714   Min.   :-1.4874  
##  1st Qu.:-0.8525   1st Qu.:-0.7411   1st Qu.:-0.76271   1st Qu.:-0.6574  
##  Median :-0.1235   Median :-0.1411   Median : 0.03178   Median :-0.1209  
##  Mean   : 0.0000   Mean   : 0.0000   Mean   : 0.00000   Mean   : 0.0000  
##  3rd Qu.: 0.7949   3rd Qu.: 0.9388   3rd Qu.: 0.84354   3rd Qu.: 0.5277  
##  Max.   : 2.2069   Max.   : 1.9948   Max.   : 1.75892   Max.   : 2.6444
library(factoextra)
fviz_nbclust(x=datos, FUNcluster = kmeans, method = "wss", k.max = 10,
                diss = get_dist(datos, method = "euclidean"), nstart = 50)

En este análisis, a partir de 4 clusters la reducción en la suma total de cuadrados internos parece estabilizarse, indicando que K = 4 es una buena opción.

set.seed(12345)
km_clusters <- kmeans(x = datos, centers = 4, nstart = 50)
fviz_cluster(object = km_clusters, data = datos, show.clust.cent = TRUE,
             ellipse.type = "euclid", star.plot = TRUE, repel = TRUE) +
  labs(title = "Resultados clustering K-means") +
  theme_bw() +
  theme(legend.position = "none")

5.- K Medoids “PAM”

K-medoids es un método de clustering muy similar a K-means en cuanto a que ambos agrupan las observaciones en K clusters, donde K es un valor preestablecido por el analista. La diferencia es que, en K-medoids, cada cluster está representado por una observación presente en el cluster (medoid), mientras que en K-means cada cluster está representado por su centroide, que se corresponde con el promedio de todas las observaciones del cluster pero con ninguna en particular. Una definición más exacta del término medoid es: elemento dentro de un cluster cuya distancia (diferencia) promedio entre él y todos los demás elementos del mismo cluster es lo menor posible. Se corresponde con el elemento más central del cluster y por lo tanto puede considerarse como el más representativo. El hecho de utilizar medoids en lugar de centroides hace de K-medoids un método más robusto que K-means, viéndose menos afectado por outliers o ruido. A modo de idea intuitiva puede considerarse como la analogía entre media y mediana.

El algoritmo más empleado para aplicar K-medoids se conoce como PAM (Partitioning Around Medoids)

Ventajas y desventajas

K-medoids es un método de clustering más robusto que K-means, por lo que es más adecuado cuando el set de datos contiene outliers o ruido.

Al igual que K-means, necesita que se especifique de antemano el número de clusters que se van a crear. Esto puede ser complicado de determinar si no se dispone de información adicional sobre los datos. Muchas de las estrategias empleadas en K-means para identificar el numero óptimo pueden aplicarse en K-medoids.

Para sets de datos grandes necesita muchos recursos computacionales. En tal situación se recomienda aplicar el método CLARA.

##5.1.- EJEMPLO PAM

El set de datos USArrests contiene información sobre el número de delitos (asaltos, asesinatos y secuestros) junto con el porcentaje de población urbana para cada uno de los 50 estados de USA. Se pretende estudiar si existe una agrupación subyacente de los estados mediante clustering. Dado que se sospecha de la presencia de outliers se recurre a K-medoids.

data("USArrests")
str(USArrests)
## 'data.frame':    50 obs. of  4 variables:
##  $ Murder  : num  13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
##  $ Assault : int  236 263 294 190 276 204 110 238 335 211 ...
##  $ UrbanPop: int  58 48 80 50 91 78 77 72 80 60 ...
##  $ Rape    : num  21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...
datos <- scale(USArrests)

Se evalúa la reducción de varianza total intra-cluster para un rango de valores K con el objetivo de identificar el número óptimo de clusters (elbow method). En este caso, dado que se sospecha de la presencia de outliers, se emplea la distancia de Manhattan como medida de similitud.

library(cluster)
library(factoextra)
fviz_nbclust(x = datos, FUNcluster = pam, method = "wss", k.max = 10,
             diss = dist(datos, method = "manhattan"))

Al igual que ocurría al aplicar K-Means a estos datos, a partir de 4 clusters la reducción en la suma total de diferencias internas parece estabilizarse, indicando que K = 4 es una buena opción.

set.seed(12345)
pam_clusters <- pam(x=datos, k=4, metric = "manhattan")
pam_clusters
## Medoids:
##          ID     Murder    Assault   UrbanPop         Rape
## Alabama   1  1.2425641  0.7828393 -0.5209066 -0.003416473
## Michigan 22  0.9900104  1.0108275  0.5844655  1.480613993
## Oklahoma 36 -0.2727580 -0.2371077  0.1699510 -0.131534211
## Iowa     15 -1.2829727 -1.3770485 -0.5899924 -1.060387812
## Clustering vector:
##        Alabama         Alaska        Arizona       Arkansas     California 
##              1              2              2              3              2 
##       Colorado    Connecticut       Delaware        Florida        Georgia 
##              2              4              3              2              1 
##         Hawaii          Idaho       Illinois        Indiana           Iowa 
##              3              4              2              3              4 
##         Kansas       Kentucky      Louisiana          Maine       Maryland 
##              3              3              1              4              2 
##  Massachusetts       Michigan      Minnesota    Mississippi       Missouri 
##              3              2              4              1              3 
##        Montana       Nebraska         Nevada  New Hampshire     New Jersey 
##              3              3              2              4              3 
##     New Mexico       New York North Carolina   North Dakota           Ohio 
##              2              2              1              4              3 
##       Oklahoma         Oregon   Pennsylvania   Rhode Island South Carolina 
##              3              3              3              3              1 
##   South Dakota      Tennessee          Texas           Utah        Vermont 
##              4              1              2              3              4 
##       Virginia     Washington  West Virginia      Wisconsin        Wyoming 
##              3              3              4              4              3 
## Objective function:
##    build     swap 
## 1.730682 1.712075 
## 
## Available components:
##  [1] "medoids"    "id.med"     "clustering" "objective"  "isolation" 
##  [6] "clusinfo"   "silinfo"    "diss"       "call"       "data"
fviz_cluster(object = pam_clusters, data = datos, ellipse.type = "t",
             repel = TRUE) +
  theme_bw() +
  labs(title = "Resultados clusters por PAM") + 
  theme(legend.position = "none")

# Como hay más de 2 variables, se están representando las 2 primeras componentes
# de un PCA. Se tienen que calcular el PCA y extraer las proyecciones almacenadas
# en el elemento x.
medoids <- prcomp(datos)$x

# Se seleccionan únicamente las proyecciones de las observaciones que son medoids
medoids <- medoids[rownames(pam_clusters$medoids), c("PC1", "PC2")]
medoids <- as.data.frame(medoids)

# Se emplean los mismos nombres que en el objeto ggplot
colnames(medoids) <- c("x", "y")

# Creación del gráfico
fviz_cluster(object = pam_clusters, data = datos, ellipse.type = "t",
             repel = TRUE) +
  theme_bw() +
  # Se resaltan las observaciones que actúan como medoids
  geom_point(data = medoids, color = "firebrick", size = 2) +
  labs(title = "Resultados clustering PAM") +
  theme(legend.position = "none")

#6.- MÉTODO CLARA

Una de las limitaciones del método K-medoids-clustering es que su algoritmo requiere mucha memoria RAM, lo que impide que se pueda aplicar cuando el set de datos contiene varios miles de observaciones. CLARA (Clustering Large Applications) es un método que combina la idea de K-medoids con el resampling para que pueda aplicarse a grandes volúmenes de datos.

En lugar de intentar encontrar los medoids empleando todos los datos a la vez, CLARA selecciona una muestra aleatoria de un tamaño determinado y le aplica el algoritmo de PAM (K-medoids) para encontrar los clusters óptimos acorde a esa muestra. Utilizando esos medoids se agrupan las observaciones de todo el set de datos. La calidad de los medoids resultantes se cuantifica con la suma total de las distancias entre cada observación del set de datos y su correspondiente medoid (suma total de distancias intra-clusters). CLARA repite este proceso un número predeterminado de veces con el objetivo de reducir el bias de muestreo. Por último, se seleccionan como clusters finales los obtenidos con aquellos medoids que han conseguido menor suma total de distancias. A continuación, se describen los pasos del algoritmo CLARA.

6.1.- EJEMPLO CLARA

set.seed(12345)
grupo_1 <- cbind(rnorm(n = 200, mean = 0, sd = 8),
                 rnorm(n = 200, mean = 0, sd = 8))
grupo_2 <- cbind(rnorm(n = 300, mean = 30, sd = 8),
                 rnorm(n = 300, mean = 30, sd = 8))
datos <- rbind(grupo_1, grupo_2)
colnames(datos) <- c("x", "y")
head(datos)
##                x           y
## [1,]   4.6842305 -11.4891656
## [2,]   5.6757281  -5.0340772
## [3,]  -0.8744265   1.9481741
## [4,]  -3.6279774   8.4668979
## [5,]   4.8470996   6.6507905
## [6,] -14.5436477   0.8416945
library(cluster)
library(factoextra)
clara_clusters <- clara(x = datos, k = 2, metric = "manhattan", stand = TRUE,
                        samples = 50, pamLike = TRUE)
clara_clusters
## Call:     clara(x = datos, k = 2, metric = "manhattan", stand = TRUE, samples = 50, pamLike = TRUE) 
## Medoids:
##             x          y
## [1,]  2.38979  0.5515648
## [2,] 30.33292 29.7370952
## Objective function:   0.882689
## Clustering vector:    int [1:500] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ...
## Cluster sizes:            199 301 
## Best sample:
##  [1]   2  11  20  32  47  51  72  73  76  99 105 108 113 119 134 144 145 176 178
## [20] 185 187 198 202 241 255 277 279 285 311 313 320 321 325 341 347 353 355 377
## [39] 384 405 406 475 476 485
## 
## Available components:
##  [1] "sample"     "medoids"    "i.med"      "clustering" "objective" 
##  [6] "clusinfo"   "diss"       "call"       "silinfo"    "data"
fviz_cluster(object = clara_clusters, ellipse.type = "t", geom = "point",
             pointsize = 2.5) +
  theme_bw() +
  labs(title = "Resultados clustering CLARA") +
  theme(legend.position = "none")