text mining

#la segmentacion o clusters es un conjunto de tecnicas cuyo propisto es formar grupos a partir de un conjunto de elementos.

#paso 1: instalar paquetes y llamar librerias

#install.packages("cluster")
library(cluster)
#install.packages("ggplot2")
library(ggplot2)
#install.packages("data.table")
library(data.table)
#install.packages("factoextra")
library(factoextra)

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

#paso 2: obtener datos

df <- data.frame(x=c(2,2,8,5,7,6,1,4), y=c(10,5,4,8,5,4,2,9))

#paso 3: cantidad de grupos

grupos <- 3

#paso 4: generar segmentos

segmentos <- kmeans(df,grupos)
segmentos

## K-means clustering with 3 clusters of sizes 2, 3, 3
## 
## Cluster means:
##          x        y
## 1 1.500000 3.500000
## 2 3.666667 9.000000
## 3 7.000000 4.333333
## 
## Clustering vector:
## [1] 2 1 3 2 3 3 1 2
## 
## Within cluster sum of squares by cluster:
## [1] 5.000000 6.666667 2.666667
##  (between_SS / total_SS =  85.8 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

#paso 5: asignar el grupo al que pertenece cada observación

Asignación <- cbind(df, cluster = segmentos$cluster)
Asignación

##   x  y cluster
## 1 2 10       2
## 2 2  5       1
## 3 8  4       3
## 4 5  8       2
## 5 7  5       3
## 6 6  4       3
## 7 1  2       1
## 8 4  9       2

#paso 6: graficar los clusters

fviz_cluster(segmentos, data=df)

#paso 7: optimizar la cantidad de grupos, la cantidad optima de grupos corresponde al punto mas lato de la siguiente grafica

set.seed(123)
optimizacion <- clusGap(df, FUN=kmeans, nstart=1, K.max = 7)
plot(optimizacion, xlab="numero de clusters k")

#conclusion #la segmentacion o clusters es un algoritmo util para las empresas que desean clacificar a sus clientes y dirigir campañas de marketing mas especializadas

LS0tCnRpdGxlOiAidGV4dCBtaW5pbmciCmF1dGhvcjogIkx1aXMgQWxmcmVkbyBHb256YWxleiBDYW50byIKZGF0ZTogIjIwMjQtMDItMTkiCm91dHB1dDogCiAgaHRtbF9kb2N1bWVudDogCiAgICB0b2M6IFRSVUUKICAgIHRvY19mbG9hdDogVFJVRQogICAgY29kZV9kb3dubG9hZDogVFJVRQogICAgdGhlbWU6IGNvc21vCi0tLQoKI2xhIHNlZ21lbnRhY2lvbiBvIGNsdXN0ZXJzIGVzIHVuIGNvbmp1bnRvIGRlIHRlY25pY2FzIGN1eW8gcHJvcGlzdG8gZXMgZm9ybWFyIGdydXBvcyBhIHBhcnRpciBkZSB1biBjb25qdW50byBkZSBlbGVtZW50b3MuIAoKI3Bhc28gMTogaW5zdGFsYXIgcGFxdWV0ZXMgeSBsbGFtYXIgbGlicmVyaWFzIAoKYGBge3J9CiNpbnN0YWxsLnBhY2thZ2VzKCJjbHVzdGVyIikKbGlicmFyeShjbHVzdGVyKQojaW5zdGFsbC5wYWNrYWdlcygiZ2dwbG90MiIpCmxpYnJhcnkoZ2dwbG90MikKI2luc3RhbGwucGFja2FnZXMoImRhdGEudGFibGUiKQpsaWJyYXJ5KGRhdGEudGFibGUpCiNpbnN0YWxsLnBhY2thZ2VzKCJmYWN0b2V4dHJhIikKbGlicmFyeShmYWN0b2V4dHJhKQpgYGAKCiNwYXNvIDI6IG9idGVuZXIgZGF0b3MKYGBge3J9CmRmIDwtIGRhdGEuZnJhbWUoeD1jKDIsMiw4LDUsNyw2LDEsNCksIHk9YygxMCw1LDQsOCw1LDQsMiw5KSkKYGBgCgojcGFzbyAzOiBjYW50aWRhZCBkZSBncnVwb3MKYGBge3J9CmdydXBvcyA8LSAzCmBgYAoKI3Bhc28gNDogZ2VuZXJhciBzZWdtZW50b3MgCmBgYHtyfQpzZWdtZW50b3MgPC0ga21lYW5zKGRmLGdydXBvcykKc2VnbWVudG9zCmBgYAoKI3Bhc28gNTogYXNpZ25hciBlbCBncnVwbyBhbCBxdWUgcGVydGVuZWNlIGNhZGEgb2JzZXJ2YWNpw7NuCmBgYHtyfQpBc2lnbmFjacOzbiA8LSBjYmluZChkZiwgY2x1c3RlciA9IHNlZ21lbnRvcyRjbHVzdGVyKQpBc2lnbmFjacOzbgpgYGAKCiNwYXNvIDY6IGdyYWZpY2FyIGxvcyBjbHVzdGVycwpgYGB7cn0KZnZpel9jbHVzdGVyKHNlZ21lbnRvcywgZGF0YT1kZikKYGBgCgojcGFzbyA3OiBvcHRpbWl6YXIgbGEgY2FudGlkYWQgZGUgZ3J1cG9zLCBsYSBjYW50aWRhZCBvcHRpbWEgZGUgZ3J1cG9zIGNvcnJlc3BvbmRlIGFsIHB1bnRvIG1hcyBsYXRvIGRlIGxhIHNpZ3VpZW50ZSBncmFmaWNhCmBgYHtyfQpzZXQuc2VlZCgxMjMpCm9wdGltaXphY2lvbiA8LSBjbHVzR2FwKGRmLCBGVU49a21lYW5zLCBuc3RhcnQ9MSwgSy5tYXggPSA3KQpwbG90KG9wdGltaXphY2lvbiwgeGxhYj0ibnVtZXJvIGRlIGNsdXN0ZXJzIGsiKSAKYGBgYAoKCiNjb25jbHVzaW9uCiNsYSBzZWdtZW50YWNpb24gbyBjbHVzdGVycyBlcyB1biBhbGdvcml0bW8gdXRpbCBwYXJhIGxhcyBlbXByZXNhcyBxdWUgZGVzZWFuIGNsYWNpZmljYXIgYSBzdXMgY2xpZW50ZXMgeSBkaXJpZ2lyIGNhbXBhw7FhcyBkZSBtYXJrZXRpbmcgbWFzIGVzcGVjaWFsaXphZGFzCg==

text mining

Luis Alfredo Gonzalez Canto

2024-02-19