This is an R Markdown Notebook. When you execute code within the notebook, the results appear beneath the code.

Try executing this chunk by clicking the Run button within the chunk or by placing your cursor inside it and pressing Ctrl+Shift+Enter.

plot(cars)

Add a new chunk by clicking the Insert Chunk button on the toolbar or by pressing Ctrl+Alt+I.

When you save the notebook, an HTML file containing the code and output will be saved alongside it (click the Preview button or press Ctrl+Shift+K to preview the HTML file). ## analisis cluster

install.packages(“rattle.data”)#instalar paquete install.packages(“reshape”) install.packages(“ggplot2”) install.packages(“factoextra”) install.packages(“cluster”) library(“cluster”) library(“factoextra”) library(rattle.data)#cargar la libreria library(reshape) library(ggplot2)

cargar las bases de datos

data(wine, package=“rattle.data”)#cargar un dataset head(wine,10)#ver los primeros 10 datos help(wine)#ver una descripción de la información #El conjunto de datos contiene los resultados de un análisis químico de vinos cultivados en una zona # específica de Italia. # Se presentan tres tipos de vino en las 178 muestras, con los resultados de 13 análisis químicos registrados para cada muestra. # Hay una variable categórica= tipo las ottras variables .

Estadísticos Básicos

with(wine, tapply(Proanthocyanins, list(Type), mean, na.rm=TRUE))

summary(wine[,c(“Alcalinity”, “Alcohol”, “Ash”, “Color”, “Dilution”, “Flavanoids”, “Hue”, “Magnesium”, “Malic”, “Nonflavanoids”, “Phenols”, “Proanthocyanins”, “Proline”), drop=FALSE], groups=wine$Type, statistics=c(“mean”, “sd”, “IQR”, “quantiles”), quantiles=c(0,.25,.5,.75,1))

data(weather, package=“rattle.data”)#vargar una dataset head(weather)

pruebas de normalidad de la variable alcohol por tipo de vino

normalityTest(Alcohol ~ Type, test=“shapiro.test”, data=wine)

prueba<- shapiro.test(wine$Alcohol) prueba #graficas #with(wine, dotplot(Alcohol, by=Type, bin=FALSE)) boxplot(Alcohol~Type, data=wine, id.method=“y”, xlab=“qimico”, ylab=“”, main=“bosxplot de vino”)

Analisis cluster

estandarizar la información por variable

wine.stand <- scale(wine[-1]) # el -1 es porque la columna 1 es tipo y esta no es variable wine.stand #ver los datos estandarizados

Porque se debe estandarizar?

Selección de el metodo de analisi cluster

k.means.fit <- kmeans(wine.stand, 3) # k = 3 k.means.fit attributes(k.means.fit) k.means.fit\(size k.means.fit\)betweenss # K-Means k.means.fit <- kmeans(wine.stand, 3) # k = 3 attributes(k.means.fit) clusplot(wine, k.means.fit$cluster, main=‘2D representation of the Cluster solution’, color=TRUE, shade=TRUE, labels=2, lines=0)

k.means.fit2 <- kmeans(wine.stand, 2) # k = 2 k.means.fit2 attributes(k.means.fit)

k.means.fit5 <- kmeans(wine.stand, 5) # k = 5 k.means.fit5 attributes(k.means.fit)

distancias1<-dist(wine,method=“manhattan”) cluster1<-hclust(distancias1) plot(cluster1)

distancias2<-dist(wine,method=“euclidean”) cluster2<-hclust(distancias2)

distancias3<-dist(wine,method=“maximum”) cluster3<-hclust(distancias3) wine.stand <- scale(wine[-1]) # To standarize the variables

2 Ejercicio con las frutas

los leemos sin cabecera

descargar http://analisisydecision.es/wp-content/uploads/2009/06/alimentos2.txt

frutas<-read.table(“C:/Users/lenovo/Documents/alimentos2.txt”,header=FALSE,sep=“”) frutas

url= “http://analisisydecision.es/wp-content/uploads/2009/06/alimentos2.txt” frutas1<-read.table(url,header=FALSE,sep=“”) head(frutas1,10)

nombres<-c(“nombre”,“inter_hidratos”,“kcal”,“proteinas”,“grasas”) names(frutas1)<- nombres names(frutas1) frutas1.stand <- scale(frutas1[-1]) frutas1.stand k.means.fit <- kmeans(frutas1.stand, 3) k.means.fit k.means.fit1 <- kmeans(frutas1.stand, 4) attributes(k.means.fit1) attributes(k.means.fit) k.means.fit\(centers k.means.fit\)size k.means.fit\(cluster k.means.fit\)withinss k.means.fit$betweenss

wssplot <- function(data, nc=15, seed=1234){ wss <- (nrow(data)-1)*sum(apply(data,2,var)) for (i in 2:nc){ set.seed(seed) wss[i] <- sum(kmeans(data, centers=i)$withinss)} plot(1:nc, wss, type=“b”, xlab=“Number of Clusters”, ylab=“Within groups sum of squares”)}

wssplot(frutas1.stand, nc=6)

clusplot(frutas1.stand, k.means.fit\(cluster, main='2D representation of the Cluster solution', color=TRUE, shade=TRUE, labels=2, lines=0) clusplot(frutas1.stand, k.means.fit1\)cluster, main=‘2D representation of the Cluster solution’, color=TRUE, shade=TRUE, labels=2, lines=0)

table(frutas1[,1],k.means.fit$cluster)

distancias2<-dist(frutas1.stand,method=“euclidean”) cluster2<-hclust(distancias2, method=“euclidean”) cluster2

plot(cluster2) # display dendogram groups <- cutree(cluster2, k=4) # cut tree into 5 clusters plot(groups) # draw dendogram with red borders around the 5 clusters groups <- cutree(cluster2, k=4)

par(mfrow=c(2,2)) pie(colSums(frutas1[k.means.fit1$cluster==1,]),cex=0.5)

pie(colSums(interests[teen_clusters$cluster==2,]),cex=0.5)

pie(colSums(interests[teen_clusters$cluster==3,]),cex=0.5)

pie(colSums(interests[teen_clusters$cluster==4,]),cex=0.5)

distancias1<-dist(frutas,method=“manhattan”) distancias1 cluster1<-hclust(distancias1) cluster1 distancias2<-dist(frutas1.stand,method=“euclidean”) cluster2<-hclust(distancias2) cluster2 distancias3<-dist(frutas,method=“maximum”) cluster3<-hclust(distancias3) distancias4<-dist(frutas,method=“canberra”) cluster4<-hclust(distancias4)

op <- par(mfcol = c(2, 2)) #Nos permite presentar par(las =1) #el gráfico en 4 partes plot(cluster1,main=“Método Manhatan”) plot(cluster2,main=“Distancia euclídea”) plot(cluster3,main=“Distancia por máximos”) plot(cluster4,main=“Método Camberra”) paso1<-pam(distancias2,2) paso2<-pam(distancias2,3) paso3<-pam(distancias2,4) paso4<-pam(distancias2,5) par(mfrow=c(2,2)) plot(paso1) plot(paso2) plot(paso3) plot(paso4) cluster.final<- kmeans(distancias2,3) cluster.final\(size #Obtenemos el tamaño de los cluster cluster.final1<- kmeans(distancias2,4) cluster.final1\)size #Obtenemos el tamaño de los cluster cluster.final2<- kmeans(distancias2,5) cluster.final2\(size #Obtenemos el tamaño de los cluster cluster.final<- kmeans(distancias2,4) grupos<-data.frame(frutas) clus<-as.factor(cluster.final\)cluster) grupos<-cbind(data.frame(frutas),clus) grupos<-sort_df(grupos,vars=‘clus’) grupos nombres<-c(“nombre”,“inter_hidratos”,“kcal”,“proteinas”,“grasas”,“clus”) names(grupos)<-nombres aggregate(grupos\(inter_hidratos,list(grupos\)clus),mean) aggregate(grupos\(kcal,list(grupos\)clus),mean) aggregate(grupos\(proteinas,list(grupos\)clus),mean) aggregate(grupos\(grasas,list(grupos\)clus),mean)

