This is an R Markdown Notebook. When you execute code within the notebook, the results appear beneath the code.
Try executing this chunk by clicking the Run button within the chunk or by placing your cursor inside it and pressing Ctrl+Shift+Enter.
plot(cars)
Add a new chunk by clicking the Insert Chunk button on the toolbar or by pressing Ctrl+Alt+I.
When you save the notebook, an HTML file containing the code and output will be saved alongside it (click the Preview button or press Ctrl+Shift+K to preview the HTML file). ## analisis cluster
install.packages(“rattle.data”)#instalar paquete install.packages(“reshape”) install.packages(“ggplot2”) install.packages(“factoextra”) install.packages(“cluster”) library(“cluster”) library(“factoextra”) library(rattle.data)#cargar la libreria library(reshape) library(ggplot2)
cargar las bases de datos
data(wine, package=“rattle.data”)#cargar un dataset head(wine,10)#ver los primeros 10 datos help(wine)#ver una descripción de la información #El conjunto de datos contiene los resultados de un análisis químico de vinos cultivados en una zona # específica de Italia. # Se presentan tres tipos de vino en las 178 muestras, con los resultados de 13 análisis químicos registrados para cada muestra. # Hay una variable categórica= tipo las ottras variables .
Estadísticos Básicos
with(wine, tapply(Proanthocyanins, list(Type), mean, na.rm=TRUE))
summary(wine[,c(“Alcalinity”, “Alcohol”, “Ash”, “Color”, “Dilution”, “Flavanoids”, “Hue”, “Magnesium”, “Malic”, “Nonflavanoids”, “Phenols”, “Proanthocyanins”, “Proline”), drop=FALSE], groups=wine$Type, statistics=c(“mean”, “sd”, “IQR”, “quantiles”), quantiles=c(0,.25,.5,.75,1))
data(weather, package=“rattle.data”)#vargar una dataset head(weather)
pruebas de normalidad de la variable alcohol por tipo de vino
normalityTest(Alcohol ~ Type, test=“shapiro.test”, data=wine)
prueba<- shapiro.test(wine$Alcohol) prueba #graficas #with(wine, dotplot(Alcohol, by=Type, bin=FALSE)) boxplot(Alcohol~Type, data=wine, id.method=“y”, xlab=“qimico”, ylab=“”, main=“bosxplot de vino”)
Analisis cluster
Selección de el metodo de analisi cluster
k.means.fit <- kmeans(wine.stand, 3) # k = 3 k.means.fit attributes(k.means.fit) k.means.fit\(size k.means.fit\)betweenss # K-Means k.means.fit <- kmeans(wine.stand, 3) # k = 3 attributes(k.means.fit) clusplot(wine, k.means.fit$cluster, main=‘2D representation of the Cluster solution’, color=TRUE, shade=TRUE, labels=2, lines=0)
k.means.fit2 <- kmeans(wine.stand, 2) # k = 2 k.means.fit2 attributes(k.means.fit)
k.means.fit5 <- kmeans(wine.stand, 5) # k = 5 k.means.fit5 attributes(k.means.fit)
distancias1<-dist(wine,method=“manhattan”) cluster1<-hclust(distancias1) plot(cluster1)
distancias2<-dist(wine,method=“euclidean”) cluster2<-hclust(distancias2)
distancias3<-dist(wine,method=“maximum”) cluster3<-hclust(distancias3) wine.stand <- scale(wine[-1]) # To standarize the variables
2 Ejercicio con las frutas
los leemos sin cabecera
frutas<-read.table(“C:/Users/lenovo/Documents/alimentos2.txt”,header=FALSE,sep=“”) frutas
url= “http://analisisydecision.es/wp-content/uploads/2009/06/alimentos2.txt” frutas1<-read.table(url,header=FALSE,sep=“”) head(frutas1,10)
nombres<-c(“nombre”,“inter_hidratos”,“kcal”,“proteinas”,“grasas”) names(frutas1)<- nombres names(frutas1) frutas1.stand <- scale(frutas1[-1]) frutas1.stand k.means.fit <- kmeans(frutas1.stand, 3) k.means.fit k.means.fit1 <- kmeans(frutas1.stand, 4) attributes(k.means.fit1) attributes(k.means.fit) k.means.fit\(centers k.means.fit\)size k.means.fit\(cluster k.means.fit\)withinss k.means.fit$betweenss
wssplot <- function(data, nc=15, seed=1234){ wss <- (nrow(data)-1)*sum(apply(data,2,var)) for (i in 2:nc){ set.seed(seed) wss[i] <- sum(kmeans(data, centers=i)$withinss)} plot(1:nc, wss, type=“b”, xlab=“Number of Clusters”, ylab=“Within groups sum of squares”)}
wssplot(frutas1.stand, nc=6)
clusplot(frutas1.stand, k.means.fit\(cluster, main='2D representation of the Cluster solution', color=TRUE, shade=TRUE, labels=2, lines=0) clusplot(frutas1.stand, k.means.fit1\)cluster, main=‘2D representation of the Cluster solution’, color=TRUE, shade=TRUE, labels=2, lines=0)
table(frutas1[,1],k.means.fit$cluster)
distancias2<-dist(frutas1.stand,method=“euclidean”) cluster2<-hclust(distancias2, method=“euclidean”) cluster2
plot(cluster2) # display dendogram groups <- cutree(cluster2, k=4) # cut tree into 5 clusters plot(groups) # draw dendogram with red borders around the 5 clusters groups <- cutree(cluster2, k=4)
par(mfrow=c(2,2)) pie(colSums(frutas1[k.means.fit1$cluster==1,]),cex=0.5)
pie(colSums(interests[teen_clusters$cluster==2,]),cex=0.5)
pie(colSums(interests[teen_clusters$cluster==3,]),cex=0.5)
pie(colSums(interests[teen_clusters$cluster==4,]),cex=0.5)
distancias1<-dist(frutas,method=“manhattan”) distancias1 cluster1<-hclust(distancias1) cluster1 distancias2<-dist(frutas1.stand,method=“euclidean”) cluster2<-hclust(distancias2) cluster2 distancias3<-dist(frutas,method=“maximum”) cluster3<-hclust(distancias3) distancias4<-dist(frutas,method=“canberra”) cluster4<-hclust(distancias4)
op <- par(mfcol = c(2, 2)) #Nos permite presentar par(las =1) #el gráfico en 4 partes plot(cluster1,main=“Método Manhatan”) plot(cluster2,main=“Distancia euclídea”) plot(cluster3,main=“Distancia por máximos”) plot(cluster4,main=“Método Camberra”) paso1<-pam(distancias2,2) paso2<-pam(distancias2,3) paso3<-pam(distancias2,4) paso4<-pam(distancias2,5) par(mfrow=c(2,2)) plot(paso1) plot(paso2) plot(paso3) plot(paso4) cluster.final<- kmeans(distancias2,3) cluster.final\(size #Obtenemos el tamaño de los cluster cluster.final1<- kmeans(distancias2,4) cluster.final1\)size #Obtenemos el tamaño de los cluster cluster.final2<- kmeans(distancias2,5) cluster.final2\(size #Obtenemos el tamaño de los cluster cluster.final<- kmeans(distancias2,4) grupos<-data.frame(frutas) clus<-as.factor(cluster.final\)cluster) grupos<-cbind(data.frame(frutas),clus) grupos<-sort_df(grupos,vars=‘clus’) grupos nombres<-c(“nombre”,“inter_hidratos”,“kcal”,“proteinas”,“grasas”,“clus”) names(grupos)<-nombres aggregate(grupos\(inter_hidratos,list(grupos\)clus),mean) aggregate(grupos\(kcal,list(grupos\)clus),mean) aggregate(grupos\(proteinas,list(grupos\)clus),mean) aggregate(grupos\(grasas,list(grupos\)clus),mean)
