Los siguientes datos se refieren a la altura de una planta X1 (en m.), su longitud X2 (en cm), su área X3 (en cm2) y su peso X4 (en gm.), de una variedad de durazno. Los datos (matriz X) se presentan en la siguiente tabla:
x1 = c(1.38, 1.40, 1.42,1.54, 1.30, 1.55,1.50, 1.60, 1.41, 1.34)
x2 = c(51, 60, 69, 73, 56, 75, 80, 76, 58, 70)
x3= c(4.8, 5.6, 5.8, 6.5, 5.3, 7, 8.1, 7.8, 5.9, 6.1)
x4= c(115, 130, 138, 148, 122, 152, 160, 155, 135, 140)
X = cbind(x1,x2,x3,x4)
X
## x1 x2 x3 x4
## [1,] 1.38 51 4.8 115
## [2,] 1.40 60 5.6 130
## [3,] 1.42 69 5.8 138
## [4,] 1.54 73 6.5 148
## [5,] 1.30 56 5.3 122
## [6,] 1.55 75 7.0 152
## [7,] 1.50 80 8.1 160
## [8,] 1.60 76 7.8 155
## [9,] 1.41 58 5.9 135
## [10,] 1.34 70 6.1 140
Calcule o estime: 1.- la media para la variable altura de planta X1.
2.- la varianza muestral para la variable altura de planta X1.
3.- la covarianza muestral entre la variable altura de planta X1 y la variable longitud X2.
4.- El coeficiente de correlación entre las dos variables anteriores.
5.- la matriz de covarianzas S y la matriz de correlación R; Use la matriz D.
6.- La varianza total y la varianza generalizada. Concluya e interprete.
mean(x1) ## Media de x1
## [1] 1.444
Promedios = c(mean(x1),mean(x2),mean(x3),mean(x4))
Promedios ## vector de medias de X
## [1] 1.444 66.800 6.290 139.500
var(x1) ## Varianza de x1
## [1] 0.009693333
sd(x1) ## Desviación Estándar
## [1] 0.09845473
cov(x1,x2) ## covarianza muestral entre x1 y x2
## [1] 0.7131111
cor(x1,x2) ## correlación entre x1 y x2
## [1] 0.7368551
S= cov(X) ## matriz de covarianza
S
## x1 x2 x3 x4
## x1 0.009693333 0.7131111 0.08282222 1.15000
## x2 0.713111111 96.6222222 9.50888889 138.55556
## x3 0.082822222 9.5088889 1.13433333 14.88333
## x4 1.150000000 138.5555556 14.88333333 212.05556
R= cor(X) ## matriz de correlación
R
## x1 x2 x3 x4
## x1 1.0000000 0.7368551 0.7898415 0.8021146
## x2 0.7368551 1.0000000 0.9082824 0.9679671
## x3 0.7898415 0.9082824 1.0000000 0.9596327
## x4 0.8021146 0.9679671 0.9596327 1.0000000
library(psych)
corPlot(X, cex = 1, main = "Correlation matrix")
VT = sum(diag(S)) ## Varianza Total
VT
## [1] 309.8218
VG =det(S) ## Varianza Generalizada
VG
## [1] 0.3402605
Para ser comparables las distancias se decide estandarizar las matriz X obteniendo \(Z= \frac{X_{j}-\mu_{j}}{\sigma_{j}}\)
z1 = scale(x1)*sqrt(10/9)
z2 = scale(x2)*sqrt(10/9)
z3 = scale(x3)*sqrt(10/9)
z4 = scale(x4)*sqrt(10/9)
Z = cbind(z1,z2,z3,z4)
dist(Z, method="euclidean")
## 1 2 3 4 5 6 7
## 2 1.6682768
## 3 2.7677773 1.1626849
## 4 4.1276020 2.5847986 1.6848003
## 5 1.2339875 1.3242942 2.2760252 3.8572544
## 6 4.6744543 3.1019972 2.1883037 0.6214324 4.3430473
## 7 5.7095725 4.0723303 3.1373202 2.0022463 5.1433878 1.4472819
## 8 5.4712361 3.9426733 3.1160488 1.5583000 5.1714878 0.9859618 1.2447515
## 9 1.9868962 0.5259384 1.2082465 2.4005673 1.6343558 2.8756825 3.8091979
## 10 3.0438399 1.5269127 0.9242426 2.2760964 2.1821728 2.6249659 3.1777958
## 8 9
## 2
## 3
## 4
## 5
## 6
## 7
## 8
## 9 3.6736689
## 10 3.4889102 1.5452433
Se puede observar en la anterior tabla que los arboles más cercanos son el 9 y el 2, los cuales tienen una distancia euclidea de 0.52.
mahalanobis(Z,center=c(0,0,0,0), cov=cov(Z))
## [1] 4.962643 0.512609 2.586287 3.043581 3.041331 1.570419 4.716541 4.339042
## [9] 7.298924 3.928624
library(FactoMineR)
library(factoextra)
## Loading required package: ggplot2
##
## Attaching package: 'ggplot2'
## The following objects are masked from 'package:psych':
##
## %+%, alpha
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
resPCA.arboles <- PCA(X, graph = FALSE)
fviz_pca_biplot(resPCA.arboles)
Con base en el gráfico biplot se observa que las variables x2, x3 y x4 son las más correlacionadas. Además se observan algunas características interesantes para algunos árboles, por ejemplo: el árbol 7 es aquel con mejores condiciones en longitud, área y peso (pulpa) en gramos, debido a que es quién presenta valores más altos en dichas variables. El árbol 1 es quién presenta menores valores en las variables x3, x3 y x4, es decir menor pulpa en gramos. El árbol 3 presenta carectísticas promedio.
resCluster <- HCPC(resPCA.arboles, nb.clust=-1)
fviz_cluster(resCluster)
El clúster 3 presenta los árboles con las mejores características, el clúster 2 árboles con caracteristicas regulares y el clúster 1 con las características peores según las variables de estudio.