Practica 1

Los siguientes datos se refieren a la altura de una planta X1 (en m.), su longitud X2 (en cm), su área X3 (en cm2) y su peso X4 (en gm.), de una variedad de durazno. Los datos (matriz X) se presentan en la siguiente tabla:

x1 = c(1.38, 1.40, 1.42,1.54, 1.30, 1.55,1.50, 1.60, 1.41, 1.34)
x2 = c(51, 60, 69, 73, 56, 75, 80, 76, 58, 70)
x3= c(4.8, 5.6, 5.8, 6.5, 5.3, 7, 8.1, 7.8, 5.9, 6.1)
x4= c(115, 130, 138, 148, 122, 152, 160, 155, 135, 140)
X = cbind(x1,x2,x3,x4)
X
##         x1 x2  x3  x4
##  [1,] 1.38 51 4.8 115
##  [2,] 1.40 60 5.6 130
##  [3,] 1.42 69 5.8 138
##  [4,] 1.54 73 6.5 148
##  [5,] 1.30 56 5.3 122
##  [6,] 1.55 75 7.0 152
##  [7,] 1.50 80 8.1 160
##  [8,] 1.60 76 7.8 155
##  [9,] 1.41 58 5.9 135
## [10,] 1.34 70 6.1 140

Indicadores Estadísticos

Calcule o estime: 1.- la media para la variable altura de planta X1.

2.- la varianza muestral para la variable altura de planta X1.

3.- la covarianza muestral entre la variable altura de planta X1 y la variable longitud X2.

4.- El coeficiente de correlación entre las dos variables anteriores.

5.- la matriz de covarianzas S y la matriz de correlación R; Use la matriz D.

6.- La varianza total y la varianza generalizada. Concluya e interprete.

Solución

Punto 1

mean(x1) ## Media de x1
## [1] 1.444
Promedios = c(mean(x1),mean(x2),mean(x3),mean(x4))
Promedios ## vector de medias de X
## [1]   1.444  66.800   6.290 139.500

Punto 2

var(x1) ## Varianza de x1
## [1] 0.009693333
sd(x1) ## Desviación Estándar
## [1] 0.09845473

Punto 3

cov(x1,x2) ## covarianza muestral entre x1 y x2
## [1] 0.7131111

Punto 4

cor(x1,x2) ## correlación entre x1 y x2
## [1] 0.7368551

Punto 5

S= cov(X) ## matriz de covarianza
S
##             x1          x2          x3        x4
## x1 0.009693333   0.7131111  0.08282222   1.15000
## x2 0.713111111  96.6222222  9.50888889 138.55556
## x3 0.082822222   9.5088889  1.13433333  14.88333
## x4 1.150000000 138.5555556 14.88333333 212.05556
R= cor(X) ## matriz de correlación
R
##           x1        x2        x3        x4
## x1 1.0000000 0.7368551 0.7898415 0.8021146
## x2 0.7368551 1.0000000 0.9082824 0.9679671
## x3 0.7898415 0.9082824 1.0000000 0.9596327
## x4 0.8021146 0.9679671 0.9596327 1.0000000
library(psych)
corPlot(X, cex = 1, main = "Correlation matrix")

Punto 6

VT = sum(diag(S)) ## Varianza Total
VT
## [1] 309.8218
VG =det(S) ## Varianza Generalizada
VG
## [1] 0.3402605

Calculo de distancias Euclidea y Mahalanobis

Distancias Euclidea entre todos las observaciones de la matriz Z

Para ser comparables las distancias se decide estandarizar las matriz X obteniendo \(Z= \frac{X_{j}-\mu_{j}}{\sigma_{j}}\)

z1 = scale(x1)*sqrt(10/9)
z2 = scale(x2)*sqrt(10/9)
z3 = scale(x3)*sqrt(10/9)
z4 = scale(x4)*sqrt(10/9)
Z = cbind(z1,z2,z3,z4)
dist(Z, method="euclidean")
##            1         2         3         4         5         6         7
## 2  1.6682768                                                            
## 3  2.7677773 1.1626849                                                  
## 4  4.1276020 2.5847986 1.6848003                                        
## 5  1.2339875 1.3242942 2.2760252 3.8572544                              
## 6  4.6744543 3.1019972 2.1883037 0.6214324 4.3430473                    
## 7  5.7095725 4.0723303 3.1373202 2.0022463 5.1433878 1.4472819          
## 8  5.4712361 3.9426733 3.1160488 1.5583000 5.1714878 0.9859618 1.2447515
## 9  1.9868962 0.5259384 1.2082465 2.4005673 1.6343558 2.8756825 3.8091979
## 10 3.0438399 1.5269127 0.9242426 2.2760964 2.1821728 2.6249659 3.1777958
##            8         9
## 2                     
## 3                     
## 4                     
## 5                     
## 6                     
## 7                     
## 8                     
## 9  3.6736689          
## 10 3.4889102 1.5452433

Se puede observar en la anterior tabla que los arboles más cercanos son el 9 y el 2, los cuales tienen una distancia euclidea de 0.52.

Distancia Mahalanobis

mahalanobis(Z,center=c(0,0,0,0), cov=cov(Z))
##  [1] 4.962643 0.512609 2.586287 3.043581 3.041331 1.570419 4.716541 4.339042
##  [9] 7.298924 3.928624

Análisis de Componentes Principales

library(FactoMineR)
library(factoextra)
## Loading required package: ggplot2
## 
## Attaching package: 'ggplot2'
## The following objects are masked from 'package:psych':
## 
##     %+%, alpha
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
resPCA.arboles <- PCA(X, graph = FALSE)
fviz_pca_biplot(resPCA.arboles)

Con base en el gráfico biplot se observa que las variables x2, x3 y x4 son las más correlacionadas. Además se observan algunas características interesantes para algunos árboles, por ejemplo: el árbol 7 es aquel con mejores condiciones en longitud, área y peso (pulpa) en gramos, debido a que es quién presenta valores más altos en dichas variables. El árbol 1 es quién presenta menores valores en las variables x3, x3 y x4, es decir menor pulpa en gramos. El árbol 3 presenta carectísticas promedio.

resCluster <- HCPC(resPCA.arboles, nb.clust=-1)

fviz_cluster(resCluster)

El clúster 3 presenta los árboles con las mejores características, el clúster 2 árboles con caracteristicas regulares y el clúster 1 con las características peores según las variables de estudio.