Ejercicio \(N^{o}1\) - Isla Galapagos (Regresion Multiple)

Para este primer ejercicio, estudiaremos el comportamiento de 30 especies de plantas que habitan en las islas Galapagos, representados en la siguiente base de datos:

Ahora bien, con base en estos datos visualizados y suponiendo que estas observaciones tienen un comportamiento aleatorio, seria bastante interesante ver un analisis bivariado con sus graficas y sus correlaciones para estos comportamientos, quedandonos de la siguiente manera:

Species Endemics Area Elevation Nearest Scruz Adjacent
Species 1.0000000 0.9708765 0.6178431 0.7384867 -0.0140941 -0.1711424 0.0261664
Endemics 0.9708765 1.0000000 0.6169791 0.7929044 0.0059943 -0.1542643 0.0826580
Area 0.6178431 0.6169791 1.0000000 0.7537349 -0.1111032 -0.1007849 0.1800376
Elevation 0.7384867 0.7929044 0.7537349 1.0000000 -0.0110770 -0.0154383 0.5364578
Nearest -0.0140941 0.0059943 -0.1111032 -0.0110770 1.0000000 0.6154104 -0.1162479
Scruz -0.1711424 -0.1542643 -0.1007849 -0.0154383 0.6154104 1.0000000 0.0516607
Adjacent 0.0261664 0.0826580 0.1800376 0.5364578 -0.1162479 0.0516607 1.0000000

Con esta informacion obtenida a partir de lo realizado anteriormente, podemos percibir que las especies (Species) tiene una muy fuerte correlacion con el numero de especies endemicas, equivalente a un 0.9708, es decir, que la cantidad de plantas existentes son casi que propiamente autoctonas de la isla, por otra lado, tambien se presenta una correlacion medianamente fuerte y positiva con la elevacion u altura, que equivale a un 0.7384, es decir, que a mayor altura dentro de la zona de la isla se encontrar mayor deiversidad de especies y por ultimo, tambien tiene una correlacion positiva razonable con el area donde habitan, el cual equivale a un 0.6178, lo que nos lleva a decir que mas de la mitad de las especies observadas estan en area compacta o proximas unas entre otras.

Ahora bien, para el caso de lo endemico (Endemics) se sabe que tiene una correlacion positiva muy fuerte con las especies, debido a lo anteriormente expresado, tambien esta observacion tiene una correlacion positiva un poco fuerte con la elevacion, equivalente al 0.7929, es decir, que entre mayor altura que tenga una isla por encima del mar, encontraremos una buena cantidad de especies endemicas y por ultimo tambien presenta una razonable correlacion positiva con el area, es decir, podemos hallar mas plantas endemicas en areas mas compactas.

Luego, en el caso de el area (Area) sabemos que existen correlaciones positivas bastante razonables entre las especies y lo endemico, por lo anteriormente descrito y si seguimos analizando, podemos ver que existe un correlacion positiva un poco fuerte con la elevacion, equivalente al 0.7537, queriendonos decir, que entre mayor altura haya en una isla se podran tener en un area compacta una gran cantidad de especies de plantas observadas.

Mientras que por el lado de la elevacion (Elevation) ya sabemos por anterioridad que presenta bastante fuertes correlaciones positivas entre las epecies, lo endemico y el area; todo esto segun lo anteriormente descrito. Pero por el lado de la adyacencia, se tiene una correlacion positiva que equivale al 0.5364, permitiendonos saber que entre mayor elevacion haya dentro de una isla, se pueden tener las mismas especies en areas de las islas adyacentes.

Si bien, para el caso de la cercania (Nearest), solo tenemos una correlacion positiva razonable con la observacion tomada para la isla de Santa cruz (Scruz) y viceversamente, con equivalente del 0.6154, llevandonos a inferir que debido a que estamos cerca en “Km” a la isla ya mencionada, se pueden obtener algunas variedades de las especies observadas en tabla o base de datos principal.

Por ultimo, para el caso de la adyacencia (Adjacent) solo tenemos una unica correlacion positiva con la elevacion que ya la definimos anteriormente. Habiendo concluido este primer analisis, que tal si para estos datos, estimamos un modelo de regresion multiple para hallar algunos p-valores, coeficientes significativos y entre otras cosas:

## 
## Call:
## lm(formula = Endemics ~ Species + Elevation + Area + Adjacent, 
##     data = gala)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -10.0413  -2.7886  -0.5383   1.9451  13.8170 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.304903   1.570251   2.105  0.04554 *  
## Species      0.181881   0.018174  10.007 3.16e-10 ***
## Elevation    0.025515   0.007490   3.407  0.00223 ** 
## Area        -0.004063   0.002055  -1.977  0.05917 .  
## Adjacent    -0.003962   0.002085  -1.900  0.06900 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.654 on 25 degrees of freedom
## Multiple R-squared:  0.9631, Adjusted R-squared:  0.9572 
## F-statistic: 163.2 on 4 and 25 DF,  p-value: < 2.2e-16

Pues bien, en virtud de esta informacion presentada en nuestra tabla de arriba, podemos decir que tenemos un modelo significativo debido a que presenta un P-valor igual a \(2.2e-16\) lo cual nos lleva a aceptar este modelodado que no es por el azar, implicando que al menos uno de los coeficientes parciales de esta regresión es distinto de 0 u esta relacionado algun predictor con nuestra coeficiente de interes. Tambien podemos encontrar ahi en la tabla, que nuestro valor \(R^{2}\) (Coeficiente de determinacion) es igual a \(0.9631\) lo cual nos lleva a comprende que existe la manera de explicar el \(96.31\%\) de la variabilidad observada que tiene las plantas endemicas.

Finalmente con todos estos datos recoiplados, intentemos realizar algunas prediciones para este modelo propuesto con regresion multiple, teniendo asi que una variable dependiente “Y” y varias varibles independientes “X”, tengan el comportamiento de prediccion de “Y” convirtiendolo en una transformacion lineal de variables independientes, proporcionandos en ultimas un modelo con la siguiente ecuacion: \(Endemics=0.1818(Species)+ 0.0255(Elevation)-0.0040(Area)-0.0039(Adjacent) + 3.3049 +Error\). Luego, si realizamos una predicion general con esta ecuacion para este modelo, tendriamos que para cada una de las islas, que se encuentran en las islas galapagos, esta ajustado en \(95\%\) como se ve a continuacion:

fit lwr upr
Baltra 22.573095 10.5430251 34.60317
Bartolome 9.451732 -2.7856871 21.68915
Caldwell 6.755360 -5.2098636 18.72058
Champion 9.024510 -2.9964545 21.04547
Coamano 2.052145 -10.5326732 14.63696
Daphne.Major 9.606419 -2.3219803 21.53482
Daphne.Minor 10.041301 -1.9025071 21.98511
Darwin 9.389543 -2.5733620 21.35245
Eden 6.500302 -5.4760229 18.47663
Enderby 6.525264 -5.4431635 18.49369
Espanola 25.760391 13.7869822 37.73380
Fernandina 37.261930 21.0095845 53.51428
Gardner1 14.871051 2.6968411 27.04526
Gardner2 10.002307 -2.0808648 22.08548
Genovesa 11.935765 -0.1192718 23.99080
Isabela 88.488574 72.0797118 104.89744
Marchena 20.570552 8.5909251 32.55018
Onslow 4.306113 -7.7327796 16.34501
Pinta 41.290954 27.6171831 54.96472
Pinzon 34.561034 22.4365606 46.68551
Las.Plazas 7.785578 -4.1659795 19.73714
Rabida 23.113228 11.2216829 35.00477
SanCristobal 70.257228 57.7036329 82.81082
SanSalvador 67.183037 54.2949634 80.07111
SantaCruz 102.431269 87.9892425 116.87330
SantaFe 21.090109 9.2128850 32.96733
SantaMaria 70.775975 57.9301298 83.62182
Seymour 14.951536 3.0537554 26.84932
Tortuga 10.884706 -1.0636546 22.83307
Wolf 13.558989 1.5269670 25.59101

Como ejemplo, esta tabla nos quiere decir que con una fiablidad del \(95\%\) se puede explicar que todo el modelo para el caso de la isla “Baltra” esta ajustado en un intervalo de creciemiento de \([10.5430,34.6031]\) para las plantas endemicas, pero con una gran tendencia de mayor ajuste en \(22.5730\). Ahora bien, si deseamos hacer un poco mas especifico este ejercicio academico, en el caso de nuestras plantas en las islas galapagos, tendriamos que si escogemos 2 cantidades para cualquier varibale de nuestro modelo, es decir, \(Especies, Elevation, Area, Adjacent =2\) tendriamos que las plantas endemicas, con esta cantidad dada, crece ajustadamente como esta la tabla siguiente:

fit lwr upr
3.703646 -8.380397 15.78769

Ejercicio \(N^{o}2\) - Moluscos (Diseño de Experimentos )

Para este segundo ejercicio, estudiaremos el comportamiento de 2 tipos de moluscos A y B que fueron sometidos a tres concentraciones distintas de agua de mar \((100\%, 75\%,50\%)\) y se observo el consumo de oxigeno segun las medidas de proporcion de \(O_{2}\) por unidad de peso seco del molusco, quedando plasmada en la siguiente tabla:

para nuestro primer caso, relizaremos algunos analisis exploratorios, teniendo en cuenta las tres variables de esta base de datos las cuales son concentracion de agua (c_agua), moluscos y consumo de oxigeno (cons_o), obteniendo asi, un estudio primerizo de medias y variaciones para la concentracion de agua, siendo lo siguiente:

##   molusco c_agua
## 1       A     75
## 2       B     75
##   molusco   c_agua
## 1       A 20.85144
## 2       B 20.85144

En este caso, vemos que para la variable de la concentracion de agua, se tiene que ambas poblaciones A y B, son iguales, es decir, que \(\mu_{A}=\mu_{B}\) y de igual manera, se presenta en la varianza que \(\delta_{A}=\delta_{B}\); Tal como lo pedemos verificar en el grafico de cajas, conlcuyendo asi para esta parte, que el consumo de agua entre cada molusco (A,B) son iguales.

##   molusco    cons_o
## 1       A 10.000417
## 2       B  8.609167
##   molusco   cons_o
## 1       A 3.268661
## 2       B 4.002435

Y para este otro caso, vemos que para la variable de la concentracion de oxigeno si cambia, es decir, se tiene que para la media de la poblacion A es mayor que la de la poblacion B, teniendo que \(\mu_{A} > \mu_{B}\) y para el punto de la varianza se tiene que \(\delta_{A} < \delta_{B}\); Todo esto, lo pedemos verificar en el grafico de cajas presentado arriba, conlcuyendo asi para esta parte, que ambos son casi similares, pero teniendo un interpretacion de que el molusco A consume un promedio mayor de oxigeno en terminos mas cortos de tiempo que el molusco B.

Luego, si hacemos un test de normalidad para cada molusco segun sus variables, tenemos que para el primero, es decir, en la varibale de concentracion de agua (c_agua) tenemos los siguientes graficos:

Esto nos quiere decir, que los datos en la concentracion de agua (c_agua) no tiene una forma u comportamiento con curva normal, tal como lo podemos presenciar en nuestro histograma del comienzo de estas graficas o tambien lo podemos ver reflejado en la grafica de cuantiles, interpretando de aqui que los datos de los cuantiles teoricos en cada uno de los moluscos, son muy distantes a los cuantiles de la muestra implicando asi no normalidad. Por el otro lado, si intentamos hacer el mismo experimento de normalidad para la concentracion de oxigeno, tendriamos las soguientes graficas:

Intertpretando para este caso, en los datos de concentracion de oxigeno (cons_o) se puede ver que en los histogramas de moluscos A se tiende a tener una forma u comportamiento con curva normal, a expecion de los moluscos B, por otro lado y de igual manera tambien lo podemos ver reflejado en la grafica de cuantiles, donde se interpreta que cada uno de los datos de los cuantiles teoricos para el molusco A, son bastante relacionados a los cuantiles de la muestra del mismo molusco implicando asi normalidad de los datos sobre este tipo. Para mayor rectificaion todo de esto, generemos un estudio de Kolmogorov-Smirnov con una significancia de $=0.05 $, obtiendo lo siguiente:

## datos$molusco: A
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  x$cons_o
## D = 0.11713, p-value = 0.5364
## 
## ------------------------------------------------------------ 
## datos$molusco: B
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  x$cons_o
## D = 0.20176, p-value = 0.01265

Dado, que el P-value de los moluscos A es mayor a nuestra significancia \(\alpha\), se acepta nuestra hipotesis nula (\(H_{0}:\) Los datos presentan comportamiento normal), mientras que por el caso para los moluscos B, como el resultado es menor a nuestra significancia, se rechaza \(H_{0}\) implicando no normalidad.

Por ultimo, si generamos un estudio ANOVA para los datos con comportamineto normal, tendriamos lo siguiente:

##               Df Sum Sq Mean Sq F value Pr(>F)
## datos$molusco  1   23.2   23.23    1.74  0.194
## Residuals     46  614.2   13.35

Dado que el p-value es superior a mi significancia de \(\alpha=0.05\), no hay evidencias suficientes para considerar que al menos dos medias son distintas; tambien la representación gráfica de los residuos nos muestra que hay una falta de homocedasticidad (gráfico 1) y por la parte del qqplot (cuantiles) los residuos se distribuyen muy cercanos a la linea de la normal (gráfico 2).

Para concluir, Como era de esperar no se encuentra alguna diferencia significativa entre ningún par de medias.

Ejercicio \(N^{o}3\) - Cafe ( Análisis de Componentes Principales )

Para este nuevo ejercicio, se seleccionaron 10 tipos de cafe con algunas evaluaciones en caracteristicas de calidad que fueron dadas por algunos expertos catadores de cafe, de los cuales evaluaron en una escala de 0 a 10, factores como “intensidad”, “aroma” y entre otras, para ello, miremos que tipo tenemos:

Ahora, si hacemos una descomposicion espectral para hallar nuestra matriz de varianzas-covarianza, tendriamos lo siguiente:

Intensidad Aroma Cuerpo Acidez Amargo Astringencia
Intensidad 0.3111156 0.2865333 0.1323644 0.1608889 0.1023600 0.0893733
Aroma 0.2865333 0.3811556 0.1487111 0.1485333 0.1152889 0.0836889
Cuerpo 0.1323644 0.1487111 0.0791289 0.0628889 0.0485422 0.0355467
Acidez 0.1608889 0.1485333 0.0628889 0.1110222 0.0589778 0.0414222
Amargo 0.1023600 0.1152889 0.0485422 0.0589778 0.0688044 0.0299067
Astringencia 0.0893733 0.0836889 0.0355467 0.0414222 0.0299067 0.0421378
Intensidad Aroma Cuerpo Acidez Amargo Astringencia
Intensidad 1.0000000 0.8320763 0.8436124 0.8656857 0.6996183 0.7805690
Aroma 0.8320763 1.0000000 0.8562977 0.7220509 0.7119149 0.6603602
Cuerpo 0.8436124 0.8562977 1.0000000 0.6709674 0.6578757 0.6155956
Acidez 0.8656857 0.7220509 0.6709674 1.0000000 0.6748002 0.6056094
Amargo 0.6996183 0.7119149 0.6578757 0.6748002 1.0000000 0.5554231
Astringencia 0.7805690 0.6603602 0.6155956 0.6056094 0.5554231 1.0000000

En nuestra primera matriz tenemos la matriz de varianzas, la cual nos indica cual es el porcentaje de variacion que se encuentra de una variable respecto a la otra, es decir, por ejemplo que tanta varaibilidad se presenta entre la intesidad y el aroma y asi sucevamente con cada una de las otras variables; Para la segunda matriz, tenemos la matriz de correlacion en ella podemos ver que tanto porcentaje de relaccion existe entre sus variables, tal como hicimos en el Ejercicio \(N^{o}1\) . Para una mejor ilustracion de esto, mostrare una grafico de cajas, siendo asi:

Pues bien, a partir de esto, si hacemos un estudio de inercia para nuestros datos, este nos mostrara el comportamiento especifico del diagrama de valores propios que prodiamos llegar a visualizar en un analisis de componenentes principales; por ende, lo que podriamos obtener es lo siguiente:

##        inertia      cum    cum(%)
## Ax1 4.60147661 4.601477  76.69128
## Ax2 0.46937103 5.070848  84.51413
## Ax3 0.38451212 5.455360  90.92266
## Ax4 0.34461612 5.799976  96.66626
## Ax5 0.14487978 5.944856  99.08093
## Ax6 0.05514434 6.000000 100.00000

Con este analisis, nos es suficiente tomar los dos primero ejes, debido que esta funcion representa una combinacion lineal de nuestras variables de interes, lo cual nos lleva a tener una exactitud de nuestro estudio en aproximadamente el \(84\%\) para la representacion de nuestros datos. Luego si deseamos ver como es nuestra correlacion entre nuestras variables, generemos el siguiente esquema circular:

Dentro de este circulo de correlacion, como su nombre lo dice, podemos ver que existe una alta correlacion o dependencia entre todas las variables debido a que se encuentra orientadas hacia el mismo sentido del semi-circulo, aunque obviamente hay ciertas variables que tienen mayor relacion que otras, por ejemplo la “Acidez” y el “Aroma”, aunque no se vea la linea del aroma esta presente en la misma de acidez, lo cual implica a una gran dependencia de esa variable. Por otro lado, si verificamos como son su cararacteristias tendriamos el siguiente esquema:

De aqui, podemos decir que ciertos tipos de cafe tienen gran semejanza en sus caracteristicas, como un ejemplo pueden ser los cafes Oscuros con 40% de Cebada (O40C), con los cafes Oscuros con 20% de Maiz y los cafes Claros con 20% de Cebada. Por ultimo si hacemos una combinacion de las dos anteriores, podriamos sacar unas mejores conclusiones para esta parte.

Con este ultimo esquema para esta parte, podemos apreciar las caracteristicas de los cafes (Excl,ExOs,O20C,C20C,O20M) tienen una gran finidad con las variables de nuestro interes para este estudio, pero por ejemplo, tambien podemos analizar que los cafes Oscuro con 20% de Cebada y el Excelso Claro presentan una mejor intensidad respecto a los otros cafes, aunque entre ellos dos el de mejor intensidad es el Excelso Claro, otro ejemplo, el cafe Oscuro con 40% de Maiz es bastante menos amargo que todos los demas cafes existentes.

Ahora, nuevamente si selecionemos estos 10 tipos de cafe pero con algunas variables estudiadas por ciertos expertos de manera quimica, s tendria las siguientes variables como lo es “nivel de cafeina”, “densidades aparentes”, “pH”, entre otras, para ello, miremos la siguiente tabla unida a la anterior:

Intensidad Aroma Cuerpo Acidez Amargo Astringencia Color DA pH AcidezT Cafeina AcidosCl
ExCl 7.72 7.00 6.84 5.02 5.04 5.36 298 385.1 5.02 11.7 1.40 2.74
C40M 6.02 5.42 6.22 4.34 4.60 4.78 361 481.3 5.11 6.5 0.81 1.62
C40C 6.48 5.98 6.44 4.58 4.82 4.80 321 422.6 5.12 5.8 0.80 1.61
C20M 6.82 6.44 6.70 4.62 4.38 4.80 335 444.3 5.05 8.8 1.10 2.20
C20C 7.08 6.20 6.72 4.78 4.94 4.90 314 368.7 5.04 9.3 1.10 2.19
ExOs 7.66 7.42 6.98 5.12 5.18 5.22 186 346.6 5.31 8.7 1.35 2.30
O40M 6.18 5.82 6.26 4.00 4.46 4.96 278 422.6 5.45 4.9 0.80 1.35
O40C 6.84 6.56 6.82 4.30 4.96 4.84 238 403.0 5.33 5.2 0.79 1.36
O20M 6.66 7.06 6.70 4.64 5.00 4.90 226 368.7 5.33 6.7 1.10 1.83
O20C 7.00 6.70 7.04 4.60 4.88 5.18 210 368.7 5.31 7.0 1.05 1.83

Luego, si hacemos para este caso de variables quimicas una descomposicion espectral para hallar su matriz de varianzas-covarianza, tendriamos esto:

Color DA pH AcidezT Cafeina AcidosCl
Color 3450.9000000 1931.542222 -6.4765556 13.7200000 -4.3422222 0.2076667
DA 1931.5422222 1733.542667 -1.7230222 -29.9595556 -5.9455556 -7.6315333
pH -6.4765556 -1.723022 0.0238900 -0.2206889 -0.0102556 -0.0416567
AcidezT 13.7200000 -29.959556 -0.2206889 4.5360000 0.4277778 0.9396889
Cafeina -4.3422222 -5.945556 -0.0102556 0.4277778 0.0518000 0.0953556
AcidosCl 0.2076667 -7.631533 -0.0416567 0.9396889 0.0953556 0.2006678
Intensidad Aroma Cuerpo Acidez Amargo Astringencia
Intensidad 1.0000000 0.8320763 0.8436124 0.8656857 0.6996183 0.7805690
Aroma 0.8320763 1.0000000 0.8562977 0.7220509 0.7119149 0.6603602
Cuerpo 0.8436124 0.8562977 1.0000000 0.6709674 0.6578757 0.6155956
Acidez 0.8656857 0.7220509 0.6709674 1.0000000 0.6748002 0.6056094
Amargo 0.6996183 0.7119149 0.6578757 0.6748002 1.0000000 0.5554231
Astringencia 0.7805690 0.6603602 0.6155956 0.6056094 0.5554231 1.0000000

En su interpretacion, tendriamos que la primera matriz, es decir, la matriz de varianzas, nos indica cual es el porcentaje de variacion que se encuentra de una variable respecto a la otra, es decir, por ejemplo que tanta varaibilidad se presenta entre la acidez total y el color del cafe y asi sucevamente con cada una de las otras variables; Para la segunda matriz, tenemos com lo mencianmos en el anterior desarrollo de la otra parte, siedno esto la matriz de correlacion en ella podemos ver que tanto porcentaje de relaccion o depenedencia existen entre sus variables, siendo esto de la misma manera que en el Ejercicio \(N^{o}1\).

Ahora bien, a partir de esto, si hacemos un estudio de inercia para nuestros datos quimicos,tendriamos comportamiento especifico del diagrama de valores propios que prodiamos llegar a visualizar en un analisis de componenentes principales; por ende, lo que podriamos obtener es lo siguiente:

##         inertia      cum    cum(%)
## Ax1 3.414375541 3.414376  56.90626
## Ax2 2.308806576 5.723182  95.38637
## Ax3 0.205525568 5.928708  98.81179
## Ax4 0.054400393 5.983108  99.71847
## Ax5 0.015222776 5.998331  99.97218
## Ax6 0.001669146 6.000000 100.00000

Con este analisis, yo escogeria tomar perfectamente los dos primero ejes, debido a que como lo mencione en la anterior parte de este mismo ejercicio, esta funcion presenta una combinacion lineal de nuestras variables de interes, lo cual nos lleva a tener una exactitud de nuestro estudio en aproximadamente el \(95\%\) para la representacion de nuestros datos. Y asi, si deseamos ver como es nuestra correlacion entre nuestras variables, generemos el siguiente esquema circular:

Dentro de este circulo de correlacion, como su nombre lo dice, podemos ver que existe una alta correlacion o dependencia entre las variables de Cafeina, AcidosCl y AcidezT ya que se encuentra orientadas hacia el mismo sentido del semi-circulo, aunque obviamente hay ciertas variables que tienen mayor relacion que otras, por ejemplo la “AcidezT” y los “AcidosT”, implicando que hay una gran dependencia de esa variable con la otra. Por otro lado, si deseamos verificar como son sus cararacteristicas tendriamos el siguiente esquema:

De aqui, podemos decir que ciertos tipos de cafe en sus quimicos tienen gran semejanza en sus caracteristicas, como un ejemplo pueden ser los cafes Oscuros con 20% de Maiz (O20M) y Oscuros con 20% de Cebada (O20C) con una alto parecido en sus caracteristicas. Por ultimo, si hacemos una combinacion de los dos esquemas anteriores, podriamos sacar unas mejores conclusiones para esta parte, siendo esto de la siguiente manera:

Con este ultimo esquema para esta ultima parte de nuestro ejercicio, podemos apreciar las caracteristicas de los cafes (Excl,ExOs,C20C,C20M) tienen una mayor finidad en lo analizado quimicamente como cafeina, acidosCl y AcidezT, para ejemplo todo este esquema, visualicemos que los cafes Oscuro con 20% de Cebada (O20C) y Oscuros con 20% de Maiz (O20M) presentan un menor color y con gran cantidad de pH respecto a los otros cafes, aunque viendolos bien, son casi identicos, como otro ejemplo, el cafe Claro con 40% de Maiz (C40M) tiene una gran densidad aparente (DA) y color respecto a todos los demas cafes analizados en el laboratorio.

Ejercicio \(N^{o}4\) - ( Clasificación usando FactoCLass )

En este ultimo ejercicio, lo que haremos sera estudiar nuevamente la base de datos de la isla galapagos que se encuentra en el Ejercicio \(N^{o}1\), para ello veremos el comportamiento de conglomeracion que permite idenficar cual de las islasson mas similares y de igual manera que caracteristicas tienen dichas islas, obteniendo asi para esto el siguiente diagrama de valores propios:

Habiendo obtenido esto, a partir de nuestros datos de las islas galapagos, podemos escoger cual es el numero de ejes para nuestro analisis de componentes principales. Para mi interes, escogere las primeras \(3\) columnas que equivalen al \(87.32\%\), que significa la retencion de la cantidad de la inercia para nuestro estudio de conglomeracion, esto lo obtuve en base al siguiente codigo:

require(FactoClass)
val= dudi.pca(gala, scannf = FALSE,nf=3)
acp_inertia=inertia.dudi(val)
acp_inertia$tot.inertia
##        inertia      cum    cum(%)
## Ax1 3.35378815 3.353788  47.91126
## Ax2 1.60048569 4.954274  70.77534
## Ax3 1.15814495 6.112419  87.32027
## Ax4 0.48200107 6.594420  94.20600
## Ax5 0.32350624 6.917926  98.82752
## Ax6 0.06190839 6.979834  99.71192
## Ax7 0.02016551 7.000000 100.00000

Consiguientemente a esto, escogemos el numero de ejes que se utilizarana para la clasificacion y ahi si, finalmente seleccionamos el numero de clases deseadas para la particion, todo esto surgiendo desde el diagrama de indices y dendogramos, mostranodose en conlcusion una selecion de 2 clases para nuestro siguiente dendograma, obteniendo: