Punto 1 - Regresión Lineal Múltiple

Los datos siguientes son número de especies de plantas en 30 islas de Galápagos (Faraway, 2005). Además del número de especies, contiene las variables Endemic (número de especies endémicas), Area (km2), Elevation (altura máxima, m), Nearest (distancia a la isla más cercana, km), Scruz (distancia hasta la isla Santa Cruz, km), Adjacent (área de la isla adyacente, km2). Suponiendo que las 30 observaciones se comportan como una muestra aleatoria, vamos a estimar un modelo de regresión múltiple para estudiar qué variables nos permiten explicar mejor el número de especies.

  1. Realice un análisis bivariado para cada variable (incluir gráfico y coeficiente de correlación) interpretar.

Se hace un análisis de correlación entre el número de especies endémicas y el número de especies, se obtiene el siguiente grafico de dispersión y el respectivo coeficiente de correlación.

## Coeficiente = 0.970876515514775

La gráfica nos muestra que el número de especies endémicas está muy relacionado con el número de especies con una relación positiva, que se confirma con el coeficiente de correlación que es aproximadamente 0.971 que es positivo y es muy cercano a 1 por lo que hay una fuerte relación, luego se concluye que el número de especies endémicas está muy relacionado con el número de especies.

Correlación entre el área y el número de especies, se obtiene el siguiente gráfico de dispersión y el respectivo coeficiente de correlación.

## Coeficiente = 0.617843068951529

La gráfica nos muestra que el área está algo relacionada con el número de especies con una relación positiva también se observa un dato muy atípico a la derecha de la gráfica lo cual afecta al coeficiente de correlación ,con un coeficiente de correlación que es aproximadamente 0.618 que es positivo por lo que hay una relación positiva y debido a que no es muy cercano a 1 quiere decir que no se tiene una fuerte relación, por lo que se concluye que el área está un poco relacionada con el número de especies.

Se hace un análisis de correlación entre la altura máxima y el número de especies, se obtiene el siguiente grafico de dispersión y el respectivo coeficiente de correlación.

## Coeficiente = 0.738486656871798

La gráfica nos muestra que la altura máxima está algo relacionada con el número de especies con una relación positiva, con un coeficiente de correlación que es aproximadamente 0.738 que es positivo lo que indica que hay una relación positiva y debido a que está cercano a 1 significa que tiene algo de relación, por lo que se concluye que la altura máxima está relacionada con el número de especies.

Se hace un análisis de correlación entre la distancia a la isla más cercana y el número de especies, se obtiene el siguiente grafico de dispersión y el respectivo coeficiente de correlación.

## Coeficiente = -0.0140940673953826

La gráfica nos muestra que la distancia a la isla más cercana no está muy relacionada con el número de especie, con un coeficiente de correlación que es aproximadamente -0.014 que es negativo por lo que hay una relación negativa y debido a que está muy cercano a 0 significa que no tiene mucha relación con el número de especies, por lo que se concluye que la distancia a la isla más cercana no está muy relacionada con el número de especies.

Se hace un análisis de correlación entre la distancia hasta la isla Santa Cruz y el número de especies, se obtiene el siguiente grafico de dispersión y el respectivo coeficiente de correlación.

## Coeficiente = -0.171142441885798

La gráfica nos muestra que la distancia hasta la isla Santa Cruz no está muy relacionada con el número de especies con algún tipo de relación negativa, con un coeficiente de correlación que es aproximadamente -0.171 que es negativo por lo que hay una relación negativa y debido a que está cercano a 0 significa que no tiene mucha relación con el número de especies, por lo que se concluye que la distancia hasta la isla Santa Cruz no esta tan relacionada con el número de especies.

Se hace un análisis de correlación entre el área de la isla adyacente y el número de especies, se obtiene el siguiente grafico de dispersión y el respectivo coeficiente de correlación.

## Coeficiente = 0.0261663536779414

La gráfica nos muestra que el área de la isla adyacente no está tan relacionada con el número de especies, con un coeficiente de correlación que es aproximadamente 0.0261 que es positivo por lo que se podría decir que tiene una relación positiva pero muy poca debido a que es muy cercano a 0, por lo que se concluye que el área de la isla adyacente no está relacionada con el número de especies.

  1. Estime el modelo de regresión múltiple e interprete el valor p, los coeficientes significativos y el \(R^2\).

Para esto se estima un modelo de regresión lineal múltiple con variable de estudio el número de especies de las islas y covariables el número de especies endémicas, el Área, la altura máxima, la distancia a la isla más cercana, la distancia hasta la isla Santa Cruz y el área de la isla adyacente de cada una de las islas, el cual nos arroja los siguientes resultados:

## 
## Call:
## lm(formula = gala$Species ~ gala$Endemics + gala$Area + gala$Elevation + 
##     gala$Nearest + gala$Scruz + gala$Adjacent)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -68.219 -10.225   1.830   9.557  71.090 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -15.337942   9.423550  -1.628    0.117    
## gala$Endemics    4.393654   0.481203   9.131 4.13e-09 ***
## gala$Area        0.013258   0.011403   1.163    0.257    
## gala$Elevation  -0.047537   0.047596  -0.999    0.328    
## gala$Nearest    -0.101460   0.500871  -0.203    0.841    
## gala$Scruz       0.008256   0.105884   0.078    0.939    
## gala$Adjacent    0.001811   0.011879   0.152    0.880    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 28.96 on 23 degrees of freedom
## Multiple R-squared:  0.9494, Adjusted R-squared:  0.9362 
## F-statistic: 71.88 on 6 and 23 DF,  p-value: 9.674e-14

Con un valor de \(\alpha\) = 0,05 y con los datos de la regresión lineal múltiple, el valor p del intercepto es 0.117 como es más grande que \(\alpha\) se acepta la hipótesis de que el intercepto puede ser 0, por lo tanto el intercepto no es significativo para explicar el número de especies, el valor p que corresponde al coeficiente del número de especies endémicas es de \(4.13\times10^{-9}\) como es más pequeño que \(\alpha\) se tiene que el coeficiente del número de especies endémicas es significativo para explicar el número de especies, como es una variable significativa por cada unidad adicional del número de especies endémicas va aumentar el número de especies en 4.393654 Unidades, el valor p que corresponde al coeficiente del área es de 0.257 como es más grande que \(\alpha\), se tiene que el coeficiente del área no es significativo para explicar el número de especies, el valor p que corresponde al coeficiente de la altura máxima es de 0.328 como es más grande que \(\alpha\), se tiene que el coeficiente de la altura máxima no es significativo para explicar el número de especies, el valor p que corresponde al coeficiente de la distancia a la isla más cercana es de 0.841 como es más grande que \(\alpha\), se tiene que el coeficiente de la distancia a la isla más cercana no es significativo para explicar el número de especies, el valor p que corresponde al coeficiente de la distancia hasta la isla Santa Cruz es de 0.939 como es más grande que \(\alpha\), se tiene que el coeficiente de la distancia hasta la isla Santa Cruz no es significativo para explicar el número de especies y por último el valor p que corresponde al coeficiente del área de la isla adyacente es de 0.880 como es más grande que \(\alpha\), se tiene que el coeficiente del área de la isla adyacente no es significativo para explicar el número de especies.

El coeficiente \(R^2\) del modelo de regresión lineal múltiple es de 0.9362 como se puede apreciar en los datos anteriores el coeficiente es muy cercano a 1 las covariables explican muy bien la variable del número de especies en las islas.

  1. Realice una predicción de la cantidad de especies estimada para cada isla. Compare los resultados estimados frente a los reales (errores) y graficarlos.

Se realiza la predicción de los datos estimados por el modelo y luego se comparan los resultados estimados frente a los reales en una gráfica:

Tabla de datos estimados
Número de especies estimado
Baltra 69.548232
Bartolome 72.956216
Caldwell -7.371508
Champion 22.218429
Coamano -13.144557
Daphne.Major 26.597516
Daphne.Minor -20.266924
Darwin 6.403492
Eden -1.142860
Enderby -11.721599
Espanola 90.875630
Fernandina 84.636464
Gardner1 57.794920
Gardner2 -8.496779
Genovesa 60.945142
Isabela 357.767204
Marchena 68.992131
Onslow -7.694627
Pinta 109.349785
Pinzon 107.121290
Las.Plazas 19.739135
Rabida 99.881628
SanCristobal 239.491159
SanSalvador 305.219227
SantaCruz 372.909915
SantaFe 94.154529
SantaMaria 277.383535
Seymour 48.060735
Tortuga 10.748584
Wolf 24.043957

Como se puede apreciar en la gráfica anterior la mayoría de los errores están cercanos a 0, lo cual quiere decir que el modelo estima bien el número de especies.

Punto 2 – Modelo de Diseño de Experimentos

Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.

  1. Realice un análisis exploratorio que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar. y si estas conclusiones son las mismas para cada tipo de molusco.

Para realizar este análisis se hace un diagrama de cajas para conocer el consumo de oxígeno en las distintas concentraciones de agua de mar también se hace uno para conocer el consumo de oxígeno en los diferentes tipos de moluscos obteniendo los siguientes resultados:

Analizando el primer grafico en los moluscos se tiene que a concentraciones de agua del 50% se tiene un consumo de oxígeno medio de 11.46 de los datos y como se puede observar a concentraciones de agua más altas como al 75% y 100% sus consumos de oxígeno medio son de 6.43 y 8.59 respectivamente son más baja que la anterior. Para el segundo gráfico las conclusiones de lo anterior se asemejan un poco al consumo de oxígeno del molusco B con respecto al consumo de oxígeno de las concentraciones de agua al 100%, debido a que tienen un consumo medio de oxígeno similares 8.59 y 8.06 respectivamente, con un espacio intercuartil similar al verlo en los gráficos interactivos.

  1. Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxígeno. Interprete los coeficientes del modelo, el valor p y realice un post anova de considerarlo necesario para los factores.

Se estima un modelo de regresión lineal múltiple el cual nos permitirá evaluar el efecto de la concentración de agua de mar y los tipos de moluscos sobre el consumo de oxígeno, al hacer dicho modelo obtenemos los siguientes resultados:

## 
## Call:
## lm(formula = moluscos$cons_o ~ moluscos$c_agua + moluscos$molusco)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.1750 -1.9877 -0.7019  2.1244  6.1450 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         12.9463     0.8521  15.193  < 2e-16 ***
## moluscos$c_agua75   -5.2581     1.0436  -5.038 8.49e-06 ***
## moluscos$c_agua100  -3.5794     1.0436  -3.430  0.00132 ** 
## moluscos$moluscoB   -1.3913     0.8521  -1.633  0.10966    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.952 on 44 degrees of freedom
## Multiple R-squared:  0.3986, Adjusted R-squared:  0.3575 
## F-statistic: 9.719 on 3 and 44 DF,  p-value: 4.866e-05

Con un valor de \(\alpha\) = 0,05 y con los datos de la regresión lineal múltiple, el valor p del intercepto es \(2\times 10^{-16}\) como es más pequeño que \(\alpha\) se rechaza la hipótesis de que el intercepto puede ser 0, por lo tanto el intercepto es significativo para explicar el consumo de oxígeno, como es una variable significativa cuando se tiene una concentración de agua del 50% y un molusco tipo A el valor aproximado del consumo de oxigeno es 12.9463 unidades, el valor p que corresponde al coeficiente de la concentración de agua del 75% es de \(8.49\times10^{-6}\) como es más pequeño que \(\alpha\) se tiene que el coeficiente de la concentración de agua del 75% es significativo para explicar el consumo de oxígeno, como es una variable significativa cuando el molusco está en una concentración del 75% va disminuir el consumo de oxígeno en -5.2581 unidades, el valor p que corresponde al coeficiente de la concentración de agua del 100% es de \(0.00132\) como es más pequeño que \(\alpha\) se tiene que el coeficiente de la concentración de agua del 100% es significativo para explicar el consumo de oxígeno, como es una variable significativa cuando el molusco está en una concentración del 100% va disminuir el consumo de oxígeno en -1.3913 unidades, el valor p que corresponde al coeficiente de un molusco tipo b es de 0.1096 como es más grande que \(\alpha\), se tiene que el coeficiente de un molusco tipo b no es significativo para explicar la el consumo de oxígeno.

El coeficiente \(R^2\) del modelo de regresión lineal múltiple es de 0.3575 como se puede apreciar en los datos anteriores el coeficiente es muy lejano a 1 por lo cual las covariables no explican muy bien el consumo de oxígeno.

Punto 3 – Análisis de Componentes Principales

Se seleccionaron un total de 10 cafés que fueron evaluados en cuanto a características de calidad por un grupo de catadores expertos quienes evaluaron en una escala de cero a diez, algunos factores como la intensidad y el aroma del café. Estos datos se encuentran en la base “cafe_calidad” que se le comparte dentro del archivo “cafe.Rdata”. Con base en estos datos realice un análisis de componentes principales con el cual logre identificar las correlaciones entre las variables (factores evaluados) y similitudes entre tipos de café.

  1. Presente e interprete los resultados de la descomposición espectral de la matriz de varianzas y covarianzas, ¿cómo queda distribuida la inercia y cuantas componentes sugiere analizar y por qué?.

Se hace la descomposición espectral de la matriz de varianzas y covarianzas para obtener la siguiente distribución de inercia:

Tabla de inercia
inertia cum cum(%)
Ax1 4.6014766 4.601477 76.69128
Ax2 0.4693710 5.070848 84.51413
Ax3 0.3845121 5.455360 90.92266
Ax4 0.3446161 5.799976 96.66626
Ax5 0.1448798 5.944856 99.08093
Ax6 0.0551443 6.000000 100.00000

Con estos resultados se sugiere analizar 2 componentes debido a que con tan solo esas 2 componentes se tiene un 84.51% de la información de la base café de calidad.

  1. Presente el grafico del circulo de correlaciones del primer plano factorial (componentes 1 y 2) e interprete los resultados ¿cómo y cuales variables están correlacionadas?

Se presenta el grafico del circulo de correlaciones del primer plano factorial:

Del gráfico podemos observar que la relación entre todas las variables es directa, pero siendo más precisos las variables más correlacionadas positivamente son la intensidad, el aroma, el cuerpo y la acidez.

  1. Presente el grafico de los individuos (cafés) del primer plano factorial e interprete los resultados ¿cuáles cafés son similares?

Se presenta el grafico de los cafés del primer plano factorial:

Según los resultados obtenidos en la anterior grafica se puede ver que los cafés similares son los siguientes: el claro 40% cebada (C40C), el claro 20% cebada (C20C), el oscuro 40% cebada (O40C) y el oscuro 20% maíz, también se puede apreciar con detalle en la gráfica que los dos últimos mencionados son muy similares.

  1. Teniendo en cuenta los gráficos anteriores (2 y 3) interprete ambos resultados e identifique cuales son los mejores cafés y por qué?.

Mirando las gráficas de 2 y 3 se evidencia que el mejor café en cuestión de la calidad entre todos los demás seria el excelso oscuro (ExOs) porque como se puede ver en el grafico del punto 2 todas las variables de estudio apuntan hacia la derecha y la mayoría está cerca al eje x luego mirando el grafico del punto 3 se tiene que el café que está cerca al eje x y más a la derecha es el excelso oscuro y siguiendo la misma idea los otros mejores cafés serian el excelso claro (ExCl) y el oscuro 20% cebada (O20C).

Por otro lado, a cada uno de los 10 cafés se les realizaron pruebas químicas para evaluar algunas características como el nivel de cafeína, la densidad aparente (DA), el pH, los ácidos cítricos entre otras. Estos datos se encuentran en la base “cafe_quimica”.

  1. Crear una nueva matriz de datos que incluya ambas bases café química y café calidad.
Tabla Cafe Química y Café Calidad
Intensidad Aroma Cuerpo Acidez Amargo Astringencia Color DA pH AcidezT Cafeina AcidosCl
ExCl 7.72 7.00 6.84 5.02 5.04 5.36 298 385.1 5.02 11.7 1.40 2.74
C40M 6.02 5.42 6.22 4.34 4.60 4.78 361 481.3 5.11 6.5 0.81 1.62
C40C 6.48 5.98 6.44 4.58 4.82 4.80 321 422.6 5.12 5.8 0.80 1.61
C20M 6.82 6.44 6.70 4.62 4.38 4.80 335 444.3 5.05 8.8 1.10 2.20
C20C 7.08 6.20 6.72 4.78 4.94 4.90 314 368.7 5.04 9.3 1.10 2.19
ExOs 7.66 7.42 6.98 5.12 5.18 5.22 186 346.6 5.31 8.7 1.35 2.30
O40M 6.18 5.82 6.26 4.00 4.46 4.96 278 422.6 5.45 4.9 0.80 1.35
O40C 6.84 6.56 6.82 4.30 4.96 4.84 238 403.0 5.33 5.2 0.79 1.36
O20M 6.66 7.06 6.70 4.64 5.00 4.90 226 368.7 5.33 6.7 1.10 1.83
O20C 7.00 6.70 7.04 4.60 4.88 5.18 210 368.7 5.31 7.0 1.05 1.83
  1. Presente e interprete los resultados de la descomposición espectral de la matriz de varianzas y covarianzas, ¿cómo queda distribuida la inercia y cuantas componentes sugiere analizar y por qué?

Se hace la descomposición espectral de la matriz de varianzas y covarianzas para obtener la siguiente distribución de inercia:

Tabla de inercia
inertia cum cum(%)
Ax1 7.5738999 7.57390 63.11583
Ax2 2.8899109 10.46381 87.19842
Ax3 0.6017704 11.06558 92.21318
Ax4 0.3883044 11.45389 95.44905
Ax5 0.2464299 11.70032 97.50263
Ax6 0.1567790 11.85709 98.80912
Ax7 0.0718432 11.92894 99.40781
Ax8 0.0457852 11.97472 99.78936
Ax9 0.0252772 12.00000 100.00000

Con estos resultados se sugiere analizar 2 componentes debido a que con tan solo esas 2 componentes se tiene un 87.2% de la información de la base que contiene a café calidad y café química.

  1. Presente el gráfico del círculo de correlaciones del primer plano factorial (componentes 1 y 2) e interprete los resultados ¿cómo y cuales variables están correlacionadas?

Se presenta el gráfico del círculo de correlaciones del primer plano factorial:

Del anterior grafico se puede observar que las variables como: la Acidez T y los Ácidos Cl están muy correlacionadas positivamente, la cafeína y la acidez están muy correlacionadas positivamente, la intensidad y la astringencia están muy correlacionadas positivamente, el cuerpo, el amargo y el aroma están muy correlacionadas positivamente, el color y el Da están muy correlacionadas positivamente, el cuerpo, el amargo y el aroma con el DA están muy correlacionadas negativamente y el cuerpo, el amargo y el aroma con el color están muy correlacionadas negativamente.

  1. Presente el grafico de los individuos (cafés) del primer plano factorial e interprete los resultados ¿cuáles cafés son similares?

Se presenta el grafico de los cafes del primer plano factorial:

De la anterior grafica se tiene que los cafés que son similares serian el oscuro 20% maíz (O20M) con el oscuro 20% cebada y el oscuro 40% cebada es un poco similar a estos dos, otros que también se puede decir que son similares los cafés claro 20% maíz con el claro 20% cebada.

  1. Teniendo en cuenta los gráficos anteriores (8 y 9) interprete ambos resultados e identifique cual es el café de mejor calidad y que características químicas tiene?

Teniendo en cuenta los gráficos anteriores (8 y 9) se evidencia que el café de mejor calidad seria aquel que tenga las características de calidad más altas por lo que mirando el grafico 8 se ve que las características de calidad (Astringencia, intensidad, color, aroma, acidez y cuerpo) apuntan hacia la derecha por lo cual el café más a la derecha de todos y que apuntando a las características de calidad es el excelso oscuro como se puede apreciar en el grafico 9, las características químicas que tiene este café son como se ve en el grafico 9 cuyas característica química son un buen PH debido a que se encuentra hacia abajo, tiene poco DA y color debido a que esta al contrario de donde crecen estas características como se ve en la gráfica 8.

Punto 4 – Clasificación usando FactoCLass

Sobre los mismos datos de las islas galápagos realizar un análisis de conglomerados que permita identificar las islas que son mas similares y que características tienen dichas islas. Realice todo el procedimiento desde identificar el valor mas apropiado de k (total de clúster) hasta la caracterización de los grupos por medio de pruebas de diferencia de medias t.

Se realizará un análisis de conglomerados utilizando FactoClass que nos permitirá identificar las islas que son más similares y ver las características que tienen dichas islas con el siguiente comando:

require(FactoClass)

cluster = FactoClass(gala,dudi.pca,scanFC= FALSE, nf = 2, nfcl = 7, k.clust = 3);

Luego de hacer esto se obtiene el siguiente dendograma:

Para identificar el valor más apropiado del número de clúster se mira el siguiente diagrama de índices de nivel:

Luego observamos que el número de clúster más apropiados serian 3 debido a que las diferencias entre los dos últimos grupos fueron muy grandes, por lo que los clústeres quedarían distribuidos de la siguiente manera:

Distribuccion de las islas en los cluster
cluster.cluster
Baltra 1
Bartolome 1
Caldwell 1
Champion 1
Coamano 1
Daphne.Major 1
Daphne.Minor 1
Darwin 2
Eden 1
Enderby 1
Espanola 1
Fernandina 3
Gardner1 1
Gardner2 1
Genovesa 2
Isabela 3
Marchena 2
Onslow 1
Pinta 2
Pinzon 1
Las.Plazas 1
Rabida 1
SanCristobal 2
SanSalvador 3
SantaCruz 3
SantaFe 1
SantaMaria 3
Seymour 1
Tortuga 1
Wolf 2

Para ver que características tienen en común cada clúster se hace una caracterización de los grupos por medio de pruebas de diferencia de medias t por lo que se obtienen los siguientes resultados:

## class: 1
##           Test.Value Class.Mean Frequency Global.Mean
## Area          -2.120      7.220        19     261.709
## Scruz         -2.644     31.984        19      56.977
## Nearest       -3.098      3.916        19      10.060
## Species       -3.221     33.947        19      85.233
## Endemics      -3.450     13.000        19      26.100
## Elevation     -3.501    163.000        19     368.033
## ------------------------------------------------------------ 
## class: 2
##         Test.Value Class.Mean Frequency Global.Mean
## Nearest      5.073     36.500         6      10.060
## Scruz        3.806    151.533         6      56.977
## ------------------------------------------------------------ 
## class: 3
##           Test.Value Class.Mean Frequency Global.Mean
## Elevation      4.382   1122.200         5     368.033
## Endemics       4.347     74.600         5      26.100
## Species        4.187    281.200         5      85.233
## Area           3.199   1390.176         5     261.709
## Adjacent       2.269   1061.864         5     261.098

Con estos resultados se obtienen las siguientes conclusiones:

En el clúster número 1 se encuentran las islas que tienen menor área, menor distancia a la isla Santa Cruz, menor distancia a la isla más cercana, menor número de especies, menor número de especies endémicas y menor altura máxima que las demás islas.

En el clúster número 2 se encuentran las islas que tienen más distancia a la isla más cercana y más distancia a la isla Santa Cruz que las demás islas.

Y por último en el clúster número 3 se encuentran las islas que tienen más altura máxima, más número de especies endémicas, más número de especies, más área y más área de la isla adyacente que las demás islas.