Punto 1 - Regresión Lineal Multiple

A continuación se presentan los gráficos de las correlaciones entre la variables, y sus respectivos valores:

Posterior a esto, procedemos a hacer una estimación del modelo para obtener el valor p de cada variable, los coeficientes significativos y el R2, y así mismo, poder darles una interpretación.

## 
## Call:
## lm(formula = datos$Species ~ datos$Endemics + datos$Area + datos$Elevation + 
##     datos$Nearest + datos$Scruz + datos$Adjacent)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -68.219 -10.225   1.830   9.557  71.090 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     -15.337942   9.423550  -1.628    0.117    
## datos$Endemics    4.393654   0.481203   9.131 4.13e-09 ***
## datos$Area        0.013258   0.011403   1.163    0.257    
## datos$Elevation  -0.047537   0.047596  -0.999    0.328    
## datos$Nearest    -0.101460   0.500871  -0.203    0.841    
## datos$Scruz       0.008256   0.105884   0.078    0.939    
## datos$Adjacent    0.001811   0.011879   0.152    0.880    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 28.96 on 23 degrees of freedom
## Multiple R-squared:  0.9494, Adjusted R-squared:  0.9362 
## F-statistic: 71.88 on 6 and 23 DF,  p-value: 9.674e-14

Analicemos los valores:

Correlación

Sabemos que el coeficiente de correlación de Pearson se utiliza para estudiar la relación (o correlación) entre dos variables cuantitativas. Como se observó anteriormente, se obtuvo el coeficiente de correlación de Species con Endemics, Area, Elevation, Nearest, Scruz, y Adjacent. 0.97, 0.62, 0.74, -0.01, -0.17, 0.03 respectivamente.

  • Note que 0.97, nos permite afirmar que la correlación entre Species y Endemics es fuerte y directa, ya que su valor es cercano a 1.
  • La correlación 0.62 de Species con Area, nos permite concluir que la relación es medianamente fuerte y directa, puesto que su valor es cercano a 1.
  • La correlación 0.74 de Speciescon Elevation es también fuerte y directa, un poco menos que la relación con Endemics, pero mas alta que la de Area.
  • Por el contrario, -0.01, la correlación entre Species y Nearest nos permite afirmar que no hay relación lineal o que la correlación entre Species y Nearest es débil, puesto que el valor es muy cercano a cero. Además se puede verificar en la Figura como no es posible gráficar una recta.
  • De la misma manera se puede concluir con los valores -0.17 y 0.03 (Corelación de Species con Scruz y Adjacent respectivamente)

  • Podemos concluir, que la variable que mas relación tiene con Species es Endemics, y la que menos tiene es Nearest, esto tiene mucho sentido, pues es evidente notar que entre más se varie el numero de especies endemicas, así mismo variará el numero de especies en las islas, de la misma forma, las distancias a las islas mas cercanas, es un factor que no afectará al numero de especies, por eso su correlación es bastante baja.

Valor p

  • Endemics 4.13e-09
  • Area 0.257
  • Elevation 0.328
  • Nearest 0.841
  • Scruz 0.939
  • Adjacent 0.880

El valor p de cada término evalúa la hipótesis nula de que el coeficiente es igual a cero (es decir, no hay efecto). Un valor p < 0.05 indica que la variable respectiva es significativa al modelo, por el contrario un valor p más grande indica que esa variable es insignificante.

Posterior a ver los p valores de las variables se puede afirmar que Endemics es la unica variable significativa para el modelo, puesto que, como lo nombramos anteriormente, su p valor es < 0.05. Por otro lado se deduce que las variables Area, Elevation, Nearest, Scruz y Adjacent no son signficantes al modelo, es decir, un cambio en en esas variables no está asociado con el cambio en la respuesta final del modelo.

Coeficientes de cada variable significativa:

  • Endemics 4.393654
  • Area 0.013258
  • Elevation -0.047537
  • Nearest -0.101460
  • Scruz 0.008256
  • Adjacent 0.001811

Note que los coeficientes de la variables (Area, Elevation, Nearest, Scruz y Adjacent) son muy cercanos a cero, entonces tiene sentido concluir que éstas no son significativas para el modelo y se pueden retirar, así como también el valor p nos lo indicó.

Coeficiente R2

El coeficiente de determinación multiple o R-cuadrado es 0.9362, lo cual nos indica que el modelo explica en un 93% la variabilidad de los datos de respuesta en torno a su media. Y esto es bastante bueno.

Predicción

A continuación, realizamos una predicción de la cantidad de especies estimada para cada isla. Posteriormente, se hace la comparación mediante un gráfico, donde se evidencian los errores.

##              Numero de especies estimado
## Baltra                         69.548232
## Bartolome                      72.956216
## Caldwell                       -7.371508
## Champion                       22.218429
## Coamano                       -13.144557
## Daphne.Major                   26.597516
## Daphne.Minor                  -20.266924
## Darwin                          6.403492
## Eden                           -1.142860
## Enderby                       -11.721599
## Espanola                       90.875630
## Fernandina                     84.636464
## Gardner1                       57.794920
## Gardner2                       -8.496779
## Genovesa                       60.945142
## Isabela                       357.767204
## Marchena                       68.992131
## Onslow                         -7.694627
## Pinta                         109.349785
## Pinzon                        107.121290
## Las.Plazas                     19.739135
## Rabida                         99.881628
## SanCristobal                  239.491159
## SanSalvador                   305.219227
## SantaCruz                     372.909915
## SantaFe                        94.154529
## SantaMaria                    277.383535
## Seymour                        48.060734
## Tortuga                        10.748584
## Wolf                           24.043957

Podemos ver en el gráfico de los errores que la mayoria de los valores son cercanos a cero, lo cual es bueno, sin embargo se pueden envidenciar algunos que están bastante alejados, lo que nos permite afirmar que la estimación no es tan efectiva.

Punto 2 - Modelo de Diseño de Experimentos

Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de \(O_{2}\) por unidad de peso seco de molusco.

Análisis

Después de conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar, se puede observar que el consumo de oxígeno es más alto en concentraciones de agua del 50% y menor consumo proviene de la concentración de agua del 75% (En los dos tipos de moluscos), de todas maneras, se puede observar que la diferencia de consumo de oxígenono no es muy alta en cada concentración de agua y en cada molusco.

## 
## Call:
## lm(formula = datosm$cons_o ~ datosm$c_agua + datosm$molusco)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.1750 -1.9877 -0.7019  2.1244  6.1450 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       12.9463     0.8521  15.193  < 2e-16 ***
## datosm$c_agua75   -5.2581     1.0436  -5.038 8.49e-06 ***
## datosm$c_agua100  -3.5794     1.0436  -3.430  0.00132 ** 
## datosm$moluscoB   -1.3913     0.8521  -1.633  0.10966    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.952 on 44 degrees of freedom
## Multiple R-squared:  0.3986, Adjusted R-squared:  0.3575 
## F-statistic: 9.719 on 3 and 44 DF,  p-value: 4.866e-05

Valor p de cada variable

  • Concentracion de agua de 75% 8.49e-06
  • Concentracion de agua de 100% 0.00132
  • MoluscoB% 0.10966

El valor p de cada término evalúa la hipótesis nula de que el coeficiente es igual a cero (es decir, no hay efecto). Un valor p < 0.05 indica que la variable respectiva es significativa al modelo, por el contrario un valor p más grande indica que esa variable es insignificante.

Posterior a ver los p valores de las variables se puede afirmar que las concentraciones de agua al 75% y al 100% son las unicas variables significativas para el modelo, puesto que, como lo nombramos anteriormente, su p valor es < 0.05. Por otro lado se deduce que la variable MoluscoB no es significante al modelo, es decir, un cambio en el tipo de molusco no está asociado con el cambio en la respuesta final del modelo.

Coeficientes de cada variable significativa:

  • Concentracion de agua de 75% -5.2581
  • Concentracion de agua de 100% -3.5794

Punto 3 - Análsis de componenentes Principales

Esta metodologia permite analizar grandes conjuntos de datos numericos multivariados, es decir un conjunto amplio de variables e individuos. El objetivo principal es estudiar las correlaciones entre variables y similitudes entre individuos de una manera eficiente.

Calidad del café

Primero trabajaremos con los datos que nos indican la calidad del café:

##      Intensidad Aroma Cuerpo Acidez Amargo Astringencia Impresion
## ExCl       7.72  7.00   6.84   5.02   5.04         5.36      7.46
## C40M       6.02  5.42   6.22   4.34   4.60         4.78      6.24
## C40C       6.48  5.98   6.44   4.58   4.82         4.80      6.12
## C20M       6.82  6.44   6.70   4.62   4.38         4.80      6.04
## C20C       7.08  6.20   6.72   4.78   4.94         4.90      6.22
## ExOs       7.66  7.42   6.98   5.12   5.18         5.22      7.40
## O40M       6.18  5.82   6.26   4.00   4.46         4.96      5.90
## O40C       6.84  6.56   6.82   4.30   4.96         4.84      6.94
## O20M       6.66  7.06   6.70   4.64   5.00         4.90      6.90
## O20C       7.00  6.70   7.04   4.60   4.88         5.18      7.16
## Com1       6.48  5.46   7.06   4.60   5.26         5.16      5.68
## Com2       6.66  6.26   7.36   4.44   5.64         5.24      6.00
##              Intensidad Aroma Cuerpo Acidez Amargo Astringencia Impresion
## Intensidad         1.00  0.82   0.51   0.85   0.34         0.60      0.76
## Aroma              0.82  1.00   0.40   0.64   0.23         0.39      0.85
## Cuerpo             0.51  0.40   1.00   0.42   0.82         0.70      0.22
## Acidez             0.85  0.64   0.42   1.00   0.36         0.49      0.58
## Amargo             0.34  0.23   0.82   0.36   1.00         0.66      0.16
## Astringencia       0.60  0.39   0.70   0.49   0.66         1.00      0.41
## Impresion          0.76  0.85   0.22   0.58   0.16         0.41      1.00
##        inertia      cum    cum(%)
## Ax1 4.23477288 4.234773  60.49676
## Ax2 1.56511221 5.799885  82.85550
## Ax3 0.45899832 6.258883  89.41262
## Ax4 0.36186746 6.620751  94.58216
## Ax5 0.22183885 6.842590  97.75128
## Ax6 0.09046259 6.933052  99.04360
## Ax7 0.06694771 7.000000 100.00000

Después de hacer la descomposición espectral de la matriz de varianzas y covarianzas, vemos como queda distribuida la inercia y viendo los valores, se sugiere analizar las primeras dos componentes ya que con esas podemos estimar gran porcentaje del modelo (en este caso es del 82%)

Teniendo en cuenta los gráficos anteriores, se puede interpretar que ExCl y ExOs son los mejores cafés, puesto que están ubicados en la parte superior y a la izquiera, lo que indica que su Aroma e Impresión son bastante altos

Quimicos del café

Ahora, se trabajará con los datos que nos indican los contenidos quimicos del café:

##          Color    DA    EA    pH AcidezT Cafeina AcidosCl
## Color     1.00  0.73  0.27 -0.66    0.00   -0.38    -0.04
## DA        0.73  1.00  0.42 -0.27   -0.27   -0.52    -0.34
## EA        0.27  0.42  1.00  0.39   -0.95   -0.97    -0.95
## pH       -0.66 -0.27  0.39  1.00   -0.58   -0.28    -0.51
## AcidezT   0.00 -0.27 -0.95 -0.58    1.00    0.90     0.98
## Cafeina  -0.38 -0.52 -0.97 -0.28    0.90    1.00     0.91
## AcidosCl -0.04 -0.34 -0.95 -0.51    0.98    0.91     1.00
##        inertia      cum    cum(%)
## Ax1 4.25677802 4.256778  60.81111
## Ax2 2.20488938 6.461667  92.30953
## Ax3 0.36229221 6.823960  97.48514
## Ax4 0.12971545 6.953675  99.33822
## Ax5 0.02556762 6.979243  99.70347
## Ax6 0.01436439 6.993607  99.90867
## Ax7 0.00639294 7.000000 100.00000

Después de hacer la descomposición espectral de la matriz de varianzas y covarianzas, vemos como queda distribuida la inercia y viendo los valores, sugiero analizar las primeras dos componentes ya que con esas podemos estimar gran porcentaje del modelo (en este caso es del 92%).

Después de ver y analizar el gráfico del circulo de correlaciones del primer plano factorial, se puede deducir que la Cafeina, AcidosCl y Acidezl están relacionadas fuertemente de manera directa y a su vez, estas tres se correlacionan con EA, pH, DA y Color de manera inversa, pero es más fuerte con la variable EA, puesto que esta está mas alejada.

Teniendo en cuenta los dos gráficos anteriores, se puede analizar que los cafés Com2 y ExCl son mas acidos en sus componentes quimicos.

Punto 4 - Clasificación usando FactoClass

##              Species Endemics  Area Elevation Nearest Scruz Adjacent
## Baltra            58       23 25.09       346     0.6   0.6     1.84
## Bartolome         31       21  1.24       109     0.6  26.3   572.33
## Caldwell           3        3  0.21       114     2.8  58.7     0.78
## Champion          25        9  0.10        46     1.9  47.4     0.18
## Coamano            2        1  0.05        77     1.9   1.9   903.82
## Daphne.Major      18       11  0.34       119     8.0   8.0     1.84
## The number of retained axes for factorial analysis is  3 
## 
## The number of axes for clustering is  7
## Look the histogram of 25 indexes 
## Partition in  2  clusters
##       Baltra    Bartolome     Caldwell     Champion      Coamano Daphne.Major 
##            1            1            1            1            1            1 
## Daphne.Minor       Darwin         Eden      Enderby     Espanola   Fernandina 
##            1            1            1            1            1            2 
##     Gardner1     Gardner2     Genovesa      Isabela     Marchena       Onslow 
##            1            1            1            2            1            1 
##        Pinta       Pinzon   Las.Plazas       Rabida SanCristobal  SanSalvador 
##            1            1            1            1            2            2 
##    SantaCruz      SantaFe   SantaMaria      Seymour      Tortuga         Wolf 
##            2            1            2            1            1            1 
## Levels: 1 2
## class: 1
##           Test.Value Class.Mean Frequency Global.Mean
## Area          -3.133     14.532        24     261.709
## Elevation     -4.459    196.417        24     368.033
## Species       -4.677     36.292        24      85.233
## Endemics      -4.699     14.375        24      26.100
## ------------------------------------------------------------ 
## class: 2
##           Test.Value Class.Mean Frequency Global.Mean
## Endemics       4.699     73.000         6      26.100
## Species        4.677    281.000         6      85.233
## Elevation      4.459   1054.500         6     368.033
## Area           3.133   1250.417         6     261.709

Análisis

Depués de verificar los gráficos, se decide seleccionar dos grupos.

Podemos concluir que las islas que corresponden al grupo 1, (Area, Elevation, Species, y Endemics) están evaluadas por debajo del promedio, puesto que su Test.Value es negativo. luego, estas variables son significativas al 95%.

Por el contrario, las variables del grupo 2, (Endemics, Species, Elevation y Area), estan evaluadas por encima del promedio, lo que nos indica, que en ese grupo, las islas tienen un gran tamaño, un gran numero de especies y un alto valor de altura maxima.