A continuación se presentan los gráficos de las correlaciones entre la variables, y sus respectivos valores:
Posterior a esto, procedemos a hacer una estimación del modelo para obtener el valor p de cada variable, los coeficientes significativos y el R2, y así mismo, poder darles una interpretación.
##
## Call:
## lm(formula = datos$Species ~ datos$Endemics + datos$Area + datos$Elevation +
## datos$Nearest + datos$Scruz + datos$Adjacent)
##
## Residuals:
## Min 1Q Median 3Q Max
## -68.219 -10.225 1.830 9.557 71.090
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -15.337942 9.423550 -1.628 0.117
## datos$Endemics 4.393654 0.481203 9.131 4.13e-09 ***
## datos$Area 0.013258 0.011403 1.163 0.257
## datos$Elevation -0.047537 0.047596 -0.999 0.328
## datos$Nearest -0.101460 0.500871 -0.203 0.841
## datos$Scruz 0.008256 0.105884 0.078 0.939
## datos$Adjacent 0.001811 0.011879 0.152 0.880
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 28.96 on 23 degrees of freedom
## Multiple R-squared: 0.9494, Adjusted R-squared: 0.9362
## F-statistic: 71.88 on 6 and 23 DF, p-value: 9.674e-14
Analicemos los valores:
Sabemos que el coeficiente de correlación de Pearson se utiliza para estudiar la relación (o correlación) entre dos variables cuantitativas. Como se observó anteriormente, se obtuvo el coeficiente de correlación de Species con Endemics, Area, Elevation, Nearest, Scruz, y Adjacent. 0.97, 0.62, 0.74, -0.01, -0.17, 0.03 respectivamente.
De la misma manera se puede concluir con los valores -0.17 y 0.03 (Corelación de Species con Scruz y Adjacent respectivamente)
Podemos concluir, que la variable que mas relación tiene con Species es Endemics, y la que menos tiene es Nearest, esto tiene mucho sentido, pues es evidente notar que entre más se varie el numero de especies endemicas, así mismo variará el numero de especies en las islas, de la misma forma, las distancias a las islas mas cercanas, es un factor que no afectará al numero de especies, por eso su correlación es bastante baja.
El valor p de cada término evalúa la hipótesis nula de que el coeficiente es igual a cero (es decir, no hay efecto). Un valor p < 0.05 indica que la variable respectiva es significativa al modelo, por el contrario un valor p más grande indica que esa variable es insignificante.
Posterior a ver los p valores de las variables se puede afirmar que Endemics es la unica variable significativa para el modelo, puesto que, como lo nombramos anteriormente, su p valor es < 0.05. Por otro lado se deduce que las variables Area, Elevation, Nearest, Scruz y Adjacent no son signficantes al modelo, es decir, un cambio en en esas variables no está asociado con el cambio en la respuesta final del modelo.
Note que los coeficientes de la variables (Area, Elevation, Nearest, Scruz y Adjacent) son muy cercanos a cero, entonces tiene sentido concluir que éstas no son significativas para el modelo y se pueden retirar, así como también el valor p nos lo indicó.
El coeficiente de determinación multiple o R-cuadrado es 0.9362, lo cual nos indica que el modelo explica en un 93% la variabilidad de los datos de respuesta en torno a su media. Y esto es bastante bueno.
A continuación, realizamos una predicción de la cantidad de especies estimada para cada isla. Posteriormente, se hace la comparación mediante un gráfico, donde se evidencian los errores.
## Numero de especies estimado
## Baltra 69.548232
## Bartolome 72.956216
## Caldwell -7.371508
## Champion 22.218429
## Coamano -13.144557
## Daphne.Major 26.597516
## Daphne.Minor -20.266924
## Darwin 6.403492
## Eden -1.142860
## Enderby -11.721599
## Espanola 90.875630
## Fernandina 84.636464
## Gardner1 57.794920
## Gardner2 -8.496779
## Genovesa 60.945142
## Isabela 357.767204
## Marchena 68.992131
## Onslow -7.694627
## Pinta 109.349785
## Pinzon 107.121290
## Las.Plazas 19.739135
## Rabida 99.881628
## SanCristobal 239.491159
## SanSalvador 305.219227
## SantaCruz 372.909915
## SantaFe 94.154529
## SantaMaria 277.383535
## Seymour 48.060734
## Tortuga 10.748584
## Wolf 24.043957
Podemos ver en el gráfico de los errores que la mayoria de los valores son cercanos a cero, lo cual es bueno, sin embargo se pueden envidenciar algunos que están bastante alejados, lo que nos permite afirmar que la estimación no es tan efectiva.
Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de \(O_{2}\) por unidad de peso seco de molusco.
Análisis
Después de conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar, se puede observar que el consumo de oxígeno es más alto en concentraciones de agua del 50% y menor consumo proviene de la concentración de agua del 75% (En los dos tipos de moluscos), de todas maneras, se puede observar que la diferencia de consumo de oxígenono no es muy alta en cada concentración de agua y en cada molusco.
##
## Call:
## lm(formula = datosm$cons_o ~ datosm$c_agua + datosm$molusco)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.1750 -1.9877 -0.7019 2.1244 6.1450
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 12.9463 0.8521 15.193 < 2e-16 ***
## datosm$c_agua75 -5.2581 1.0436 -5.038 8.49e-06 ***
## datosm$c_agua100 -3.5794 1.0436 -3.430 0.00132 **
## datosm$moluscoB -1.3913 0.8521 -1.633 0.10966
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.952 on 44 degrees of freedom
## Multiple R-squared: 0.3986, Adjusted R-squared: 0.3575
## F-statistic: 9.719 on 3 and 44 DF, p-value: 4.866e-05
El valor p de cada término evalúa la hipótesis nula de que el coeficiente es igual a cero (es decir, no hay efecto). Un valor p < 0.05 indica que la variable respectiva es significativa al modelo, por el contrario un valor p más grande indica que esa variable es insignificante.
Posterior a ver los p valores de las variables se puede afirmar que las concentraciones de agua al 75% y al 100% son las unicas variables significativas para el modelo, puesto que, como lo nombramos anteriormente, su p valor es < 0.05. Por otro lado se deduce que la variable MoluscoB no es significante al modelo, es decir, un cambio en el tipo de molusco no está asociado con el cambio en la respuesta final del modelo.
Esta metodologia permite analizar grandes conjuntos de datos numericos multivariados, es decir un conjunto amplio de variables e individuos. El objetivo principal es estudiar las correlaciones entre variables y similitudes entre individuos de una manera eficiente.
Primero trabajaremos con los datos que nos indican la calidad del café:
## Intensidad Aroma Cuerpo Acidez Amargo Astringencia Impresion
## ExCl 7.72 7.00 6.84 5.02 5.04 5.36 7.46
## C40M 6.02 5.42 6.22 4.34 4.60 4.78 6.24
## C40C 6.48 5.98 6.44 4.58 4.82 4.80 6.12
## C20M 6.82 6.44 6.70 4.62 4.38 4.80 6.04
## C20C 7.08 6.20 6.72 4.78 4.94 4.90 6.22
## ExOs 7.66 7.42 6.98 5.12 5.18 5.22 7.40
## O40M 6.18 5.82 6.26 4.00 4.46 4.96 5.90
## O40C 6.84 6.56 6.82 4.30 4.96 4.84 6.94
## O20M 6.66 7.06 6.70 4.64 5.00 4.90 6.90
## O20C 7.00 6.70 7.04 4.60 4.88 5.18 7.16
## Com1 6.48 5.46 7.06 4.60 5.26 5.16 5.68
## Com2 6.66 6.26 7.36 4.44 5.64 5.24 6.00
## Intensidad Aroma Cuerpo Acidez Amargo Astringencia Impresion
## Intensidad 1.00 0.82 0.51 0.85 0.34 0.60 0.76
## Aroma 0.82 1.00 0.40 0.64 0.23 0.39 0.85
## Cuerpo 0.51 0.40 1.00 0.42 0.82 0.70 0.22
## Acidez 0.85 0.64 0.42 1.00 0.36 0.49 0.58
## Amargo 0.34 0.23 0.82 0.36 1.00 0.66 0.16
## Astringencia 0.60 0.39 0.70 0.49 0.66 1.00 0.41
## Impresion 0.76 0.85 0.22 0.58 0.16 0.41 1.00
## inertia cum cum(%)
## Ax1 4.23477288 4.234773 60.49676
## Ax2 1.56511221 5.799885 82.85550
## Ax3 0.45899832 6.258883 89.41262
## Ax4 0.36186746 6.620751 94.58216
## Ax5 0.22183885 6.842590 97.75128
## Ax6 0.09046259 6.933052 99.04360
## Ax7 0.06694771 7.000000 100.00000
Después de hacer la descomposición espectral de la matriz de varianzas y covarianzas, vemos como queda distribuida la inercia y viendo los valores, se sugiere analizar las primeras dos componentes ya que con esas podemos estimar gran porcentaje del modelo (en este caso es del 82%)
Teniendo en cuenta los gráficos anteriores, se puede interpretar que ExCl y ExOs son los mejores cafés, puesto que están ubicados en la parte superior y a la izquiera, lo que indica que su Aroma e Impresión son bastante altos
Ahora, se trabajará con los datos que nos indican los contenidos quimicos del café:
## Color DA EA pH AcidezT Cafeina AcidosCl
## Color 1.00 0.73 0.27 -0.66 0.00 -0.38 -0.04
## DA 0.73 1.00 0.42 -0.27 -0.27 -0.52 -0.34
## EA 0.27 0.42 1.00 0.39 -0.95 -0.97 -0.95
## pH -0.66 -0.27 0.39 1.00 -0.58 -0.28 -0.51
## AcidezT 0.00 -0.27 -0.95 -0.58 1.00 0.90 0.98
## Cafeina -0.38 -0.52 -0.97 -0.28 0.90 1.00 0.91
## AcidosCl -0.04 -0.34 -0.95 -0.51 0.98 0.91 1.00
## inertia cum cum(%)
## Ax1 4.25677802 4.256778 60.81111
## Ax2 2.20488938 6.461667 92.30953
## Ax3 0.36229221 6.823960 97.48514
## Ax4 0.12971545 6.953675 99.33822
## Ax5 0.02556762 6.979243 99.70347
## Ax6 0.01436439 6.993607 99.90867
## Ax7 0.00639294 7.000000 100.00000
Después de hacer la descomposición espectral de la matriz de varianzas y covarianzas, vemos como queda distribuida la inercia y viendo los valores, sugiero analizar las primeras dos componentes ya que con esas podemos estimar gran porcentaje del modelo (en este caso es del 92%).
Después de ver y analizar el gráfico del circulo de correlaciones del primer plano factorial, se puede deducir que la Cafeina, AcidosCl y Acidezl están relacionadas fuertemente de manera directa y a su vez, estas tres se correlacionan con EA, pH, DA y Color de manera inversa, pero es más fuerte con la variable EA, puesto que esta está mas alejada.
Teniendo en cuenta los dos gráficos anteriores, se puede analizar que los cafés Com2 y ExCl son mas acidos en sus componentes quimicos.
## Species Endemics Area Elevation Nearest Scruz Adjacent
## Baltra 58 23 25.09 346 0.6 0.6 1.84
## Bartolome 31 21 1.24 109 0.6 26.3 572.33
## Caldwell 3 3 0.21 114 2.8 58.7 0.78
## Champion 25 9 0.10 46 1.9 47.4 0.18
## Coamano 2 1 0.05 77 1.9 1.9 903.82
## Daphne.Major 18 11 0.34 119 8.0 8.0 1.84
## The number of retained axes for factorial analysis is 3
##
## The number of axes for clustering is 7
## Look the histogram of 25 indexes
## Partition in 2 clusters
## Baltra Bartolome Caldwell Champion Coamano Daphne.Major
## 1 1 1 1 1 1
## Daphne.Minor Darwin Eden Enderby Espanola Fernandina
## 1 1 1 1 1 2
## Gardner1 Gardner2 Genovesa Isabela Marchena Onslow
## 1 1 1 2 1 1
## Pinta Pinzon Las.Plazas Rabida SanCristobal SanSalvador
## 1 1 1 1 2 2
## SantaCruz SantaFe SantaMaria Seymour Tortuga Wolf
## 2 1 2 1 1 1
## Levels: 1 2
## class: 1
## Test.Value Class.Mean Frequency Global.Mean
## Area -3.133 14.532 24 261.709
## Elevation -4.459 196.417 24 368.033
## Species -4.677 36.292 24 85.233
## Endemics -4.699 14.375 24 26.100
## ------------------------------------------------------------
## class: 2
## Test.Value Class.Mean Frequency Global.Mean
## Endemics 4.699 73.000 6 26.100
## Species 4.677 281.000 6 85.233
## Elevation 4.459 1054.500 6 368.033
## Area 3.133 1250.417 6 261.709
Análisis
Depués de verificar los gráficos, se decide seleccionar dos grupos.
Podemos concluir que las islas que corresponden al grupo 1, (Area, Elevation, Species, y Endemics) están evaluadas por debajo del promedio, puesto que su Test.Value es negativo. luego, estas variables son significativas al 95%.
Por el contrario, las variables del grupo 2, (Endemics, Species, Elevation y Area), estan evaluadas por encima del promedio, lo que nos indica, que en ese grupo, las islas tienen un gran tamaño, un gran numero de especies y un alto valor de altura maxima.