PRIMERA PARTE

Los datos del siguientes analisis son número de especies de plantas en 30 islas de Galápagos (Faraway, 2005). Además del número de especies, contiene las variables Endemic (número de especies endémicas), Area (km2), Elevation (altura máxima, m), Nearest (distancia a la isla más cercana, km), Scruz (distancia hasta la isla Santa Cruz, km), Adjacent (área de la isla adyacente, km2).

Análisis bivariado

Num. de especies vs Num. de especies endemicas

El coeficiente de correlación de Pearson es de r=0.9708765, lo cual significa que existe una correlación lineal positiva o relación directa y además es fuerte, es decir, una baja dispersión en la nuve de puntos.

Num. de especies vs Área

El coeficiente de correlación de Pearson es de r=0.6178431, lo cual significa que existe una correlación lineal positiva o relación directa y además es fuerte, es decir, una baja dispersión en la nuve de puntos.

Num. de especies vs Altura máxima

El coeficiente de correlación de Pearson es de r=0.7384867, lo cual significa que existe una correlación lineal positiva o relación directa y además es fuerte, es decir, una baja dispersión en la nuve de puntos.

Num. de especies vs Dis. isla más cercana

El coeficiente de correlación de Pearson es de r=-0.01409407, el cual significa que existe una correlación lineal negativa o relación inversa y además es casi nula, es decir, que existe una gran dispersión en la nube de punto.

Num. de especies vs Dis. isla Santa Cruz

El coeficiente de correlación de Pearson es de r=-0.1711424, el cual significa que existe una correlación lineal negativa o relación inversa y además es casi nula, es decir, que existe una gran dispersión en la nube de punto.

Num. de especies vs Área isla adyacente

El coeficiente de correlación de Pearson es de r=0.02616635, lo cual significa que existe una correlación lineal positiva o relación directa y además es fuerte, es decir, una baja dispersión en la nuve de puntos.

Estimacion del modelo de regresion lineal multiple

## 
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4 + x5 + x6)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -68.219 -10.225   1.830   9.557  71.090 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -15.337942   9.423550  -1.628    0.117    
## x1            4.393654   0.481203   9.131 4.13e-09 ***
## x2            0.013258   0.011403   1.163    0.257    
## x3           -0.047537   0.047596  -0.999    0.328    
## x4           -0.101460   0.500871  -0.203    0.841    
## x5            0.008256   0.105884   0.078    0.939    
## x6            0.001811   0.011879   0.152    0.880    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 28.96 on 23 degrees of freedom
## Multiple R-squared:  0.9494, Adjusted R-squared:  0.9362 
## F-statistic: 71.88 on 6 and 23 DF,  p-value: 9.674e-14

El valor p es <9.674e-14, podemos notar que valor p es demasiado pequeño por lo cual el resultado del estudio es fiable, es decir, la hipótesis de que existe una correlación entre las covariables y el número de especies es correcta, ya que este es muy cercano a cero.

Los coeficientes de las variables significativas son:

beta0=-15.337942, es el valor de la variable de respuesta cuando todos las variables explicativas son cero.

beta1= 4.393654, beta2=0.013258, beta3=-0.047537 y beta4=-0.101460, beta5=0.008256 y beta6=0.001811 son el efecto promedio que tiene el incremento en una unidad de la variable explicativa X sobre la variable de respuesta Y.

El coeficiente R2 es: R-squared:0.9494, el modelo explica el 94.94% de la variabilidad de los datos de respuesta en torno a su media.

Valores dados

##    gala.Species
## 1            58
## 2            31
## 3             3
## 4            25
## 5             2
## 6            18
## 7            24
## 8            10
## 9             8
## 10            2
## 11           97
## 12           93
## 13           58
## 14            5
## 15           40
## 16          347
## 17           51
## 18            2
## 19          104
## 20          108
## 21           12
## 22           70
## 23          280
## 24          237
## 25          444
## 26           62
## 27          285
## 28           44
## 29           16
## 30           21

Valores aproximados

##              predict.modelo..gala.
## Baltra                   69.548232
## Bartolome                72.956216
## Caldwell                 -7.371508
## Champion                 22.218429
## Coamano                 -13.144557
## Daphne.Major             26.597516
## Daphne.Minor            -20.266924
## Darwin                    6.403492
## Eden                     -1.142860
## Enderby                 -11.721599
## Espanola                 90.875630
## Fernandina               84.636464
## Gardner1                 57.794920
## Gardner2                 -8.496779
## Genovesa                 60.945142
## Isabela                 357.767204
## Marchena                 68.992131
## Onslow                   -7.694627
## Pinta                   109.349785
## Pinzon                  107.121290
## Las.Plazas               19.739135
## Rabida                   99.881628
## SanCristobal            239.491159
## SanSalvador             305.219227
## SantaCruz               372.909915
## SantaFe                  94.154529
## SantaMaria              277.383535
## Seymour                  48.060734
## Tortuga                  10.748584
## Wolf                     24.043957

Grafica del error de aproximacion

PARTE II

Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.

Analisis Exploratorio

El consumo de oxigeno en la concentracion 50 en promedio es mayor, en la concentracion 75 en promedio es menor y en la concentracion 100 en promedio esta entre los otros dos tipos de concentraciones.

Estas tendencias aproximadamente se mantienen para ambos tipos de moluscos.

Regresion con variables categoricas

## 
## Call:
## lm(formula = cons_o ~ molusco + c_agua, data = BD_moluscos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.8092 -2.2945 -0.6798  2.8297  7.3011 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 15.36948    1.91620   8.021 3.22e-10 ***
## moluscoB    -1.39125    0.97343  -1.429  0.15985    
## c_agua      -0.07159    0.02384  -3.002  0.00436 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.372 on 45 degrees of freedom
## Multiple R-squared:  0.1972, Adjusted R-squared:  0.1616 
## F-statistic: 5.528 on 2 and 45 DF,  p-value: 0.007132

El valor es 0.007132, es demasiado pequeño asi que se puede concluir que existe una correlación entre consumo de oxigeno y concentración de agua.

Los coeficientes de las variables significativas son:

beta0=15.36948 , es el valor de la variable de respuesta Y cuando las variables explicatovas son cero.

beta1=-1.39125 y beta_2=-0.07159, son el efecto promedio que tiene el incremento en una unidad de la variable explicativa X sobre la variable de respuesta Y.

El coeficiente R2 es 0.1972, el modelo no explica gran parte de la variabilidad de los datos de respuesta en torno a su media.

PARTE III

Se seleccionaron un total de 10 cafés que fueron evaluados en cuanto a características de calidad por un grupo de catadores expertos quienes evaluaron en una escala de cero a diez, algunos factores como la intensidad y el aroma del café.

Matriz de Correlaciones

##              Intensidad Aroma Cuerpo Acidez Amargo Astringencia
## Intensidad         1.00  0.83   0.84   0.87   0.70         0.78
## Aroma              0.83  1.00   0.86   0.72   0.71         0.66
## Cuerpo             0.84  0.86   1.00   0.67   0.66         0.62
## Acidez             0.87  0.72   0.67   1.00   0.67         0.61
## Amargo             0.70  0.71   0.66   0.67   1.00         0.56
## Astringencia       0.78  0.66   0.62   0.61   0.56         1.00

Matriz de covarianzas

##              Intensidad Aroma Cuerpo Acidez Amargo Astringencia
## Intensidad         0.31  0.29   0.13   0.16   0.10         0.09
## Aroma              0.29  0.38   0.15   0.15   0.12         0.08
## Cuerpo             0.13  0.15   0.08   0.06   0.05         0.04
## Acidez             0.16  0.15   0.06   0.11   0.06         0.04
## Amargo             0.10  0.12   0.05   0.06   0.07         0.03
## Astringencia       0.09  0.08   0.04   0.04   0.03         0.04

Matriz de varianzas

##              Intensidad Aroma Cuerpo Acidez Amargo Astringencia
## Intensidad         0.31  0.29   0.13   0.16   0.10         0.09
## Aroma              0.29  0.38   0.15   0.15   0.12         0.08
## Cuerpo             0.13  0.15   0.08   0.06   0.05         0.04
## Acidez             0.16  0.15   0.06   0.11   0.06         0.04
## Amargo             0.10  0.12   0.05   0.06   0.07         0.03
## Astringencia       0.09  0.08   0.04   0.04   0.03         0.04

Componentes Principales

##        inertia      cum    cum(%)
## Ax1 4.60147661 4.601477  76.69128
## Ax2 0.46937103 5.070848  84.51413
## Ax3 0.38451212 5.455360  90.92266
## Ax4 0.34461612 5.799976  96.66626
## Ax5 0.14487978 5.944856  99.08093
## Ax6 0.05514434 6.000000 100.00000

Sugiero analizar 2 componenetes principales dado que con ellas se logra preservar el 84.51% de la informacion original, lo cual es aceptable.

Circulo de Correlaciones

Las variables acidez, intensidad,aroma y cuerpo tienen una alta correlacionadas positiva porque estan muy cerca en el grafico.

Plano de individuos(Cafes)

Los cafes O40C,O20M y C20C son parecidos porque estan cerca en el grafico.

Por otro lado, a cada uno de los 10 cafés se les realizaron pruebas químicas para evaluar algunas características como el nivel de cafeína, la densidad aparente (DA), el pH, los ácidos cítricos entre otras.

Matriz de Correlaciones

##              Intensidad Aroma Cuerpo Acidez Amargo Astringencia Color    DA
## Intensidad         1.00  0.83   0.84   0.87   0.70         0.78 -0.46 -0.74
## Aroma              0.83  1.00   0.86   0.72   0.71         0.66 -0.76 -0.81
## Cuerpo             0.84  0.86   1.00   0.67   0.66         0.62 -0.68 -0.78
## Acidez             0.87  0.72   0.67   1.00   0.67         0.61 -0.25 -0.61
## Amargo             0.70  0.71   0.66   0.67   1.00         0.56 -0.63 -0.80
## Astringencia       0.78  0.66   0.62   0.61   0.56         1.00 -0.51 -0.63
## Color             -0.46 -0.76  -0.68  -0.25  -0.63        -0.51  1.00  0.79
## DA                -0.74 -0.81  -0.78  -0.61  -0.80        -0.63  0.79  1.00
## pH                -0.22  0.17   0.03  -0.45   0.07         0.07 -0.71 -0.27
## AcidezT            0.78  0.47   0.48   0.82   0.33         0.60  0.11 -0.34
## Cafeina            0.88  0.79   0.67   0.89   0.53         0.76 -0.32 -0.63
## AcidosCl           0.81  0.57   0.53   0.88   0.38         0.63  0.01 -0.41
##                 pH AcidezT Cafeina AcidosCl
## Intensidad   -0.22    0.78    0.88     0.81
## Aroma         0.17    0.47    0.79     0.57
## Cuerpo        0.03    0.48    0.67     0.53
## Acidez       -0.45    0.82    0.89     0.88
## Amargo        0.07    0.33    0.53     0.38
## Astringencia  0.07    0.60    0.76     0.63
## Color        -0.71    0.11   -0.32     0.01
## DA           -0.27   -0.34   -0.63    -0.41
## pH            1.00   -0.67   -0.29    -0.60
## AcidezT      -0.67    1.00    0.88     0.98
## Cafeina      -0.29    0.88    1.00     0.94
## AcidosCl     -0.60    0.98    0.94     1.00

Matriz de covarianzas

##              Intensidad  Aroma Cuerpo Acidez Amargo Astringencia   Color
## Intensidad         0.31   0.29   0.13   0.16   0.10         0.09  -15.04
## Aroma              0.29   0.38   0.15   0.15   0.12         0.08  -27.39
## Cuerpo             0.13   0.15   0.08   0.06   0.05         0.04  -11.28
## Acidez             0.16   0.15   0.06   0.11   0.06         0.04   -4.93
## Amargo             0.10   0.12   0.05   0.06   0.07         0.03   -9.63
## Astringencia       0.09   0.08   0.04   0.04   0.03         0.04   -6.21
## Color            -15.04 -27.39 -11.28  -4.93  -9.63        -6.21 3450.90
## DA               -17.16 -20.88  -9.16  -8.45  -8.77        -5.43 1931.54
## pH                -0.02   0.02   0.00  -0.02   0.00         0.00   -6.48
## AcidezT            0.92   0.62   0.29   0.58   0.18         0.26   13.72
## Cafeina            0.11   0.11   0.04   0.07   0.03         0.04   -4.34
## AcidosCl           0.20   0.16   0.07   0.13   0.04         0.06    0.21
##                   DA    pH AcidezT Cafeina AcidosCl
## Intensidad    -17.16 -0.02    0.92    0.11     0.20
## Aroma         -20.88  0.02    0.62    0.11     0.16
## Cuerpo         -9.16  0.00    0.29    0.04     0.07
## Acidez         -8.45 -0.02    0.58    0.07     0.13
## Amargo         -8.77  0.00    0.18    0.03     0.04
## Astringencia   -5.43  0.00    0.26    0.04     0.06
## Color        1931.54 -6.48   13.72   -4.34     0.21
## DA           1733.54 -1.72  -29.96   -5.95    -7.63
## pH             -1.72  0.02   -0.22   -0.01    -0.04
## AcidezT       -29.96 -0.22    4.54    0.43     0.94
## Cafeina        -5.95 -0.01    0.43    0.05     0.10
## AcidosCl       -7.63 -0.04    0.94    0.10     0.20

Matriz de varianzas

##              Intensidad  Aroma Cuerpo Acidez Amargo Astringencia   Color
## Intensidad         0.31   0.29   0.13   0.16   0.10         0.09  -15.04
## Aroma              0.29   0.38   0.15   0.15   0.12         0.08  -27.39
## Cuerpo             0.13   0.15   0.08   0.06   0.05         0.04  -11.28
## Acidez             0.16   0.15   0.06   0.11   0.06         0.04   -4.93
## Amargo             0.10   0.12   0.05   0.06   0.07         0.03   -9.63
## Astringencia       0.09   0.08   0.04   0.04   0.03         0.04   -6.21
## Color            -15.04 -27.39 -11.28  -4.93  -9.63        -6.21 3450.90
## DA               -17.16 -20.88  -9.16  -8.45  -8.77        -5.43 1931.54
## pH                -0.02   0.02   0.00  -0.02   0.00         0.00   -6.48
## AcidezT            0.92   0.62   0.29   0.58   0.18         0.26   13.72
## Cafeina            0.11   0.11   0.04   0.07   0.03         0.04   -4.34
## AcidosCl           0.20   0.16   0.07   0.13   0.04         0.06    0.21
##                   DA    pH AcidezT Cafeina AcidosCl
## Intensidad    -17.16 -0.02    0.92    0.11     0.20
## Aroma         -20.88  0.02    0.62    0.11     0.16
## Cuerpo         -9.16  0.00    0.29    0.04     0.07
## Acidez         -8.45 -0.02    0.58    0.07     0.13
## Amargo         -8.77  0.00    0.18    0.03     0.04
## Astringencia   -5.43  0.00    0.26    0.04     0.06
## Color        1931.54 -6.48   13.72   -4.34     0.21
## DA           1733.54 -1.72  -29.96   -5.95    -7.63
## pH             -1.72  0.02   -0.22   -0.01    -0.04
## AcidezT       -29.96 -0.22    4.54    0.43     0.94
## Cafeina        -5.95 -0.01    0.43    0.05     0.10
## AcidosCl       -7.63 -0.04    0.94    0.10     0.20

Componentes Principales

##        inertia      cum    cum(%)
## Ax1 7.57389986  7.57390  63.11583
## Ax2 2.88991089 10.46381  87.19842
## Ax3 0.60177036 11.06558  92.21318
## Ax4 0.38830444 11.45389  95.44905
## Ax5 0.24642988 11.70032  97.50263
## Ax6 0.15677898 11.85709  98.80912
## Ax7 0.07184318 11.92894  99.40781
## Ax8 0.04578521 11.97472  99.78936
## Ax9 0.02527719 12.00000 100.00000

Sugiero analizar 2 componenetes principales dado que con ellas se logra preservar el 87.19% de la informacion original, lo cual es aceptable.

Circulo de Correlaciones

Las variables acidosCl y acidozT tienen una alta correlacionadas positiva porque estan muy cerca en el grafico.

Las variables intensidad y astringencia tienen una alta correlacionadas positiva porque estan muy cerca en el grafico.

Las variables cafeina y acidez tienen una alta correlacionadas positiva porque estan muy cerca en el grafico.

Las variables aroma, amargo y cuerpo tienen una alta correlacionadas positiva porque estan muy cerca en el grafico y tienen una alta correlacion negativa con respecto a la variable DA.

Plano de individuos(Cafes)

Los cafes O20M,O20C son parecidos porque estan cerca en el grafico.

PARTE IV

Analisis de conglomerados

## The number of retained axes for factorial analysis is  2 
## 
## The number of axes for clustering is  2
## Look the histogram of 25 indexes 
## Partition in  3  clusters
##       Baltra    Bartolome     Caldwell     Champion      Coamano Daphne.Major 
##            1            1            1            1            1            1 
## Daphne.Minor       Darwin         Eden      Enderby     Espanola   Fernandina 
##            1            2            1            1            1            3 
##     Gardner1     Gardner2     Genovesa      Isabela     Marchena       Onslow 
##            1            1            2            3            2            1 
##        Pinta       Pinzon   Las.Plazas       Rabida SanCristobal  SanSalvador 
##            2            1            1            1            2            3 
##    SantaCruz      SantaFe   SantaMaria      Seymour      Tortuga         Wolf 
##            3            1            3            1            1            2 
## Levels: 1 2 3
## class: 1
##           Test.Value Class.Mean Frequency Global.Mean
## Area          -2.120      7.220        19     261.709
## Scruz         -2.644     31.984        19      56.977
## Nearest       -3.098      3.916        19      10.060
## Species       -3.221     33.947        19      85.233
## Endemics      -3.450     13.000        19      26.100
## Elevation     -3.501    163.000        19     368.033
## ------------------------------------------------------------ 
## class: 2
##         Test.Value Class.Mean Frequency Global.Mean
## Nearest      5.073     36.500         6      10.060
## Scruz        3.806    151.533         6      56.977
## ------------------------------------------------------------ 
## class: 3
##           Test.Value Class.Mean Frequency Global.Mean
## Elevation      4.382   1122.200         5     368.033
## Endemics       4.347     74.600         5      26.100
## Species        4.187    281.200         5      85.233
## Area           3.199   1390.176         5     261.709
## Adjacent       2.269   1061.864         5     261.098

El numero de conglomerados que sugiere el dendograma es 3 dado que es en este punto donde se da el salto mas grande.

Caracterizacion:

El grupo 1 tiene un área,distancia hasta la isla Santa Cruz,distancia a la isla más cercana, número de especies, número de especies endémicas y altura máxima promedio significativamente menor que el total de Islas.

El grupo 2 tiene una distancia a la isla más cercana y distancia hasta la isla Santa Cruz promedio significativamente mayor que el total de Islas.

El grupo 3 tiene una altura máxima, número de especies endémicas, número de especies, área y área de la isla adyacente promedio significativamente mayor que el total de Islas.