Punto 1 – Regresión Lineal Múltiple

A continuación se presentaron la siguiente base de datos, la cual contiene como datos lo sigiente: número de especies de tortugas en 30 islas de Galápagos (Faraway,2005). Contiene las variables Endemic (número de especies endémicas), Area (km2), Elevation (altura máxima, m), Nearest (distancia a la isla más cercana,km), Scruz (distancia hasta la isla Santa Cruz, km), Adjacent (área de la isla adyacente, km2).

Punto 1.1

Realice un análisis bivariado para cada variable (incluir grafico y coeficiente de correlación) interpretar.

load("C:/Users/Familia Lora Duran/Desktop/Luis felipe/Universidad/semestre 2020-1/Bioestadistica/gala.RData")
gala
##              Species Endemics    Area Elevation Nearest Scruz Adjacent
## Baltra            58       23   25.09       346     0.6   0.6     1.84
## Bartolome         31       21    1.24       109     0.6  26.3   572.33
## Caldwell           3        3    0.21       114     2.8  58.7     0.78
## Champion          25        9    0.10        46     1.9  47.4     0.18
## Coamano            2        1    0.05        77     1.9   1.9   903.82
## Daphne.Major      18       11    0.34       119     8.0   8.0     1.84
## Daphne.Minor      24        0    0.08        93     6.0  12.0     0.34
## Darwin            10        7    2.33       168    34.1 290.2     2.85
## Eden               8        4    0.03        71     0.4   0.4    17.95
## Enderby            2        2    0.18       112     2.6  50.2     0.10
## Espanola          97       26   58.27       198     1.1  88.3     0.57
## Fernandina        93       35  634.49      1494     4.3  95.3  4669.32
## Gardner1          58       17    0.57        49     1.1  93.1    58.27
## Gardner2           5        4    0.78       227     4.6  62.2     0.21
## Genovesa          40       19   17.35        76    47.4  92.2   129.49
## Isabela          347       89 4669.32      1707     0.7  28.1   634.49
## Marchena          51       23  129.49       343    29.1  85.9    59.56
## Onslow             2        2    0.01        25     3.3  45.9     0.10
## Pinta            104       37   59.56       777    29.1 119.6   129.49
## Pinzon           108       33   17.95       458    10.7  10.7     0.03
## Las.Plazas        12        9    0.23        94     0.5   0.6    25.09
## Rabida            70       30    4.89       367     4.4  24.4   572.33
## SanCristobal     280       65  551.62       716    45.2  66.6     0.57
## SanSalvador      237       81  572.33       906     0.2  19.8     4.89
## SantaCruz        444       95  903.82       864     0.6   0.0     0.52
## SantaFe           62       28   24.08       259    16.5  16.5     0.52
## SantaMaria       285       73  170.92       640     2.6  49.2     0.10
## Seymour           44       16    1.84       147     0.6   9.6    25.09
## Tortuga           16        8    1.24       186     6.8  50.9    17.95
## Wolf              21       12    2.85       253    34.1 254.7     2.33
library(psych)
pairs.panels(gala[,c(1,2,3,4,5,6,7)])

pairs.panels(gala[,c(1,2,3,4)])

Como se puede observar en lo gráficos la variable de respuesta (Especies) tiene un coeficiente de correlación de 0.97 con respecto a la variable Endemicos. Este es un valor muy cercano a 1, lo que quiere decir que esta variable (Endemicas) es la que tiene la relación positiva mas fuerte con respecto a la variable de respuesta.

En cuanto al resto de las variables, vemos que la Elevacion y el Area (0.74 y 0.62) tienen una relación positiva tambien fuerte en relacion con la variable de respuesta.

Punto 1.2

Estime el modelo de regresión múltiple e interprete el valor p, los coeficientes significativos y el R2.

especies = gala$Species
endemicos = gala$Endemics
area = gala$Area
elevacion = gala$Elevation
distancia = gala$Nearest
cruz= gala$Scruz
adyacente= gala$Adjacent
mod = lm(especies ~ endemicos+area+elevacion+distancia+cruz+ adyacente) 
summary(mod)
## 
## Call:
## lm(formula = especies ~ endemicos + area + elevacion + distancia + 
##     cruz + adyacente)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -68.219 -10.225   1.830   9.557  71.090 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -15.337942   9.423550  -1.628    0.117    
## endemicos     4.393654   0.481203   9.131 4.13e-09 ***
## area          0.013258   0.011403   1.163    0.257    
## elevacion    -0.047537   0.047596  -0.999    0.328    
## distancia    -0.101460   0.500871  -0.203    0.841    
## cruz          0.008256   0.105884   0.078    0.939    
## adyacente     0.001811   0.011879   0.152    0.880    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 28.96 on 23 degrees of freedom
## Multiple R-squared:  0.9494, Adjusted R-squared:  0.9362 
## F-statistic: 71.88 on 6 and 23 DF,  p-value: 9.674e-14

Como se puede observar en los resultados de los coeficientes el valos de ß1 que tiene mas importancia es el valor de la variable endemicos ya que el valor p es el menor de todos; ademas que por cada especie endemica que haya en las islas habra 4 especies

El valor p para las tres variables que tienen mas relación con las especies es 4.13e-09, 0.257 y 0.328, son significativas ya que no supera el 5 %, siendo el valor p de la variable endemicas el mas importante.

El valor del Coeficiente de r^2 da 0.9494 ~ 0.95 o (95%), esto da a entender que el modelo explica el 95% de la relación de las variables con respecto a la variable de respuesta (especies)

Punto 1.3

Realice una predicción de la cantidad de especies estimada para cada isla. Compare los resultados estimados frente a los reales (errores) y graficarlos.

library(ggplot2)
library(plotly)
nuevas_especies = predict(mod, list(endemicos+area+elevacion+distancia+cruz+ adyacente))
nuevas_especies
##          1          2          3          4          5          6          7 
##  69.548232  72.956216  -7.371508  22.218429 -13.144557  26.597516 -20.266924 
##          8          9         10         11         12         13         14 
##   6.403492  -1.142860 -11.721599  90.875630  84.636464  57.794920  -8.496779 
##         15         16         17         18         19         20         21 
##  60.945142 357.767204  68.992131  -7.694627 109.349785 107.121290  19.739135 
##         22         23         24         25         26         27         28 
##  99.881628 239.491159 305.219227 372.909915  94.154529 277.383535  48.060734 
##         29         30 
##  10.748584  24.043957
coef(summary(mod))
##                  Estimate Std. Error     t value     Pr(>|t|)
## (Intercept) -15.337942100 9.42354972 -1.62761831 1.172290e-01
## endemicos     4.393653649 0.48120339  9.13055416 4.132146e-09
## area          0.013258111 0.01140335  1.16265101 2.568931e-01
## elevacion    -0.047537328 0.04759612 -0.99876483 3.283012e-01
## distancia    -0.101459511 0.50087090 -0.20256619 8.412553e-01
## cruz          0.008255847 0.10588384  0.07797079 9.385256e-01
## adyacente     0.001810681 0.01187860  0.15243224 8.801754e-01
g2 = ggplot(gala, aes(x=especies,y = nuevas_especies))+geom_point()+geom_smooth(method="lm")+theme_bw()
ggplotly(g2)

Lo que podemos observar en la grafica, es que las especies predichas por el modelo (los puntos negros en la grafica), estan cerca de las especies que se reportaron (la lina azul), lo que demuestra que se obtuvo un buen muestreo que abarco un numero considerable de especies.

Punto 2 – Modelo de Diseño de Experimentos

Se tiene dos tipos de moluscos A y B, los cuales fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.

load("C:/Users/Familia Lora Duran/Desktop/Luis felipe/Universidad/semestre 2020-1/Bioestadistica/moluscos.RData")
BD_moluscos
## # A tibble: 48 x 3
##    c_agua molusco cons_o
##     <dbl> <chr>    <dbl>
##  1    100 A         7.16
##  2    100 A         8.26
##  3    100 A         6.78
##  4    100 A        14   
##  5    100 A        13.6 
##  6    100 A        11.1 
##  7    100 A         8.93
##  8    100 A         9.66
##  9    100 B         6.14
## 10    100 B         6.14
## # ... with 38 more rows

Punto 2.1

Realice un análisis exploratorio que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar. y si estas conclusiones son las mismas para cada tipo de molusco.

summary(BD_moluscos)
##      c_agua      molusco              cons_o      
##  Min.   : 50   Length:48          Min.   : 1.800  
##  1st Qu.: 50   Class :character   1st Qu.: 6.312  
##  Median : 75   Mode  :character   Median : 9.700  
##  Mean   : 75                      Mean   : 9.305  
##  3rd Qu.:100                      3rd Qu.:11.232  
##  Max.   :100                      Max.   :18.800
library(ggplot2)
library(plotly)
consu_O = BD_moluscos$cons_o
concen_A= BD_moluscos$c_agua
tipo_mo = BD_moluscos$molusco
g1=ggplot(data=BD_moluscos,aes(y=consu_O,x=concen_A,fill=concen_A))+geom_boxplot()+theme_bw()
ggplotly(g1)
g3=ggplot(data=BD_moluscos,aes(y=consu_O,x=concen_A,fill=tipo_mo))+geom_boxplot()+facet_grid(~molusco)+theme_bw()
ggplotly(g3)

El consumo de oxígeno para cada tipo de molusco son parecidas, ya que se observan valores muy cercanos en las distintas concentraciones de agua de mar, por lo que podemos decir que el tipo de molusco no es una variable que afecte el consumo de oxígemo.

Punto 2.2

Estime el modelo de diseño de experimentos

modelo = lm(consu_O ~ concen_A+tipo_mo)
modelo
## 
## Call:
## lm(formula = consu_O ~ concen_A + tipo_mo)
## 
## Coefficients:
## (Intercept)     concen_A     tipo_moB  
##    15.36948     -0.07159     -1.39125
summary(modelo) #resumen de los datos
## 
## Call:
## lm(formula = consu_O ~ concen_A + tipo_mo)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.8092 -2.2945 -0.6798  2.8297  7.3011 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 15.36948    1.91620   8.021 3.22e-10 ***
## concen_A    -0.07159    0.02384  -3.002  0.00436 ** 
## tipo_moB    -1.39125    0.97343  -1.429  0.15985    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.372 on 45 degrees of freedom
## Multiple R-squared:  0.1972, Adjusted R-squared:  0.1616 
## F-statistic: 5.528 on 2 and 45 DF,  p-value: 0.007132
coefficients(modelo)
## (Intercept)    concen_A    tipo_moB 
##  15.3694792  -0.0715875  -1.3912500

El nivel de significancia de la concentracion de agua es de 0.00436 y el valor p para la variable que tienen mas relación con el consumo de oxigemo es 0.007132, no supera el 5 %, lo que nos muestra que las medias son difernetes.

El valor del Coeficiente de r^2 da 0.1972 ~ 0.20 o (20%), esto da a entender que el modelo explica el solomente el 20% de la relación de las variables con respecto a la variable de respuesta (consumo de oxigeno)

###Postanova —Prueba de comparación múltiple

mod1=lm(consu_O~ concen_A *tipo_mo)
anova(mod1) ##Análisis de varianza  Valor p= 0 (Asteriscos también) Hay diferencias significativas
## Analysis of Variance Table
## 
## Response: consu_O
##                  Df Sum Sq Mean Sq F value   Pr(>F)   
## concen_A          1 102.50 102.495  9.0684 0.004298 **
## tipo_mo           1  23.23  23.227  2.0550 0.158773   
## concen_A:tipo_mo  1  14.38  14.378  1.2721 0.265481   
## Residuals        44 497.31  11.302                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Como se puede observar, al realizar la anova ni el tipo de molusco ni el tipo de moluco mas la concentracion de agua es significativo, la unica variable que tiene un valor p menor a 0.5 es la concentracion de agua.

Punto 3 - Análisis de Componentes Principales

 load("C:/Users/Familia Lora Duran/Desktop/Luis felipe/Universidad/semestre 2020-1/Bioestadistica/cafe.Rdata")

Punto 3.1

ACP

library(FactoClass)
library(FactoMineR)
library(ade4)
acp_cafe = dudi.pca(df = cafe_calidad, scannf = FALSE, nf = 2)

acp_cafe
## Duality diagramm
## class: pca dudi
## $call: dudi.pca(df = cafe_calidad, scannf = FALSE, nf = 2)
## 
## $nf: 2 axis-components saved
## $rank: 6
## eigen values: 4.601 0.4694 0.3845 0.3446 0.1449 ...
##   vector length mode    content       
## 1 $cw    6      numeric column weights
## 2 $lw    10     numeric row weights   
## 3 $eig   6      numeric eigen values  
## 
##   data.frame nrow ncol content             
## 1 $tab       10   6    modified array      
## 2 $li        10   2    row coordinates     
## 3 $l1        10   2    row normed scores   
## 4 $co        6    2    column coordinates  
## 5 $c1        6    2    column normed scores
## other elements: cent norm
inertia.dudi(acp_cafe)
## Inertia information:
## Call: inertia.dudi(x = acp_cafe)
## 
## Decomposition of total inertia:
##     inertia     cum  cum(%)
## Ax1 4.60148   4.601   76.69
## Ax2 0.46937   5.071   84.51
## Ax3 0.38451   5.455   90.92
## Ax4 0.34462   5.800   96.67
## Ax5 0.14488   5.945   99.08
## Ax6 0.05514   6.000  100.00

Como se puede observar las tres primeras componentes recogen 84.5 % de los datos, por lo que se suguiere seguir con el analisis a partir de estos dos componentes, ya que el porcentaje es alto y recoje una fuerte cantidfad de datos.

Punto 3.2 y 3.3

s.corcircle(acp_cafe$co[,1:2])

s.label(acp_cafe$li[,1:2])

Circulo de correlaciones e individuos

Segun el grafico de circulo de correlaciones, se puede observar que: la acidez, el cuerpo, la amargura y la intencidad estan muy correlacioandas entre si, por lo que estas caracteristicas son muy importantes para determinar la calidad del cafe

grafico de los individuos del primer plano factorial

Ahora bien, con el grafico se puede observar que los cafes excelsos claro y oscuro fueron los que mejor calidad tuvieron, ya que se encuentran mas al extremo del grafico, despues se encuentran los cafes de calidad intermedia que son: claro 20% maiz, claro 40% cebada, oscuro 40% cebada, claro 20% cebada y oscuro 20% maiz; por ultimo los que tienen menos valoracion de la calidad son los cafes oscuros 40% maiz y claro 40% maiz.

Punto 3.5 a 3.9

ACP

cafes = data.frame(cafe_calidad,cafe_quimica)
acp_cafes = dudi.pca(df = cafes, scannf = FALSE, nf = 2)

inertia.dudi(acp_cafes)
## Inertia information:
## Call: inertia.dudi(x = acp_cafes)
## 
## Decomposition of total inertia:
##     inertia     cum  cum(%)
## Ax1 7.57390   7.574   63.12
## Ax2 2.88991  10.464   87.20
## Ax3 0.60177  11.066   92.21
## Ax4 0.38830  11.454   95.45
## Ax5 0.24643  11.700   97.50
## Ax6 0.15678  11.857   98.81
## Ax7 0.07184  11.929   99.41
## Ax8 0.04579  11.975   99.79
## Ax9 0.02528  12.000  100.00

Las tres primeras componentes recogen 87.2 % de los datos, por lo que se suguiere seguir con el analisis a partir de estos dos componentes, ya que el porcentaje es alto y recoje una fuerte cantidfad de datos.

Circulo de correlaciones e individuos

s.corcircle(acp_cafes$co[,1:2])

Segun el grafico de circulo de correlaciones, se puede observar que: la acidez, el cuerpo, la amargura, la intencidad, la acides y la cafeina estan muy correlacioandas entre si, por lo que estas caracteristicas son muy importantes para determinar la calidad del cafe

grafico de los individuos del primer plano factorial

s.label(acp_cafes$li[,1:2])

tipos = c("E","M","C","M","C","E","M","C","M","C")
tipos = as.factor(tipos)
s.class(acp_cafes$l1[,1:2], fac = tipos)

Ahora bien, el grafico anterior muestra que los cafes excelsos fueron los que mejores evaluados estuvieron en cuanto a calidad, ya que se encuentran mas al extremo del grafico, despues se encuentran los cafes de calidad intermedia que son: claro 20% maiz, claro 40% cebada, oscuro 40% cebada, claro 20% cebada y oscuro 20% maiz; por ultimo los que tienen menos valoracion de la calidad son los cafes oscuros 40% maiz y claro 40% maiz.

Punto 4 - Clasificación usando FactoCLass

Análisis de conglomerados que permita identificar las islas que son mas similares y que características tienen dichas islas

load("C:/Users/Familia Lora Duran/Desktop/Luis felipe/Universidad/semestre 2020-1/Bioestadistica/gala.RData")
library(FactoClass)

cluster_islas = FactoClass(dfact = gala,metodo =dudi.pca,nf=2,nfcl=2, k.clust = 3,scanFC = FALSE)
## The number of retained axes for factorial analysis is  2 
## 
## The number of axes for clustering is  2
## Look the histogram of 25 indexes 
## Partition in  3  clusters

El dendograma nos muestra que debe ser fraccioando en 3 closters

cluster_islas$cluster
##       Baltra    Bartolome     Caldwell     Champion      Coamano Daphne.Major 
##            1            1            1            1            1            1 
## Daphne.Minor       Darwin         Eden      Enderby     Espanola   Fernandina 
##            1            2            1            1            1            3 
##     Gardner1     Gardner2     Genovesa      Isabela     Marchena       Onslow 
##            1            1            2            3            2            1 
##        Pinta       Pinzon   Las.Plazas       Rabida SanCristobal  SanSalvador 
##            2            1            1            1            2            3 
##    SantaCruz      SantaFe   SantaMaria      Seymour      Tortuga         Wolf 
##            3            1            3            1            1            2 
## Levels: 1 2 3
cluster_islas$carac.cont
## class: 1
##           Test.Value Class.Mean Frequency Global.Mean
## Area          -2.120      7.220        19     261.709
## Scruz         -2.644     31.984        19      56.977
## Nearest       -3.098      3.916        19      10.060
## Species       -3.221     33.947        19      85.233
## Endemics      -3.450     13.000        19      26.100
## Elevation     -3.501    163.000        19     368.033
## ------------------------------------------------------------ 
## class: 2
##         Test.Value Class.Mean Frequency Global.Mean
## Nearest      5.073     36.500         6      10.060
## Scruz        3.806    151.533         6      56.977
## ------------------------------------------------------------ 
## class: 3
##           Test.Value Class.Mean Frequency Global.Mean
## Elevation      4.382   1122.200         5     368.033
## Endemics       4.347     74.600         5      26.100
## Species        4.187    281.200         5      85.233
## Area           3.199   1390.176         5     261.709
## Adjacent       2.269   1061.864         5     261.098

Para las clases 1 podemos observar que los valores para las varaibles area, distacia a la isla santa cruz, distancia a la isla más cercana, numero de especies, especies endimicas y elevacion estan por debajo del promedio global, siendo edemicas, area y elevacion las variables mas representativas con respecto a la variable de respuesta (el numero de especies). Por lo que se puede concluir que estas islas son las que menos proporcion de especies tienen en comparacion con las otras.

Para la clase 2 podemos observar que las variables que mejor explican el numero de especies no aparecen, aun teineindo gran cantidad de especies y especies endemicas, por lo que seria interesante realizar estudios sobre estas islas obervar que otras variables puden explicar el numero de especies

En la clase 3 los valores que aparecen estan por encima del promedio global, ademas aparecen las variables endemicos,area y elevacion, lo que nos muestra que estas islas tienen un gran numero de especies, ya que la variable endemicas , la cual es la variable que mas fuerza se relaciona con el numero de especies esta por encima del promedio global.