A continuación se presentaron la siguiente base de datos, la cual contiene como datos lo sigiente: número de especies de tortugas en 30 islas de Galápagos (Faraway,2005). Contiene las variables Endemic (número de especies endémicas), Area (km2), Elevation (altura máxima, m), Nearest (distancia a la isla más cercana,km), Scruz (distancia hasta la isla Santa Cruz, km), Adjacent (área de la isla adyacente, km2).
Realice un análisis bivariado para cada variable (incluir grafico y coeficiente de correlación) interpretar.
load("C:/Users/Familia Lora Duran/Desktop/Luis felipe/Universidad/semestre 2020-1/Bioestadistica/gala.RData")
gala
## Species Endemics Area Elevation Nearest Scruz Adjacent
## Baltra 58 23 25.09 346 0.6 0.6 1.84
## Bartolome 31 21 1.24 109 0.6 26.3 572.33
## Caldwell 3 3 0.21 114 2.8 58.7 0.78
## Champion 25 9 0.10 46 1.9 47.4 0.18
## Coamano 2 1 0.05 77 1.9 1.9 903.82
## Daphne.Major 18 11 0.34 119 8.0 8.0 1.84
## Daphne.Minor 24 0 0.08 93 6.0 12.0 0.34
## Darwin 10 7 2.33 168 34.1 290.2 2.85
## Eden 8 4 0.03 71 0.4 0.4 17.95
## Enderby 2 2 0.18 112 2.6 50.2 0.10
## Espanola 97 26 58.27 198 1.1 88.3 0.57
## Fernandina 93 35 634.49 1494 4.3 95.3 4669.32
## Gardner1 58 17 0.57 49 1.1 93.1 58.27
## Gardner2 5 4 0.78 227 4.6 62.2 0.21
## Genovesa 40 19 17.35 76 47.4 92.2 129.49
## Isabela 347 89 4669.32 1707 0.7 28.1 634.49
## Marchena 51 23 129.49 343 29.1 85.9 59.56
## Onslow 2 2 0.01 25 3.3 45.9 0.10
## Pinta 104 37 59.56 777 29.1 119.6 129.49
## Pinzon 108 33 17.95 458 10.7 10.7 0.03
## Las.Plazas 12 9 0.23 94 0.5 0.6 25.09
## Rabida 70 30 4.89 367 4.4 24.4 572.33
## SanCristobal 280 65 551.62 716 45.2 66.6 0.57
## SanSalvador 237 81 572.33 906 0.2 19.8 4.89
## SantaCruz 444 95 903.82 864 0.6 0.0 0.52
## SantaFe 62 28 24.08 259 16.5 16.5 0.52
## SantaMaria 285 73 170.92 640 2.6 49.2 0.10
## Seymour 44 16 1.84 147 0.6 9.6 25.09
## Tortuga 16 8 1.24 186 6.8 50.9 17.95
## Wolf 21 12 2.85 253 34.1 254.7 2.33
library(psych)
pairs.panels(gala[,c(1,2,3,4,5,6,7)])
pairs.panels(gala[,c(1,2,3,4)])
Como se puede observar en lo gráficos la variable de respuesta (Especies) tiene un coeficiente de correlación de 0.97 con respecto a la variable Endemicos. Este es un valor muy cercano a 1, lo que quiere decir que esta variable (Endemicas) es la que tiene la relación positiva mas fuerte con respecto a la variable de respuesta.
En cuanto al resto de las variables, vemos que la Elevacion y el Area (0.74 y 0.62) tienen una relación positiva tambien fuerte en relacion con la variable de respuesta.
Estime el modelo de regresión múltiple e interprete el valor p, los coeficientes significativos y el R2.
especies = gala$Species
endemicos = gala$Endemics
area = gala$Area
elevacion = gala$Elevation
distancia = gala$Nearest
cruz= gala$Scruz
adyacente= gala$Adjacent
mod = lm(especies ~ endemicos+area+elevacion+distancia+cruz+ adyacente)
summary(mod)
##
## Call:
## lm(formula = especies ~ endemicos + area + elevacion + distancia +
## cruz + adyacente)
##
## Residuals:
## Min 1Q Median 3Q Max
## -68.219 -10.225 1.830 9.557 71.090
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -15.337942 9.423550 -1.628 0.117
## endemicos 4.393654 0.481203 9.131 4.13e-09 ***
## area 0.013258 0.011403 1.163 0.257
## elevacion -0.047537 0.047596 -0.999 0.328
## distancia -0.101460 0.500871 -0.203 0.841
## cruz 0.008256 0.105884 0.078 0.939
## adyacente 0.001811 0.011879 0.152 0.880
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 28.96 on 23 degrees of freedom
## Multiple R-squared: 0.9494, Adjusted R-squared: 0.9362
## F-statistic: 71.88 on 6 and 23 DF, p-value: 9.674e-14
Como se puede observar en los resultados de los coeficientes el valos de ß1 que tiene mas importancia es el valor de la variable endemicos ya que el valor p es el menor de todos; ademas que por cada especie endemica que haya en las islas habra 4 especies
El valor p para las tres variables que tienen mas relación con las especies es 4.13e-09, 0.257 y 0.328, son significativas ya que no supera el 5 %, siendo el valor p de la variable endemicas el mas importante.
El valor del Coeficiente de r^2 da 0.9494 ~ 0.95 o (95%), esto da a entender que el modelo explica el 95% de la relación de las variables con respecto a la variable de respuesta (especies)
Realice una predicción de la cantidad de especies estimada para cada isla. Compare los resultados estimados frente a los reales (errores) y graficarlos.
library(ggplot2)
library(plotly)
nuevas_especies = predict(mod, list(endemicos+area+elevacion+distancia+cruz+ adyacente))
nuevas_especies
## 1 2 3 4 5 6 7
## 69.548232 72.956216 -7.371508 22.218429 -13.144557 26.597516 -20.266924
## 8 9 10 11 12 13 14
## 6.403492 -1.142860 -11.721599 90.875630 84.636464 57.794920 -8.496779
## 15 16 17 18 19 20 21
## 60.945142 357.767204 68.992131 -7.694627 109.349785 107.121290 19.739135
## 22 23 24 25 26 27 28
## 99.881628 239.491159 305.219227 372.909915 94.154529 277.383535 48.060734
## 29 30
## 10.748584 24.043957
coef(summary(mod))
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -15.337942100 9.42354972 -1.62761831 1.172290e-01
## endemicos 4.393653649 0.48120339 9.13055416 4.132146e-09
## area 0.013258111 0.01140335 1.16265101 2.568931e-01
## elevacion -0.047537328 0.04759612 -0.99876483 3.283012e-01
## distancia -0.101459511 0.50087090 -0.20256619 8.412553e-01
## cruz 0.008255847 0.10588384 0.07797079 9.385256e-01
## adyacente 0.001810681 0.01187860 0.15243224 8.801754e-01
g2 = ggplot(gala, aes(x=especies,y = nuevas_especies))+geom_point()+geom_smooth(method="lm")+theme_bw()
ggplotly(g2)
Lo que podemos observar en la grafica, es que las especies predichas por el modelo (los puntos negros en la grafica), estan cerca de las especies que se reportaron (la lina azul), lo que demuestra que se obtuvo un buen muestreo que abarco un numero considerable de especies.
Se tiene dos tipos de moluscos A y B, los cuales fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.
load("C:/Users/Familia Lora Duran/Desktop/Luis felipe/Universidad/semestre 2020-1/Bioestadistica/moluscos.RData")
BD_moluscos
## # A tibble: 48 x 3
## c_agua molusco cons_o
## <dbl> <chr> <dbl>
## 1 100 A 7.16
## 2 100 A 8.26
## 3 100 A 6.78
## 4 100 A 14
## 5 100 A 13.6
## 6 100 A 11.1
## 7 100 A 8.93
## 8 100 A 9.66
## 9 100 B 6.14
## 10 100 B 6.14
## # ... with 38 more rows
Realice un análisis exploratorio que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar. y si estas conclusiones son las mismas para cada tipo de molusco.
summary(BD_moluscos)
## c_agua molusco cons_o
## Min. : 50 Length:48 Min. : 1.800
## 1st Qu.: 50 Class :character 1st Qu.: 6.312
## Median : 75 Mode :character Median : 9.700
## Mean : 75 Mean : 9.305
## 3rd Qu.:100 3rd Qu.:11.232
## Max. :100 Max. :18.800
library(ggplot2)
library(plotly)
consu_O = BD_moluscos$cons_o
concen_A= BD_moluscos$c_agua
tipo_mo = BD_moluscos$molusco
g1=ggplot(data=BD_moluscos,aes(y=consu_O,x=concen_A,fill=concen_A))+geom_boxplot()+theme_bw()
ggplotly(g1)
g3=ggplot(data=BD_moluscos,aes(y=consu_O,x=concen_A,fill=tipo_mo))+geom_boxplot()+facet_grid(~molusco)+theme_bw()
ggplotly(g3)
El consumo de oxígeno para cada tipo de molusco son parecidas, ya que se observan valores muy cercanos en las distintas concentraciones de agua de mar, por lo que podemos decir que el tipo de molusco no es una variable que afecte el consumo de oxígemo.
Estime el modelo de diseño de experimentos
modelo = lm(consu_O ~ concen_A+tipo_mo)
modelo
##
## Call:
## lm(formula = consu_O ~ concen_A + tipo_mo)
##
## Coefficients:
## (Intercept) concen_A tipo_moB
## 15.36948 -0.07159 -1.39125
summary(modelo) #resumen de los datos
##
## Call:
## lm(formula = consu_O ~ concen_A + tipo_mo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.8092 -2.2945 -0.6798 2.8297 7.3011
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 15.36948 1.91620 8.021 3.22e-10 ***
## concen_A -0.07159 0.02384 -3.002 0.00436 **
## tipo_moB -1.39125 0.97343 -1.429 0.15985
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.372 on 45 degrees of freedom
## Multiple R-squared: 0.1972, Adjusted R-squared: 0.1616
## F-statistic: 5.528 on 2 and 45 DF, p-value: 0.007132
coefficients(modelo)
## (Intercept) concen_A tipo_moB
## 15.3694792 -0.0715875 -1.3912500
El nivel de significancia de la concentracion de agua es de 0.00436 y el valor p para la variable que tienen mas relación con el consumo de oxigemo es 0.007132, no supera el 5 %, lo que nos muestra que las medias son difernetes.
El valor del Coeficiente de r^2 da 0.1972 ~ 0.20 o (20%), esto da a entender que el modelo explica el solomente el 20% de la relación de las variables con respecto a la variable de respuesta (consumo de oxigeno)
###Postanova —Prueba de comparación múltiple
mod1=lm(consu_O~ concen_A *tipo_mo)
anova(mod1) ##Análisis de varianza Valor p= 0 (Asteriscos también) Hay diferencias significativas
## Analysis of Variance Table
##
## Response: consu_O
## Df Sum Sq Mean Sq F value Pr(>F)
## concen_A 1 102.50 102.495 9.0684 0.004298 **
## tipo_mo 1 23.23 23.227 2.0550 0.158773
## concen_A:tipo_mo 1 14.38 14.378 1.2721 0.265481
## Residuals 44 497.31 11.302
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Como se puede observar, al realizar la anova ni el tipo de molusco ni el tipo de moluco mas la concentracion de agua es significativo, la unica variable que tiene un valor p menor a 0.5 es la concentracion de agua.
load("C:/Users/Familia Lora Duran/Desktop/Luis felipe/Universidad/semestre 2020-1/Bioestadistica/cafe.Rdata")
library(FactoClass)
library(FactoMineR)
library(ade4)
acp_cafe = dudi.pca(df = cafe_calidad, scannf = FALSE, nf = 2)
acp_cafe
## Duality diagramm
## class: pca dudi
## $call: dudi.pca(df = cafe_calidad, scannf = FALSE, nf = 2)
##
## $nf: 2 axis-components saved
## $rank: 6
## eigen values: 4.601 0.4694 0.3845 0.3446 0.1449 ...
## vector length mode content
## 1 $cw 6 numeric column weights
## 2 $lw 10 numeric row weights
## 3 $eig 6 numeric eigen values
##
## data.frame nrow ncol content
## 1 $tab 10 6 modified array
## 2 $li 10 2 row coordinates
## 3 $l1 10 2 row normed scores
## 4 $co 6 2 column coordinates
## 5 $c1 6 2 column normed scores
## other elements: cent norm
inertia.dudi(acp_cafe)
## Inertia information:
## Call: inertia.dudi(x = acp_cafe)
##
## Decomposition of total inertia:
## inertia cum cum(%)
## Ax1 4.60148 4.601 76.69
## Ax2 0.46937 5.071 84.51
## Ax3 0.38451 5.455 90.92
## Ax4 0.34462 5.800 96.67
## Ax5 0.14488 5.945 99.08
## Ax6 0.05514 6.000 100.00
Como se puede observar las tres primeras componentes recogen 84.5 % de los datos, por lo que se suguiere seguir con el analisis a partir de estos dos componentes, ya que el porcentaje es alto y recoje una fuerte cantidfad de datos.
s.corcircle(acp_cafe$co[,1:2])
s.label(acp_cafe$li[,1:2])
Segun el grafico de circulo de correlaciones, se puede observar que: la acidez, el cuerpo, la amargura y la intencidad estan muy correlacioandas entre si, por lo que estas caracteristicas son muy importantes para determinar la calidad del cafe
Ahora bien, con el grafico se puede observar que los cafes excelsos claro y oscuro fueron los que mejor calidad tuvieron, ya que se encuentran mas al extremo del grafico, despues se encuentran los cafes de calidad intermedia que son: claro 20% maiz, claro 40% cebada, oscuro 40% cebada, claro 20% cebada y oscuro 20% maiz; por ultimo los que tienen menos valoracion de la calidad son los cafes oscuros 40% maiz y claro 40% maiz.
cafes = data.frame(cafe_calidad,cafe_quimica)
acp_cafes = dudi.pca(df = cafes, scannf = FALSE, nf = 2)
inertia.dudi(acp_cafes)
## Inertia information:
## Call: inertia.dudi(x = acp_cafes)
##
## Decomposition of total inertia:
## inertia cum cum(%)
## Ax1 7.57390 7.574 63.12
## Ax2 2.88991 10.464 87.20
## Ax3 0.60177 11.066 92.21
## Ax4 0.38830 11.454 95.45
## Ax5 0.24643 11.700 97.50
## Ax6 0.15678 11.857 98.81
## Ax7 0.07184 11.929 99.41
## Ax8 0.04579 11.975 99.79
## Ax9 0.02528 12.000 100.00
Las tres primeras componentes recogen 87.2 % de los datos, por lo que se suguiere seguir con el analisis a partir de estos dos componentes, ya que el porcentaje es alto y recoje una fuerte cantidfad de datos.
s.corcircle(acp_cafes$co[,1:2])
Segun el grafico de circulo de correlaciones, se puede observar que: la acidez, el cuerpo, la amargura, la intencidad, la acides y la cafeina estan muy correlacioandas entre si, por lo que estas caracteristicas son muy importantes para determinar la calidad del cafe
s.label(acp_cafes$li[,1:2])
tipos = c("E","M","C","M","C","E","M","C","M","C")
tipos = as.factor(tipos)
s.class(acp_cafes$l1[,1:2], fac = tipos)
Ahora bien, el grafico anterior muestra que los cafes excelsos fueron los que mejores evaluados estuvieron en cuanto a calidad, ya que se encuentran mas al extremo del grafico, despues se encuentran los cafes de calidad intermedia que son: claro 20% maiz, claro 40% cebada, oscuro 40% cebada, claro 20% cebada y oscuro 20% maiz; por ultimo los que tienen menos valoracion de la calidad son los cafes oscuros 40% maiz y claro 40% maiz.
Análisis de conglomerados que permita identificar las islas que son mas similares y que características tienen dichas islas
load("C:/Users/Familia Lora Duran/Desktop/Luis felipe/Universidad/semestre 2020-1/Bioestadistica/gala.RData")
library(FactoClass)
cluster_islas = FactoClass(dfact = gala,metodo =dudi.pca,nf=2,nfcl=2, k.clust = 3,scanFC = FALSE)
## The number of retained axes for factorial analysis is 2
##
## The number of axes for clustering is 2
## Look the histogram of 25 indexes
## Partition in 3 clusters
El dendograma nos muestra que debe ser fraccioando en 3 closters
cluster_islas$cluster
## Baltra Bartolome Caldwell Champion Coamano Daphne.Major
## 1 1 1 1 1 1
## Daphne.Minor Darwin Eden Enderby Espanola Fernandina
## 1 2 1 1 1 3
## Gardner1 Gardner2 Genovesa Isabela Marchena Onslow
## 1 1 2 3 2 1
## Pinta Pinzon Las.Plazas Rabida SanCristobal SanSalvador
## 2 1 1 1 2 3
## SantaCruz SantaFe SantaMaria Seymour Tortuga Wolf
## 3 1 3 1 1 2
## Levels: 1 2 3
cluster_islas$carac.cont
## class: 1
## Test.Value Class.Mean Frequency Global.Mean
## Area -2.120 7.220 19 261.709
## Scruz -2.644 31.984 19 56.977
## Nearest -3.098 3.916 19 10.060
## Species -3.221 33.947 19 85.233
## Endemics -3.450 13.000 19 26.100
## Elevation -3.501 163.000 19 368.033
## ------------------------------------------------------------
## class: 2
## Test.Value Class.Mean Frequency Global.Mean
## Nearest 5.073 36.500 6 10.060
## Scruz 3.806 151.533 6 56.977
## ------------------------------------------------------------
## class: 3
## Test.Value Class.Mean Frequency Global.Mean
## Elevation 4.382 1122.200 5 368.033
## Endemics 4.347 74.600 5 26.100
## Species 4.187 281.200 5 85.233
## Area 3.199 1390.176 5 261.709
## Adjacent 2.269 1061.864 5 261.098
Para las clases 1 podemos observar que los valores para las varaibles area, distacia a la isla santa cruz, distancia a la isla más cercana, numero de especies, especies endimicas y elevacion estan por debajo del promedio global, siendo edemicas, area y elevacion las variables mas representativas con respecto a la variable de respuesta (el numero de especies). Por lo que se puede concluir que estas islas son las que menos proporcion de especies tienen en comparacion con las otras.
Para la clase 2 podemos observar que las variables que mejor explican el numero de especies no aparecen, aun teineindo gran cantidad de especies y especies endemicas, por lo que seria interesante realizar estudios sobre estas islas obervar que otras variables puden explicar el numero de especies
En la clase 3 los valores que aparecen estan por encima del promedio global, ademas aparecen las variables endemicos,area y elevacion, lo que nos muestra que estas islas tienen un gran numero de especies, ya que la variable endemicas , la cual es la variable que mas fuerza se relaciona con el numero de especies esta por encima del promedio global.