Problema 1 -Se disponen de las mediciones realizadas por un geólogo del nivel de calcio en cinco tipos de terreno. -Se recogen muestras del contenido en calcio en cuatro localidades distintas de forma que hay cuatro -localidades por cada tipo de terreno
rm(list=ls())
terreno<-as.factor(rep(1:5,each=16,len=80))
terreno
## [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3
## [36] 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5
## [71] 5 5 5 5 5 5 5 5 5 5
## Levels: 1 2 3 4 5
localidad<-as.factor(rep(1:4,each=4,len=80))
localidad
## [1] 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 1 1 1
## [36] 1 2 2 2 2 3 3 3 3 4 4 4 4 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 1 1 1 1 2 2
## [71] 2 2 3 3 3 3 4 4 4 4
## Levels: 1 2 3 4
-la función rep nos repite valores un determinado número de veces, -práctico para crear vectores de factores y la función as.factor lo declara factores -recuerde que el comando class nos retorna si el objeto es un factor o no
class(terreno)
## [1] "factor"
class(localidad)
## [1] "factor"
calcio<-c(6 ,2 ,0 ,8 ,13 ,3 ,9 ,8 ,1 ,10 ,0 ,6 ,7 ,4 ,7 ,9 ,10 ,9 ,7 ,12 ,2 ,1 ,1 ,10 ,4 ,1 ,7 ,9 ,0 ,3 ,4 ,
1 ,0 ,0 ,5 ,5 ,10 ,11 ,6 ,7 ,8 ,5 ,0 ,7 ,7 ,2 ,5 ,4 ,11 ,0 ,6 ,4 ,5 ,10 ,8 ,3 ,0 ,8 ,6 ,5 ,1 ,8 ,9
,4 ,1 ,4 ,7 ,9 ,6 ,7 ,0 ,3 ,3 ,0 ,2 ,2 ,3 ,7 ,4 ,0)
calcio
## [1] 6 2 0 8 13 3 9 8 1 10 0 6 7 4 7 9 10 9 7 12 2 1 1
## [24] 10 4 1 7 9 0 3 4 1 0 0 5 5 10 11 6 7 8 5 0 7 7 2
## [47] 5 4 11 0 6 4 5 10 8 3 0 8 6 5 1 8 9 4 1 4 7 9 6
## [70] 7 0 3 3 0 2 2 3 7 4 0
Las mediciones tomadas por el geólogo y unimos los 3 vectores de datos, utilizando c()
estudio<-data.frame(cbind(terreno,localidad,calcio))
estudio
## terreno localidad calcio
## 1 1 1 6
## 2 1 1 2
## 3 1 1 0
## 4 1 1 8
## 5 1 2 13
## 6 1 2 3
## 7 1 2 9
## 8 1 2 8
## 9 1 3 1
## 10 1 3 10
## 11 1 3 0
## 12 1 3 6
## 13 1 4 7
## 14 1 4 4
## 15 1 4 7
## 16 1 4 9
## 17 2 1 10
## 18 2 1 9
## 19 2 1 7
## 20 2 1 12
## 21 2 2 2
## 22 2 2 1
## 23 2 2 1
## 24 2 2 10
## 25 2 3 4
## 26 2 3 1
## 27 2 3 7
## 28 2 3 9
## 29 2 4 0
## 30 2 4 3
## 31 2 4 4
## 32 2 4 1
## 33 3 1 0
## 34 3 1 0
## 35 3 1 5
## 36 3 1 5
## 37 3 2 10
## 38 3 2 11
## 39 3 2 6
## 40 3 2 7
## 41 3 3 8
## 42 3 3 5
## 43 3 3 0
## 44 3 3 7
## 45 3 4 7
## 46 3 4 2
## 47 3 4 5
## 48 3 4 4
## 49 4 1 11
## 50 4 1 0
## 51 4 1 6
## 52 4 1 4
## 53 4 2 5
## 54 4 2 10
## 55 4 2 8
## 56 4 2 3
## 57 4 3 0
## 58 4 3 8
## 59 4 3 6
## 60 4 3 5
## 61 4 4 1
## 62 4 4 8
## 63 4 4 9
## 64 4 4 4
## 65 5 1 1
## 66 5 1 4
## 67 5 1 7
## 68 5 1 9
## 69 5 2 6
## 70 5 2 7
## 71 5 2 0
## 72 5 2 3
## 73 5 3 3
## 74 5 3 0
## 75 5 3 2
## 76 5 3 2
## 77 5 4 3
## 78 5 4 7
## 79 5 4 4
## 80 5 4 0
crear un data frame de los datos
boxplot(calcio~terreno*localidad, col="red",main="Boxplot Interación entre Terreno y Localidad", Xlab="Factores",ylab="Calcio")
-Analicemos los datos donde la variable observada(dependiente) ES Calcio y los factores anidados sos terreno y localidad.
-El gráfico muestra que para estudiar la medición de calcio hay 16 factores que forman parte del estudio.
-El factor localidad está anidado con el factor terreno ya que cada nivel del factor localidad se combina con un único nivel del factor terreno, en este caso el número de niveles de localidad anidados en cada nivel de terreno es el mismo (b=4).
anova<- aov(calcio~terreno+localidad%in%terreno)
anova
## Call:
## aov(formula = calcio ~ terreno + localidad %in% terreno)
##
## Terms:
## terreno terreno:localidad Residuals
## Sum of Squares 45.075 282.875 642.000
## Deg. of Freedom 4 15 60
##
## Residual standard error: 3.271085
## Estimated effects may be unbalanced
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## terreno 4 45.1 11.27 1.053 0.3876
## terreno:localidad 15 282.9 18.86 1.762 0.0625 .
## Residuals 60 642.0 10.70
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
-El modelo esta dado por Cijk=M+Ai+Bj(i)+Eijk donde k=1,2,…,n i= nivel del terreno y j=nivel de la localidad -Entonces la anova es se utiliza %in% experesa el anidamiento
modelo_total<- lm(calcio~terreno+localidad%in%terreno)
modelo_total
##
## Call:
## lm(formula = calcio ~ terreno + localidad %in% terreno)
##
## Coefficients:
## (Intercept) terreno2 terreno3
## 4.00 5.50 -1.50
## terreno4 terreno5 terreno1:localidad2
## 1.25 1.25 4.25
## terreno2:localidad2 terreno3:localidad2 terreno4:localidad2
## -6.00 6.00 1.25
## terreno5:localidad2 terreno1:localidad3 terreno2:localidad3
## -1.25 0.25 -4.25
## terreno3:localidad3 terreno4:localidad3 terreno5:localidad3
## 2.50 -0.50 -3.50
## terreno1:localidad4 terreno2:localidad4 terreno3:localidad4
## 2.75 -7.50 2.00
## terreno4:localidad4 terreno5:localidad4
## 0.25 -1.75
summary(modelo_total)
##
## Call:
## lm(formula = calcio ~ terreno + localidad %in% terreno)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.250 -2.500 0.250 2.062 6.500
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.000 1.635 2.446 0.01741 *
## terreno2 5.500 2.313 2.378 0.02062 *
## terreno3 -1.500 2.313 -0.649 0.51913
## terreno4 1.250 2.313 0.540 0.59091
## terreno5 1.250 2.313 0.540 0.59091
## terreno1:localidad2 4.250 2.313 1.837 0.07110 .
## terreno2:localidad2 -6.000 2.313 -2.594 0.01190 *
## terreno3:localidad2 6.000 2.313 2.594 0.01190 *
## terreno4:localidad2 1.250 2.313 0.540 0.59091
## terreno5:localidad2 -1.250 2.313 -0.540 0.59091
## terreno1:localidad3 0.250 2.313 0.108 0.91429
## terreno2:localidad3 -4.250 2.313 -1.837 0.07110 .
## terreno3:localidad3 2.500 2.313 1.081 0.28409
## terreno4:localidad3 -0.500 2.313 -0.216 0.82959
## terreno5:localidad3 -3.500 2.313 -1.513 0.13548
## terreno1:localidad4 2.750 2.313 1.189 0.23915
## terreno2:localidad4 -7.500 2.313 -3.243 0.00194 **
## terreno3:localidad4 2.000 2.313 0.865 0.39066
## terreno4:localidad4 0.250 2.313 0.108 0.91429
## terreno5:localidad4 -1.750 2.313 -0.757 0.45226
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.271 on 60 degrees of freedom
## Multiple R-squared: 0.3381, Adjusted R-squared: 0.1285
## F-statistic: 1.613 on 19 and 60 DF, p-value: 0.08235
-Teniendo en cuenta el resultado NO obtenemos diferencias significativas para los niveles de terreno, Por ejemplo,el estadístico F =1.053 es muy alto o su pvalor= 0.3876, por lo que NO se puede rechara la hipótesis nula de igualdad de medias por cada tipo de terreno, es decir: -Ho: media del CALCIO_j=media del CALCIO_l para todo j diferente de l es decir para todos los niveles los niveles de calcio son iguales PERO para un valor de significancia de 0.1 la igualdad de medias del anidamiento se rechaza, luego es necesario realizar el test para cada terreno. Veamos las medias de terreno anidado localidad
interaction.plot (estudio$calcio, estudio$terreno, estudio$localidad,col="red",main="Modelo con Interacción")
print(model.tables(anova,"means"))
## Tables of means
## Grand mean
##
## 5.025
##
## terreno
## terreno
## 1 2 3 4 5
## 5.812 5.063 5.125 5.500 3.625
##
## terreno:localidad
## localidad
## terreno 1 2 3 4
## 1 4.00 8.25 4.25 6.75
## 2 9.50 3.50 5.25 2.00
## 3 2.50 8.50 5.00 4.50
## 4 5.25 6.50 4.75 5.50
## 5 5.25 4.00 1.75 3.50
Analizando por terreno vemos por ejemplo, que el terreno 1 con la localidad 1 difiere notablemente en las localidades 3 y 4
estudio1<-subset(estudio,terreno==1)
estudio1
## terreno localidad calcio
## 1 1 1 6
## 2 1 1 2
## 3 1 1 0
## 4 1 1 8
## 5 1 2 13
## 6 1 2 3
## 7 1 2 9
## 8 1 2 8
## 9 1 3 1
## 10 1 3 10
## 11 1 3 0
## 12 1 3 6
## 13 1 4 7
## 14 1 4 4
## 15 1 4 7
## 16 1 4 9
estudio2<-subset(estudio,terreno==2)
estudio2
## terreno localidad calcio
## 17 2 1 10
## 18 2 1 9
## 19 2 1 7
## 20 2 1 12
## 21 2 2 2
## 22 2 2 1
## 23 2 2 1
## 24 2 2 10
## 25 2 3 4
## 26 2 3 1
## 27 2 3 7
## 28 2 3 9
## 29 2 4 0
## 30 2 4 3
## 31 2 4 4
## 32 2 4 1
estudio3<-subset(estudio,terreno==3)
estudio3
## terreno localidad calcio
## 33 3 1 0
## 34 3 1 0
## 35 3 1 5
## 36 3 1 5
## 37 3 2 10
## 38 3 2 11
## 39 3 2 6
## 40 3 2 7
## 41 3 3 8
## 42 3 3 5
## 43 3 3 0
## 44 3 3 7
## 45 3 4 7
## 46 3 4 2
## 47 3 4 5
## 48 3 4 4
estudio4<-subset(estudio,terreno==4)
estudio4
## terreno localidad calcio
## 49 4 1 11
## 50 4 1 0
## 51 4 1 6
## 52 4 1 4
## 53 4 2 5
## 54 4 2 10
## 55 4 2 8
## 56 4 2 3
## 57 4 3 0
## 58 4 3 8
## 59 4 3 6
## 60 4 3 5
## 61 4 4 1
## 62 4 4 8
## 63 4 4 9
## 64 4 4 4
estudio5<-subset(estudio,terreno==5)
estudio5
## terreno localidad calcio
## 65 5 1 1
## 66 5 1 4
## 67 5 1 7
## 68 5 1 9
## 69 5 2 6
## 70 5 2 7
## 71 5 2 0
## 72 5 2 3
## 73 5 3 3
## 74 5 3 0
## 75 5 3 2
## 76 5 3 2
## 77 5 4 3
## 78 5 4 7
## 79 5 4 4
## 80 5 4 0
Subconjuntos – Se procede a hacer anova para cada subconjunto
summary(aov(calcio~localidad,data=estudio1))
## Df Sum Sq Mean Sq F value Pr(>F)
## localidad 1 3.61 3.613 0.235 0.635
## Residuals 14 214.83 15.345
summary(aov(calcio~localidad,data=estudio2))
## Df Sum Sq Mean Sq F value Pr(>F)
## localidad 1 86.11 86.11 7.687 0.015 *
## Residuals 14 156.83 11.20
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(aov(calcio~localidad,data=estudio3))
## Df Sum Sq Mean Sq F value Pr(>F)
## localidad 1 1.25 1.25 0.105 0.751
## Residuals 14 166.50 11.89
summary(aov(calcio~localidad,data=estudio4))
## Df Sum Sq Mean Sq F value Pr(>F)
## localidad 1 0.2 0.20 0.016 0.901
## Residuals 14 173.8 12.41
summary(aov(calcio~localidad,data=estudio5))
## Df Sum Sq Mean Sq F value Pr(>F)
## localidad 1 11.25 11.250 1.425 0.252
## Residuals 14 110.50 7.893
vemos que para el terreno2 se rechaza la igualdad de medias valor en el Pr(>F)
modelo2= lm(calcio~localidad,data=estudio2)
modelo2
##
## Call:
## lm(formula = calcio ~ localidad, data = estudio2)
##
## Coefficients:
## (Intercept) localidad
## 10.250 -2.075
summary(modelo2)
##
## Call:
## lm(formula = calcio ~ localidad, data = estudio2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.100 -2.219 0.400 2.281 4.975
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10.2500 2.0496 5.001 0.000194 ***
## localidad -2.0750 0.7484 -2.773 0.014965 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.347 on 14 degrees of freedom
## Multiple R-squared: 0.3545, Adjusted R-squared: 0.3084
## F-statistic: 7.687 on 1 and 14 DF, p-value: 0.01497