#EJERCICIO 1. Prueba t-Dos muestras independientes
Se midió la conductancia estomática (gs: mol/m^2s) en dos cultivares de papa diploide (Colombia y Ocarina) bajo una condición de déficit de riego. Determinar al 95% de nivel de confianza si las dos medias obtenidas para los cultivares son estadísticamente iguales.
Hipótesis Nula \[H_0: \mu_{Colombia} = \mu_{Ocarina}\] Hipótesis Alterna \[Ha: \mu_{Colombia} \neq \mu_{Ocarina}\]
# Variable Respuesta: Conductancia Estomática
#Factores: Riego
library(readxl)
## Warning: package 'readxl' was built under R version 4.0.5
df_1 = Datos_Taller_Diseno <- read_excel("D:/Users/Usuario/Desktop/Trabajos Diseno/Datos Taller Diseno.xlsx",
sheet = "P1");df_1
## # A tibble: 28 x 2
## Conductancia Cultivar_Papa
## <dbl> <chr>
## 1 0.45 Colombia
## 2 0.41 Colombia
## 3 0.4 Colombia
## 4 0.46 Colombia
## 5 0.39 Colombia
## 6 0.44 Colombia
## 7 0.48 Colombia
## 8 0.42 Colombia
## 9 0.44 Colombia
## 10 0.48 Colombia
## # ... with 18 more rows
Análisis Descriptivo:
Media en Promedio
med_1=tapply(df_1$Conductancia, df_1$Cultivar_Papa, mean);med_1
## Colombia Ocarina
## 0.4500000 0.3292857
Prueba t-Dos muestras independientes
df_conductancia=split(df_1$Conductancia,df_1$Cultivar_Papa)
Prueba_3=t.test(df_conductancia$`Colombia`,df_conductancia$`Ocarina`,alternative = "t",mu = 0,paired = F,conf.level = 0.95)
ifelse(Prueba_3$p.value<0.05,"Rechazo Ho","No rechazo")
## [1] "Rechazo Ho"
Rechazo la hipótesis nula ya que ambas medias son estadísticamente diferentes
Para verificar si ambas varianzas son iguales se deben generar las correspondientes hipótesis Hipótesis Nula 2 \[H_0:\sigma_1^2=\sigma_2^2\] Hipótesis Alterna 2 \[H_a:\sigma_1^2 \neq \sigma_2^2\]
Prueba_2=var.test(df_conductancia$`Colombia`,df_conductancia$`Ocarina`,ratio=1, alternative="t", conf.level=0.95)
ifelse(Prueba_2$p.value<0.05, "Rechazo Ho", "No rechaza Ho")
## [1] "Rechazo Ho"
Las varianzas son diferentes para ambas variables utilizadas
#EJERCICIO 2. Prueba T. Dos muestras dependientes/pareadas
Se propuso un plan de fertilización en papa criolla y se midió a los 45 (A) y 77(B) días después de la siembra, el peso de tubérculos (Kg/ha) más las raíces, encontrando los siguientes datos:
# Variable Respuesta: Peso tuberculos
#Factores: Plan de Fertilización
library(readxl)
df_2 = Datos_Taller_Diseno <- read_excel("D:/Users/Usuario/Desktop/Trabajos Diseno/Datos Taller Diseno.xlsx",
sheet = "P2");df_2
## # A tibble: 32 x 2
## Peso_tuberculos Dia_lectura
## <dbl> <chr>
## 1 70 45dds
## 2 66 45dds
## 3 72 45dds
## 4 68 45dds
## 5 65 45dds
## 6 66 45dds
## 7 67 45dds
## 8 68 45dds
## 9 69 45dds
## 10 60 45dds
## # ... with 22 more rows
Medias
med2 = tapply(df_2$Peso_tuberculos, df_2$Dia_lectura, mean);med2
## 45dds 77dds
## 66.5000 840.3125
boxplot(df_2$Peso_tuberculos~df_2$Dia_lectura)
points(c(1, 2), med2, col = 'red', pch = 16)
#Hipótesis \[H_0: \mu_{45dds} = \mu_{77dds} \\ H_a: \mu_{45dds} \neq \mu_{77dds}\]
df_Peso=split(df_2$Peso_tuberculos,df_2$Dia_lectura)
Prueba_3=t.test(df_Peso$`45dds`,df_Peso$`77dds`,alternative = "t",mu = 0,paired = T,conf.level = 0.95)
ifelse(Prueba_3$p.value<0.05,"Rechazo Ho","No rechazo")
## [1] "Rechazo Ho"
Es decir que al 95% de confianza se presentó un incremento de la media de rendimiento de las dos evaluaciones registradas.
Cambio relativo
Cambio_r = 100*(med2[2]-med2[1])/med2[1];Cambio_r #cambio relativo
## 77dds
## 1163.628
Esta es la medida en la cual se modifica la variable de Peso de tubérculos.
Coeficiente de Correlación de PEARSON Hipótesis Nula \[H_0: \rho_{xy} =0\]
Correlación_P = cor.test(df_Peso$'45dds', df_Peso$'77dds', alternative = "t", method = "pearson")
ifelse(Correlación_P$p.value< 0.05, "Rechazo Ho", "No Rechazo Ho")
## [1] "No Rechazo Ho"
No hay correlación es decir que se presenta independencia entre las variables, el aumento o disminución de una de las variables no nos indica el comportamiento de la otra variable
Se está evaluando la calidad de frito mediante la textura de las hojuelas de papa criolla en dos tipos de aceite (palma y maíz) utilizado para freír en condiciones controladas de tiempo y temperatura. Al final se recolectaron las hojuelas y se evaluó en una escala diagramática la calidad de frito (escala de 1 a 5, desde (1) no crujiente hasta (5) bastante crujientes). Los datos se muestran a continuación:
library(readxl)
df_3 = Datos_Taller_Diseno <- read_excel("D:/Users/Usuario/Desktop/Trabajos Diseno/Datos Taller Diseno.xlsx",
sheet = "P3"); df_3
## # A tibble: 21 x 2
## Palma Maíz
## <dbl> <dbl>
## 1 3 3
## 2 4 4
## 3 3 4
## 4 4 4
## 5 4 4
## 6 3 4
## 7 3 3
## 8 4 4
## 9 4 3
## 10 3 4
## # ... with 11 more rows
med3_1 = median(df_3$Palma);med3_1
## [1] 4
med3_2 = median(df_3$Maíz);med3_2
## [1] 4
Al parecer según las medias, el tipo de aceite no está influyendo en la calidad del frito de la hojuela de papa.
boxplot(df_3)
points(c(1, 2), med2, col = 'red', pch = 16)
plot(df_3$Palma, col="Blue",pch=15, xlab="Datos",ylab="Calidad de frito", main= "Calidad de frito de las hojuelas de papa")
plot(df_3$Maíz, col="Yellow",pch=15, xlab="Datos",ylab="calidad de frito", main= "calidad de frito de las hojuelas de papa")
Hipótesis Nula \[H_0: Med_1=Med_2\] Hipótesis Adyacente \[H_a: Med_1 \neq Med_2\]
Prueba_6 = wilcox.test(df_3$Palma, df_3$Maíz, alternative = "t", mu = 0);Prueba_6
## Warning in wilcox.test.default(df_3$Palma, df_3$Maíz, alternative = "t", :
## cannot compute exact p-value with ties
##
## Wilcoxon rank sum test with continuity correction
##
## data: df_3$Palma and df_3$Maíz
## W = 185.5, p-value = 0.3111
## alternative hypothesis: true location shift is not equal to 0
ifelse(Prueba_6$p.value <0.05, "Rechazo Ho", "No Rechazo Ho")
## [1] "No Rechazo Ho"
No existe una diferencia estadística entre las medias de utilizar aceite de maíz o de palma, solo se presenta una “importante” diferencia en un dato registrado en aceite de palma, pero esta diferencia no significa una diferencia significativa en la media de ambos aceites
EJERCICIO 4. Prueba de Wilcoxon de la suma de rangos-Dos muestras pareadas
Suponga que del ejercicio anterior se seleccionó el aceite de maíz y se desarrolló un segundo experimento para controlar la temperatura de almacenamiento de papa criolla. Las temperaturas de almacenamiento fueron 4 y 12 °C y se utilizó la escala de color CIELab*. Los datos para cada eje del color se muestran a continuación:
library(readxl)
library(readxl)
df_4 = Datos_Taller_Diseno <- read_excel("D:/Users/Usuario/Desktop/Trabajos Diseno/Datos Taller Diseno.xlsx",
sheet = "P4");df_4
## # A tibble: 15 x 6
## Cuatro_I Cuatro_II Cuatro_III Doce_I Doce_II Doce_III
## <chr> <chr> <chr> <chr> <chr> <chr>
## 1 69.26 -1.31 28.68 62.20 0.81 37.31
## 2 68.15 -1.25 27.66 60.45 0.78 35.90
## 3 69.17 -1.4 28.02 63.12 0.55 36.36
## 4 68.88 -1.35 27.66 61.64 0.81 36.12
## 5 70.01 -1.32 27.66 61.25 0.77 36.45
## 6 70.15 -1.15 26.88 62.55 0.69 35.99
## 7 70.66 -1.25 26.25 64.12 0.59 36.14
## 8 68.68 -1.29 26.26 65.65 0.55 36.14
## 9 71.00 -1.42 28.15 66.87 0.42 35.55
## 10 72.18 -1.45 30.00 65.11 0.39 34.77
## 11 69.15 -1.29 28.24 66.14 0.41 32.32
## 12 70.00 -1.22 25.59 62.64 0.37 31.96
## 13 68.64 -1.19 24.69 61.97 0.35 30.17
## 14 68.12 -1.25 25.56 60.58 0.34 36.65
## 15 68.12 -1.25 26.26 60.68 0.34 37.15
Medias
med4_1 = median(df_4$Cuatro_I);med4_1
## [1] "69.17"
med4_4 = median(df_4$Doce_I);med4_4
## [1] "62.55"
med4_2 = median(df_4$Cuatro_II);med4_2
## [1] "-1.29"
med4_4 = median(df_4$Doce_II);med4_4
## [1] "0.55"
med4_3 = median(df_4$Cuatro_III);med4_3
## [1] "27.66"
med4_4 = median(df_4$Doce_III);med4_4
## [1] "36.12"
Hipótesis Nula \[H_0: Med 4°C(x)=Med 12°C(x)\]
#Prueba_7 = wilcox.test(df_4$Cuatro_I ,df_4$Doce_I,alternative="t",mu=0, paired = T, conf.level = 0.95);Prueba_7
#ifelse(Prueba_7$p.value<0.05,"Rechazo Ho", "No rechazo Ho")
#Prueba_7.2 = wilcox.test(df_4$Cuatro_II ,df_4$Doce_II,alternative="t",mu=0, paired = T, conf.level = 0.95);Prueba_7.2
#ifelse(Prueba_7.2$p.value<0.05,"Rechazo Ho", "No rechazo Ho")
#Prueba_7.3 = wilcox.test(df_4$Cuatro_III ,df_4$Doce_III,alternative="t",mu=0, paired = T, conf.level = 0.95);Prueba_7.3
#ifelse(Prueba_7.3$p.value<0.05,"Rechazo Ho", "No rechazo Ho")
#delta_e=c(sqrt((df_4$Cuatro_I)^2+(df_4$Cuatro_II)^2+(df_4$Cuatro_III)^2));delta_e
#delta_e.2=c(sqrt((df_4$Doce_I)^2+(df_4$Doce_II)^2+(df_4$Doce_III)^2));delta_e.2
EJERCICIO 5 Se utilizan dos métodos para medir las tasas de infiltración en cada una de las 12 cuencas hidrográficas. La cuestión es determinar si los métodos proporcionan similares valores.
library(readxl)
df_5 = Datos_Taller_Diseno <- read_excel("D:/Users/Usuario/Desktop/Trabajos Diseno/Datos Taller Diseno.xlsx",
sheet = "P5");df_5
## # A tibble: 24 x 2
## Infiltración Metodo
## <dbl> <chr>
## 1 0.221 A
## 2 0.314 A
## 3 0.265 A
## 4 0.166 A
## 5 0.128 A
## 6 0.272 A
## 7 0.334 A
## 8 0.296 A
## 9 0.187 A
## 10 0.097 A
## # ... with 14 more rows
med5 = tapply(df_5$Infiltración, df_5$Metodo, mean);med5
## A B
## 0.2225000 0.2583333
\[H_0: \mu A = \mu B \\ H_a: \mu A \neq \mu B\] Prueba T Pareada
df_Infiltración=split(df_5$Infiltración,df_5$Metodo)
Prueba_3.1=t.test(df_Infiltración$`A`,df_Infiltración$`B`,alternative = "t",mu = 0,paired = T,conf.level = 0.95);Prueba_3.1
##
## Paired t-test
##
## data: df_Infiltración$A and df_Infiltración$B
## t = -2.6453, df = 11, p-value = 0.02278
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.065648151 -0.006018515
## sample estimates:
## mean of the differences
## -0.03583333
ifelse(Prueba_3.1$p.value<0.05,"Rechazo Ho","No rechazo")
## [1] "Rechazo Ho"
\[H_0: \mu A = \mu B \\ H_a: \mu A \neq \mu B\] Prueba T Dos muestras Independientes
Prueba_3.2=t.test(df_Infiltración$`A`,df_Infiltración$`B`,alternative = "t",mu = 0,paired = F,conf.level = 0.95);Prueba_3.2
##
## Welch Two Sample t-test
##
## data: df_Infiltración$A and df_Infiltración$B
## t = -1.1682, df = 21.997, p-value = 0.2552
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.09944769 0.02778102
## sample estimates:
## mean of x mean of y
## 0.2225000 0.2583333
ifelse(Prueba_3$p.value<0.05,"Rechazo Ho","No rechazo")
## [1] "Rechazo Ho"
Ambos métodos enseñan que no existe una igualdad respecto a las medias de infiltración de las 12 cuencas hidrográficas, ambas diseñadas para proporcionar un resultado con un 95% de confianza, sin embargo el método de la prueba T Student para muestras pareadas presente un intervalo de confianza más pequeño, que el intervalo de la prueba T para muestras independientes. Se puede decir que la 95% de confianza se presento una diferencia en las tasas de infiltración de las cuencas hidrográficas por cada método evaluado. Este intervalo representa una mayor especificidad en los datos, ya que al ser más pequeño podría presentar un resultado más exacto y confiable, en lugar de utilizar el método de muestras independientes,
EJERCICIO 6. Prueba para comparar dos prevalencias (enfoque paramétrico)
library(readxl)
df_6 = Datos_Taller_Diseno <- read_excel("D:/Users/Usuario/Desktop/Trabajos Diseno/Datos Taller Diseno.xlsx",
sheet = "P6"); df_6
## # A tibble: 55 x 2
## Palma_Gen Bacteria
## <dbl> <chr>
## 1 1 A
## 2 1 A
## 3 1 A
## 4 1 A
## 5 1 A
## 6 1 A
## 7 1 A
## 8 1 A
## 9 1 A
## 10 1 A
## # ... with 45 more rows
Hipótesis \[H_0:prev_1=prev_2\]
Prueba_4 = prop.test(x = c(25, 30), n =c(144,141)); Prueba_4
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(25, 30) out of c(144, 141)
## X-squared = 0.47243, df = 1, p-value = 0.4919
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.13777377 0.05946408
## sample estimates:
## prop 1 prop 2
## 0.1736111 0.2127660
ifelse(Prueba_4$p.value<0.05, "Rechazo Ho", "No Rechazo Ho")
## [1] "No Rechazo Ho"
La prevalencia de los dos lotes son iguales, estadísticamente no hay diferencias entre los lotes
EJERCICIO 7 Prueba para comparar dos tasas de incidencia
\[H_0: \lambda_1 = \lambda_2\]
Coordenadas de un recorrido en el lote 1 (X) * (1,1) a (12,12)
dist1=sqrt((12-1)^2+(12-1)^2)
distx=2*dist1;distx
## [1] 31.1127
-Coordenadas de un recorrido en el lote 2 (N)
dist2=sqrt((11)^2+(1-1)^2)
distn=2*dist2+dist1;distn
## [1] 37.55635
library(rateratio.test)
Prueba_9=rateratio.test(c(12,18),c(distx,distn))
ifelse(Prueba_9$p.value<0.05,"Rechazo Ho", "No rechazo Ho")
## [1] "No rechazo Ho"
No hay diferencia en los dos lotes, es decir que no hay una diferencia significativa en las tasas de incidencia de los lotes respecto a reporte de plantas de palma afectadas.
EJERCICIO 8 Prueba F- AOV-FSCA-B
library(readxl)
df_8 = Datos_Taller_Diseno <- read_excel("D:/Users/Usuario/Desktop/Trabajos Diseno/Datos Taller Diseno.xlsx",
sheet = "P8"); df_8
## # A tibble: 66 x 2
## Fosforo Metodo
## <dbl> <chr>
## 1 7.1 Bray
## 2 6.8 Bray
## 3 6.6 Bray
## 4 6.7 Bray
## 5 6.8 Bray
## 6 6.7 Bray
## 7 6.9 Bray
## 8 6.8 Bray
## 9 6.7 Bray
## 10 6.6 Bray
## # ... with 56 more rows
Análisis Descriptivo
#Medias
med_8 = tapply(df_8$Fosforo, df_8$Metodo, mean);med_8
## Bray Mehlich-3 Olsen
## 6.772727 7.459091 6.409091
#Desviación Estandar
desv_8 = tapply(df_8$Fosforo, df_8$Metodo, sd);desv_8
## Bray Mehlich-3 Olsen
## 0.2657995 0.7378599 0.2408499
#Coeficiente de Variación
cv_8 = 100*desv_8/med_8;cv_8
## Bray Mehlich-3 Olsen
## 3.924556 9.892089 3.757941
boxplot(df_8$Fosforo~df_8$Metodo)
points(c(1, 2, 3, 4), col = 'red', pch = 16)
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.0.5
gg = ggplot(df_8, aes(x = Fosforo, y = Metodo)) +
geom_bar(stat = 'identity', position = 'dodge');gg
Hipótesis \[Ho = \tau_{Bray} = \tau_{Olsen} = \tau_{Mehlich-3} = 0\]
Datos_Separados.8 = split(df_8$Fosforo, df_8$Metodo)
Prueba_2.8=var.test(Datos_Separados.8$Bray, Datos_Separados.8$Olsen, Datos_Separados.8$`Mehlich-3`,ratio=1, alternative="t", conf.level=0.95);Prueba_2.8
##
## F test to compare two variances
##
## data: Datos_Separados.8$Bray and Datos_Separados.8$Olsen
## F = 1.2179, num df = 21, denom df = 21, p-value = 0.6556
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.505653 2.933446
## sample estimates:
## ratio of variances
## 1.21791
ifelse(Prueba_2.8$p.value<0.05, "Rechazo Ho", "No rechaza Ho")
## [1] "No rechaza Ho"
Se presenta un valor p de 0.6556 lo que nos indica que no se alcanza el valor que indique que las varianzas sean distintas estadisticamente con una confianza del 95%
Revisión del supuesto de Normalidad de residuos \[H_0: \epsilon_{ij}~N(0,\sigma^2_e)\]
#ANOVA
mod1 = aov(df_8$Fosforo~df_8$Metodo)
s_mod1 = summary(mod1)
s_mod1
## Df Sum Sq Mean Sq F value Pr(>F)
## df_8$Metodo 2 12.51 6.255 27.88 2.13e-09 ***
## Residuals 63 14.13 0.224
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
p_valor = s_mod1 [[1]][1,5]; p_valor
## [1] 2.126836e-09
ifelse(p_valor<0.05, 'Rechazo Ho', 'No rechazo Ho')
## [1] "Rechazo Ho"
TukeyHSD(mod1,'df_8$Metodo')
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = df_8$Fosforo ~ df_8$Metodo)
##
## $`df_8$Metodo`
## diff lwr upr p adj
## Mehlich-3-Bray 0.6863636 0.3435552 1.02917204 0.0000293
## Olsen-Bray -0.3636364 -0.7064448 -0.02082796 0.0351545
## Olsen-Mehlich-3 -1.0500000 -1.3928084 -0.70719160 0.0000000
\[Ho:ϵij∼N(0,σ^2_e)\]
Vamos a sacar los residuales del modelo:
res1 = residuals(mod1)
shapiro.test(res1)
##
## Shapiro-Wilk normality test
##
## data: res1
## W = 0.78897, p-value = 2.461e-08
#Pruebas de NORMALIDAD
library(nortest)
#Prueba de Anderson-Darling
ad.test(res1)
##
## Anderson-Darling normality test
##
## data: res1
## A = 3.3335, p-value = 1.952e-08
#Prueba de Lilliefors
lillie.test(res1)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: res1
## D = 0.17543, p-value = 2.863e-05
#Prueba Shapiro-Francia
sf.test(res1)
##
## Shapiro-Francia normality test
##
## data: res1
## W = 0.76272, p-value = 7.135e-08
#Prueba Cramer
cvm.test(res1)
##
## Cramer-von Mises normality test
##
## data: res1
## W = 0.54213, p-value = 1.052e-06
hist(res1)
qqplot(x = 1:48, y = res1, pch=16)
qqnorm(res1); qqline(res1)
Se le llama residual a la diferencia entre lo que yo observo y lo que el modelo predice. Si hay un residual muy grande significa que hubo un error en alguna parte del modelo.
Homogeneidad de varianzas de los tratamientos (De los residuales) (Homocedasticidad) Hipótesis Una hipotesis que tenga igualdad de varianzas entre los tratamientos. Cuadno hay mucha variabilidad en un modelo no gerena que sea confiable. \[H_0: \sigma_{temp30} = \sigma^2_{temp50} = \sigma_{temp60}= \sigma_{temp70}\]
*Prueba Barlett
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.0.5
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
bt1=bartlett.test(df_8$Fosforo~df_8$Metodo);bt1
##
## Bartlett test of homogeneity of variances
##
## data: df_8$Fosforo by df_8$Metodo
## Bartlett's K-squared = 33.351, df = 2, p-value = 5.727e-08
ifelse(bt1$p.value<0.05, 'Heterocedasticidad', 'Homocedasticidad')
## [1] "Heterocedasticidad"
Rechazo la hipótesis, no existe una igualdad en las varianzas