En unos laboratorios se estan estudiando los factores que influyen en la resistencia de un tipo de particulas de fibra. Si se eligen al azar 4 maquinas y 3 operarios y se realiza un experimento factorial. Los resultados oobtenidos se muestran en la siguiente tabla, analizar los resultados y obtene las conclusiones apropiadas.
library(readxl)
datos1 <- read_excel("C:/Users/X415JA/Documents/diseno Angel Vargas/ejercicio1.xlsx")
datos1
## # A tibble: 24 × 3
## Operario Tiempo Maquina
## <dbl> <dbl> <chr>
## 1 1 109 A
## 2 1 110 B
## 3 1 108 C
## 4 1 110 D
## 5 1 110 A
## 6 1 115 B
## 7 1 109 C
## 8 1 108 D
## 9 2 110 A
## 10 2 110 B
## # ℹ 14 more rows
library(summarytools)
## Warning: package 'summarytools' was built under R version 4.3.2
summarytools::descr(datos1[,2])
## Descriptive Statistics
## datos1$Tiempo
## N: 24
##
## Tiempo
## ----------------- --------
## Mean 112.29
## Std.Dev 3.38
## Min 108.00
## Q1 110.00
## Median 111.50
## Q3 114.50
## Max 120.00
## MAD 3.71
## IQR 4.25
## CV 0.03
## Skewness 0.69
## SE.Skewness 0.47
## Kurtosis -0.60
## N.Valid 24.00
## Pct.Valid 100.00
Media: El valor promedio de la variable “Tiempo” es 112,29.
Std.Dev (Desviación estándar): La desviación estándar mide la cantidad de variación o dispersión en los datos. En este caso, es 3,38, lo que indica que los puntos de datos están relativamente cerca de la media.
Min: el valor mínimo en el conjunto de datos es 108,00.
Q1 (Primer Cuartil): El valor por debajo del cual cae el 25% de los datos es 110,00.
Mediana: La mediana, también conocida como segundo cuartil o percentil 50, es 111,50. Representa el valor medio del conjunto de datos cuando se ordena.
T3 (Tercer Cuartil): El valor por debajo del cual cae el 75% de los datos es 114,50.
Máx: el valor máximo en el conjunto de datos es 120,00.
MAD (desviación media absoluta): la desviación media absoluta es una medida de la diferencia absoluta promedio entre cada punto de datos y la media. En este caso es 3,71.
IQR (Rango Intercuartil): El rango intercuartil es el rango entre el primer cuartil (Q1) y el tercer cuartil (Q3). Es 4,25 en este conjunto de datos.
CV (Coeficiente de variación): El coeficiente de variación es una medida de variabilidad relativa y se calcula como la desviación estándar dividida por la media. En este caso, es 0,03, lo que indica una variabilidad relativamente baja en relación con la media.
Asimetría: La asimetría mide la asimetría de la distribución de datos. Una asimetría positiva (0,69 en este caso) sugiere que los datos están ligeramente sesgados hacia la derecha (cola en el lado derecho de la distribución).
SE.Skewness (Error estándar de asimetría): este es el error estándar asociado con el valor de asimetría y es 0,47 en este conjunto de datos.
Kurtosis: La kurtosis mide el pico o la planitud de la distribución de datos. Un valor negativo (-0,60 en este caso) sugiere una distribución ligeramente más plana en comparación con una distribución normal.
N.Válido: el número de puntos de datos válidos en el conjunto de datos es 24.
Pct.Valid: el porcentaje de puntos de datos válidos en el conjunto de datos es 100,00%, lo que indica que los 24 puntos de datos son válidos.
resultados_descriptivos <- aggregate(Maquina ~ Tiempo, data = datos1, summary)
print(resultados_descriptivos)
## Tiempo Maquina.Length Maquina.Class Maquina.Mode
## 1 108 2 character character
## 2 109 3 character character
## 3 110 5 character character
## 4 111 2 character character
## 5 112 3 character character
## 6 114 3 character character
## 7 115 2 character character
## 8 116 1 character character
## 9 117 1 character character
## 10 119 1 character character
## 11 120 1 character character
modelo_anova1 <- aov(Tiempo ~ Maquina, data = datos1)
resumen_anova1 <- summary(modelo_anova1)
print(resumen_anova1)
## Df Sum Sq Mean Sq F value Pr(>F)
## Maquina 3 12.46 4.153 0.332 0.803
## Residuals 20 250.50 12.525
El valor F es una medida de si existen diferencias significativas entre las medias de las máquinas. En este caso, el valor F es 0.332.
El valor p se utiliza para determinar la significancia estadística del valor F. Un valor p bajo (< 0.05) indica que hay diferencias significativas entre las medias de las máquinas, mientras que un valor p alto (> 0.05) sugiere que no hay diferencias significativas. En este caso, el valor p es 0.803, lo que indica que no hay evidencia suficiente para rechazar la hipótesis nula de que las medias de las máquinas son iguales. En otras palabras, no se encontraron diferencias significativas entre las máquinas en lo que respecta a la resistencia de las partículas de fibra.
require(table1)
## Loading required package: table1
##
## Attaching package: 'table1'
## The following objects are masked from 'package:summarytools':
##
## label, label<-
## The following objects are masked from 'package:base':
##
## units, units<-
mod2=lm(Tiempo ~ Maquina,data=datos1)
summary(mod2)
##
## Call:
## lm(formula = Tiempo ~ Maquina, data = datos1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.5000 -2.2917 -0.9167 2.4583 7.3333
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 111.8333 1.4448 77.403 <2e-16 ***
## MaquinaB 0.3333 2.0433 0.163 0.872
## MaquinaC -0.1667 2.0433 -0.082 0.936
## MaquinaD 1.6667 2.0433 0.816 0.424
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.539 on 20 degrees of freedom
## Multiple R-squared: 0.04738, Adjusted R-squared: -0.09552
## F-statistic: 0.3316 on 3 and 20 DF, p-value: 0.8026
anova(mod2)
## Analysis of Variance Table
##
## Response: Tiempo
## Df Sum Sq Mean Sq F value Pr(>F)
## Maquina 3 12.458 4.1528 0.3316 0.8026
## Residuals 20 250.500 12.5250
boxplot(datos1$Tiempo~datos1$Maquina,data = datos1,col= c("red","blue","green","orange"),ylab="Tiempo", xlab="Maquina")
plot(mod2)
shapiro.test(mod2$residuals)
##
## Shapiro-Wilk normality test
##
## data: mod2$residuals
## W = 0.94539, p-value = 0.2149
plot(mod2)
Las gráficas anteriores permiten corroborar que en efecto si se cumplen los supuestos de normalidad, homogeneidad e independencia en analisis de varianzas.
En un experimento se consideran 3 especies de plantas y 2 tipos de reactivos para activar el ciclo de florescencia de las plantas. Se mide en cada planta la supervivencia de la flor es decir, el tiempo en dias en que aparece la flor hasta cuando presenta signos de marchitamiento. los resultados se indican en la siguiente tabla:
datos <- read_excel("C:/Users/X415JA/Documents/diseno Angel Vargas/ejercicio2.xlsx")
datos
## # A tibble: 18 × 3
## Reactivo Tiempo Especie
## <chr> <dbl> <chr>
## 1 A 12 SpA
## 2 A 13 SpA
## 3 A 15 SpA
## 4 A 13 SpB
## 5 A 15 SpB
## 6 A 15 SpB
## 7 A 16 SpC
## 8 A 18 SpC
## 9 A 20 SpC
## 10 B 9 SpA
## 11 B 8 SpA
## 12 B 9 SpA
## 13 B 10 SpB
## 14 B 8 SpB
## 15 B 9 SpB
## 16 B 12 SpC
## 17 B 10 SpC
## 18 B 13 SpC
datos
## # A tibble: 18 × 3
## Reactivo Tiempo Especie
## <chr> <dbl> <chr>
## 1 A 12 SpA
## 2 A 13 SpA
## 3 A 15 SpA
## 4 A 13 SpB
## 5 A 15 SpB
## 6 A 15 SpB
## 7 A 16 SpC
## 8 A 18 SpC
## 9 A 20 SpC
## 10 B 9 SpA
## 11 B 8 SpA
## 12 B 9 SpA
## 13 B 10 SpB
## 14 B 8 SpB
## 15 B 9 SpB
## 16 B 12 SpC
## 17 B 10 SpC
## 18 B 13 SpC
summarytools::descr(datos[,2])
## Descriptive Statistics
## datos$Tiempo
## N: 18
##
## Tiempo
## ----------------- --------
## Mean 12.50
## Std.Dev 3.50
## Min 8.00
## Q1 9.00
## Median 12.50
## Q3 15.00
## Max 20.00
## MAD 3.71
## IQR 5.75
## CV 0.28
## Skewness 0.43
## SE.Skewness 0.54
## Kurtosis -0.90
## N.Valid 18.00
## Pct.Valid 100.00
N (Número de observaciones): Hay un total de 18 observaciones en el conjunto de datos.
Mean (Promedio): El valor promedio o la media de la variable “Tiempo” es de 12.50. Esto indica que, en promedio, las observaciones tienen un valor de 12.50.
Std.Dev (Desviación estándar): La desviación estándar es 3.50. Esto mide la dispersión de los datos en torno a la media. En este caso, la desviación estándar es relativamente alta, lo que sugiere una variabilidad significativa en los valores de tiempo.
Min (Mínimo): El valor mínimo de “Tiempo” en el conjunto de datos es 8.00, lo que representa el valor más bajo observado.
Q1 (Primer Cuartil): El primer cuartil (Q1) es 9.00. Esto significa que el 25% de las observaciones tienen un valor de “Tiempo” igual o inferior a 9.00.
Median (Mediana): La mediana es 12.50, lo que indica que el 50% de las observaciones tienen un valor de “Tiempo” igual o inferior a 12.50. La mediana es igual al valor promedio en este caso, lo que sugiere una distribución simétrica.
Q3 (Tercer Cuartil): El tercer cuartil (Q3) es 15.00. Esto significa que el 75% de las observaciones tienen un valor de “Tiempo” igual o inferior a 15.00.
Max (Máximo): El valor máximo de “Tiempo” en el conjunto de datos es 20.00, que representa el valor más alto observado.
MAD (Desviación absoluta media): La desviación absoluta media es 3.71, y se refiere a la medida de la dispersión promedio en términos de valores absolutos con respecto a la media.
IQR (Rango intercuartil): El rango intercuartil es 5.75, que es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). Representa la dispersión en el centro de los datos.
CV (Coeficiente de variación): El coeficiente de variación es 0.28, que es la desviación estándar dividida por la media. Mide la variabilidad relativa en relación con la media. Un valor bajo indica una variabilidad baja en comparación con la media.
Skewness (Asimetría): El coeficiente de asimetría es 0.43, lo que sugiere una ligera asimetría positiva en la distribución de los datos. Esto significa que la cola de la distribución tiende a estar ligeramente inclinada hacia la derecha.
SE.Skewness (Error estándar de la asimetría): El error estándar de la asimetría es 0.54, que mide la precisión del cálculo de la asimetría.
Kurtosis (Curtosis): El valor de la curtosis es -0.90, lo que indica una distribución leptocúrtica o una distribución con colas más ligeras en comparación con una distribución normal.
N.Valid (Número de observaciones válidas): Todos los 18 datos son válidos y se han tenido en cuenta en el análisis.
Pct.Valid (Porcentaje de observaciones válidas): El 100% de las observaciones son válidas.
En resumen, los datos de la variable “Tiempo” muestran un conjunto con una variabilidad moderada, una ligera asimetría positiva y una distribución leptocúrtica. La mayoría de los valores de tiempo se encuentran en el rango entre el primer y tercer cuartil. La mediana es igual a la media, lo que sugiere una distribución simétrica.
resultados_descriptivos <- aggregate(Reactivo ~ Tiempo, data = datos, summary)
print(resultados_descriptivos)
## Tiempo Reactivo.Length Reactivo.Class Reactivo.Mode
## 1 8 2 character character
## 2 9 3 character character
## 3 10 2 character character
## 4 12 2 character character
## 5 13 3 character character
## 6 15 3 character character
## 7 16 1 character character
## 8 18 1 character character
## 9 20 1 character character
#Ho= no hay diferencias en el tiempo de activacicon de la florescencia de la flor
#Ha= hay diferencias en en el tiempo de activacicon de la florescencia de la flor
modelo_anova <- aov(Tiempo ~ Reactivo, data = datos)
resumen_anova <- summary(modelo_anova)
print(resumen_anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## Reactivo 1 133.39 133.39 28.41 6.76e-05 ***
## Residuals 16 75.11 4.69
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Los resultados del ANOVA muestran que existe una diferencia significativa en el tiempo de inflorescencia de la planta en función del tipo de reactivo utilizado. El valor p muy bajo (6.76e-05) y el valor F significativamente alto (28.41) respaldan la conclusión de que al menos uno de los tipos de reactivos tiene un impacto significativo en el tiempo de supervivencia de la flor. Por lo tanto, el ANOVA proporciona evidencia estadística para rechazar la hipótesis nula y sugiere que el tipo de reactivo influye en la supervivencia de la flor en las plantas estudiadas.
mod1=lm(Tiempo ~ Reactivo,data=datos)
summary(mod1)
##
## Call:
## lm(formula = Tiempo ~ Reactivo, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.2222 -1.5278 -0.2222 0.6389 4.7778
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 15.2222 0.7222 21.08 4.26e-13 ***
## ReactivoB -5.4444 1.0214 -5.33 6.76e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.167 on 16 degrees of freedom
## Multiple R-squared: 0.6398, Adjusted R-squared: 0.6172
## F-statistic: 28.41 on 1 and 16 DF, p-value: 6.763e-05
boxplot(datos$Tiempo~datos$Reactivo,data = datos,col= c("red","blue","green","orange"),ylab="tiempo", xlab="reactivo")
De acuerdo con el diagrama de cajas y bigotes, se observa que los datos bajo los diferentes tratamientos se ubican de manera diferente, de esta manera se confirma que no hay igualdad en el tiempo de florescencia.
plot(mod1)
shapiro.test(mod1$residuals)
##
## Shapiro-Wilk normality test
##
## data: mod1$residuals
## W = 0.9399, p-value = 0.2887
plot(mod1)
Las anteriores gráficas permiten corroborar que en efecto si se cumplen los supuestos de normalidad, homogeneidad e independencia en analisis de varianzas.
Supongamos que estás realizando un estudio para determinar si el rendimiento de los estudiantes en un examen es influenciado por dos factores: el tipo de preparación (A, B o C) y el tiempo de estudio (1, 2 o 3 horas). Quieres investigar si hay una interacción significativa entre estos dos factores.
datos <- read_excel("C:/Users/X415JA/Documents/diseno.xlsx")
datos
## # A tibble: 18 × 3
## tipodp tiempodp puntuación
## <chr> <dbl> <dbl>
## 1 A 1 80
## 2 A 2 75
## 3 A 3 85
## 4 A 1 90
## 5 A 2 70
## 6 A 3 78
## 7 B 1 92
## 8 B 2 88
## 9 B 3 76
## 10 B 1 82
## 11 B 2 89
## 12 B 3 95
## 13 C 1 72
## 14 C 2 81
## 15 C 3 84
## 16 C 1 87
## 17 C 2 68
## 18 C 3 73
summarytools::descr(datos[,2])
## Descriptive Statistics
## datos$tiempodp
## N: 18
##
## tiempodp
## ----------------- ----------
## Mean 2.00
## Std.Dev 0.84
## Min 1.00
## Q1 1.00
## Median 2.00
## Q3 3.00
## Max 3.00
## MAD 1.48
## IQR 2.00
## CV 0.42
## Skewness 0.00
## SE.Skewness 0.54
## Kurtosis -1.66
## N.Valid 18.00
## Pct.Valid 100.00
resultados_descriptivos <- aggregate(tipodp ~ `tiempodp`, data = datos, FUN = summary)
print(resultados_descriptivos)
## tiempodp tipodp.Length tipodp.Class tipodp.Mode
## 1 1 6 character character
## 2 2 6 character character
## 3 3 6 character character