Problema 2, taller 5

Hipótesis

Ho= μ1=μ2=μ3=μ4 Las medias son iguales HA= μ1≠μn Alguna de las medias es diferente

library(tidyverse)

## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --

## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.4     v dplyr   1.0.7
## v tidyr   1.1.4     v stringr 1.4.0
## v readr   2.0.2     v forcats 0.5.1

## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

library(ggpubr)
library(rstatix)

## 
## Attaching package: 'rstatix'

## The following object is masked from 'package:stats':
## 
##     filter

library(datarium)

df<-read.csv("https://raw.githubusercontent.com/gidasan08/DExperimental/main/Problema%202.csv")
df

##    ï..Sujeto listas t1 t2 t3 t4
## 1          1      n  6  6  3  2
## 2          1      l  8  6  4  3
## 3          2      n  7  5  5  5
## 4          2      l 10  8  5  2
## 5          3      n  4  2  1  3
## 6          3      l  7  7  2  2
## 7          4      n  7  5  3  4
## 8          4      l 11  9  3  6
## 9          5      n  6  4  4  5
## 10         5      l 10  6  4  3
## 11         6      n  5  2  1  1
## 12         6      l  9  4  3  5

df$ï..Sujeto=factor(df$ï..Sujeto)
df$listas=factor(df$listas)
df$t1=as.numeric(df$t1)
df$t2=as.numeric(df$t2)
df$t3=as.numeric(df$t3)
df$t4=as.numeric(df$t4)
df

##    ï..Sujeto listas t1 t2 t3 t4
## 1          1      n  6  6  3  2
## 2          1      l  8  6  4  3
## 3          2      n  7  5  5  5
## 4          2      l 10  8  5  2
## 5          3      n  4  2  1  3
## 6          3      l  7  7  2  2
## 7          4      n  7  5  3  4
## 8          4      l 11  9  3  6
## 9          5      n  6  4  4  5
## 10         5      l 10  6  4  3
## 11         6      n  5  2  1  1
## 12         6      l  9  4  3  5

df<-df %>% gather(key="time",value="score",t1,t2,t3,t4) %>% convert_as_factor(ï..Sujeto,time)
df

##    ï..Sujeto listas time score
## 1          1      n   t1     6
## 2          1      l   t1     8
## 3          2      n   t1     7
## 4          2      l   t1    10
## 5          3      n   t1     4
## 6          3      l   t1     7
## 7          4      n   t1     7
## 8          4      l   t1    11
## 9          5      n   t1     6
## 10         5      l   t1    10
## 11         6      n   t1     5
## 12         6      l   t1     9
## 13         1      n   t2     6
## 14         1      l   t2     6
## 15         2      n   t2     5
## 16         2      l   t2     8
## 17         3      n   t2     2
## 18         3      l   t2     7
## 19         4      n   t2     5
## 20         4      l   t2     9
## 21         5      n   t2     4
## 22         5      l   t2     6
## 23         6      n   t2     2
## 24         6      l   t2     4
## 25         1      n   t3     3
## 26         1      l   t3     4
## 27         2      n   t3     5
## 28         2      l   t3     5
## 29         3      n   t3     1
## 30         3      l   t3     2
## 31         4      n   t3     3
## 32         4      l   t3     3
## 33         5      n   t3     4
## 34         5      l   t3     4
## 35         6      n   t3     1
## 36         6      l   t3     3
## 37         1      n   t4     2
## 38         1      l   t4     3
## 39         2      n   t4     5
## 40         2      l   t4     2
## 41         3      n   t4     3
## 42         3      l   t4     2
## 43         4      n   t4     4
## 44         4      l   t4     6
## 45         5      n   t4     5
## 46         5      l   t4     3
## 47         6      n   t4     1
## 48         6      l   t4     5

REsumen Estadistico

df %>% group_by(time) %>% get_summary_stats(score,type="mean_sd")

## # A tibble: 4 x 5
##   time  variable     n  mean    sd
##   <fct> <chr>    <dbl> <dbl> <dbl>
## 1 t1    score       12  7.5   2.15
## 2 t2    score       12  5.33  2.15
## 3 t3    score       12  3.17  1.34
## 4 t4    score       12  3.42  1.56

df

##    ï..Sujeto listas time score
## 1          1      n   t1     6
## 2          1      l   t1     8
## 3          2      n   t1     7
## 4          2      l   t1    10
## 5          3      n   t1     4
## 6          3      l   t1     7
## 7          4      n   t1     7
## 8          4      l   t1    11
## 9          5      n   t1     6
## 10         5      l   t1    10
## 11         6      n   t1     5
## 12         6      l   t1     9
## 13         1      n   t2     6
## 14         1      l   t2     6
## 15         2      n   t2     5
## 16         2      l   t2     8
## 17         3      n   t2     2
## 18         3      l   t2     7
## 19         4      n   t2     5
## 20         4      l   t2     9
## 21         5      n   t2     4
## 22         5      l   t2     6
## 23         6      n   t2     2
## 24         6      l   t2     4
## 25         1      n   t3     3
## 26         1      l   t3     4
## 27         2      n   t3     5
## 28         2      l   t3     5
## 29         3      n   t3     1
## 30         3      l   t3     2
## 31         4      n   t3     3
## 32         4      l   t3     3
## 33         5      n   t3     4
## 34         5      l   t3     4
## 35         6      n   t3     1
## 36         6      l   t3     3
## 37         1      n   t4     2
## 38         1      l   t4     3
## 39         2      n   t4     5
## 40         2      l   t4     2
## 41         3      n   t4     3
## 42         3      l   t4     2
## 43         4      n   t4     4
## 44         4      l   t4     6
## 45         5      n   t4     5
## 46         5      l   t4     3
## 47         6      n   t4     1
## 48         6      l   t4     5

Visualización de los datos

bxp<-ggboxplot(df,x="time",y="score",color="listas",palette="jco")
bxp

Supuesto de modelo

df %>% group_by(listas,time) %>% identify_outliers(score)

## [1] listas     time       ï..Sujeto  score      is.outlier is.extreme
## <0 rows> (or 0-length row.names)

Normalidad

df %>% group_by(listas,time) %>% shapiro_test(score)

## # A tibble: 8 x 5
##   listas time  variable statistic     p
##   <fct>  <fct> <chr>        <dbl> <dbl>
## 1 l      t1    score        0.958 0.804
## 2 l      t2    score        0.974 0.918
## 3 l      t3    score        0.960 0.820
## 4 l      t4    score        0.863 0.201
## 5 n      t1    score        0.908 0.421
## 6 n      t2    score        0.876 0.252
## 7 n      t3    score        0.908 0.425
## 8 n      t4    score        0.920 0.505

ggqqplot(df,"score",ggtheme=theme_bw()) + facet_grid(time~listas,labeller="label_both")

Cálculo de ANOVA

res.aov<-anova_test(data=df,dv=score,wid=ï..Sujeto,within=c(listas,time))
get_anova_table(res.aov)

## ANOVA Table (type III tests)
## 
##        Effect DFn DFd      F        p p<.05   ges
## 1      listas   1   5 20.351 6.00e-03     * 0.275
## 2        time   3  15 38.058 2.98e-07     * 0.613
## 3 listas:time   3  15  5.315 1.10e-02     * 0.186

Post Hoc

one.way<- df %>% group_by(time) %>% anova_test(dv=score,wid=ï..Sujeto,within=listas) %>% get_anova_table() %>% adjust_pvalue(method="bonferroni")
one.way

## # A tibble: 4 x 9
##   time  Effect   DFn   DFd       F        p `p<.05`   ges    p.adj
## * <fct> <chr>  <dbl> <dbl>   <dbl>    <dbl> <chr>   <dbl>    <dbl>
## 1 t1    listas     1     5 100     0.000171 "*"     0.654 0.000684
## 2 t2    listas     1     5  13.9   0.014    "*"     0.421 0.056   
## 3 t3    listas     1     5   4     0.102    ""      0.068 0.408   
## 4 t4    listas     1     5   0.024 0.883    ""      0.003 1

Comparaciones de Medias

pwc<- df %>% 
      group_by(time) %>% 
      pairwise_t_test(
     score~listas,paired=TRUE,
     p.adjust.method="bonferroni"
)
pwc

## # A tibble: 4 x 11
##   time  .y.   group1 group2    n1    n2 statistic    df        p    p.adj
## * <fct> <chr> <chr>  <chr>  <int> <int>     <dbl> <dbl>    <dbl>    <dbl>
## 1 t1    score l      n          6     6    10         5 0.000171 0.000171
## 2 t2    score l      n          6     6     3.73      5 0.014    0.014   
## 3 t3    score l      n          6     6     2         5 0.102    0.102   
## 4 t4    score l      n          6     6     0.155     5 0.883    0.883   
## # ... with 1 more variable: p.adj.signif <chr>

Reporte

pwc<-pwc %>% add_xy_position(x="time")
bxp+
  stat_pvalue_manual(pwc,tip.length=0,hide.ns=TRUE)+
  labs(
     subtitle=get_test_label(res.aov,detailed=TRUE),
     caption=get_pwc_label(pwc)
  )

Conclusión

Según el boxplot de cajas y bigotes existen diferencias entre la memorización de letras y números con el paso del tiempo.En un inicio, a t1 y t2 se observa que las letras se recuerdan con mayor facilidad que los números, pero a t3 y t4 ya no existe una diferencia en el recuerdo. No se presentan outliers en los datos obtenidos y los mismos presentan un comportamiento normal según la prueba de Shapiro, con un valor de p >0.05, al 95% de confianza. Al ser un ANOVA de dos vías se analiza el efecto de cada factor por separado y su interacción, de lo cual todas resultaron ser significativas, con un valor p<0.05, a 95% de confianza.Con esto se rechaza la hipótesis nula y concluimos que existe una diferencia estadísticamente significativa en la calidad de los recuerdos a través del tiempo y el contenido a memorizar. En la prueba de comparación de medias con método de Bonferroni, se observa una diferencia significativa de los niveles críticos asociados a t1 y t2. En la sección de Reporte con los diagramas de cajas y bigotes, se aprecian las diferencias significativas de t1 y t2 l con respecto a t3 y t4. Se concluye que debido al factor tiempo con un valor de p< 0,05, rechaza la hipótesis nula de igualdad de medias de ese factor y se plantea que la calidad del recuerdo no es la misma en los cuatro tiempos utilizados. En segundo lugar, efecto del factor contenido con p< 0,05, rechaza la hipótesis nula de igualdad de medias asociado al factor contenido estableciendo que la calidad del recuerdo no es la misma en las dos listas utilizadas. EL efecto de la interacción tiempo-contenido con p< 0,05, rechaza la hipótesis nula con referencia a la interacción, por lo tanto esta será significativa.