library(rio)
data=import("COVID Isolation.xlsx")
#LIMPIAR PRIMERA VARIABLE ESCOGIDA #En este caso Q8 es variable nominal dicotómica.
class(data$Q8)
## [1] "character"
any(is.na(data$Q8)) #Confirma que sí hay NA's
## [1] TRUE
sum(is.na(data$Q8)) #Cantidad de valores perdidos en el vector
## [1] 4
BD<- data[!is.na(data$Q8), ] #primero, imputamos los NA's
sum(is.na(BD$Q8)) #Cantidad de valores perdidos en el vector
## [1] 0
class(BD$Q8)
## [1] "character"
BD$Q8=as.factor(BD$Q8) #convirtiendo a factor
class(BD$Q8)
## [1] "factor"
#LIMPIAR SEGUNDA VARIABLE ESCOGIDA ##En este caso Q13 es variable numérica discreta. ##En este caso se vuelve a limpiar porque se está convirtiendo a numérica
class(BD$Q13)
## [1] "character"
any(is.na(BD$Q13)) #Confirma que sí hay NA's
## [1] TRUE
sum(is.na(BD$Q13)) #Cantidad de valores perdidos en el vector
## [1] 58
BD1 <- BD[complete.cases(BD$Q13), ] #primero, imputamos los NA's
sum(is.na(BD1$Q13))
## [1] 0
BD1$Q13=as.numeric(BD1$Q13)
## Warning: NAs introducidos por coerción
class(BD1$Q13)
## [1] "numeric"
sum(is.na(BD1$Q13))
## [1] 2
BD1 <- BD1[complete.cases(BD1$Q13), ] #volvemos a imputar NA's
sum(is.na(BD1$Q13))
## [1] 0
#1ER PASO: ESTABLECER HIPÓTESIS Ho: No hay diferencia entre las medias de horas de sueño del personal de la salud que labora de manera remota vs presencial. (no diferencia de medias)
H1: Si existen diferencias entre las medias de horas de sueño del personal de la salud que labora de manera remota vs presencial. (sí diferencia de medias)
#2do PASO: CALCULAR EL ESTADÍSTICO A EMPLEAR Quiero saber si existe o no una diferencia significativa entre las medias poblacionales de ambos grupos.
remoto= BD1[BD1$Q8=="Yes", "Q13"] # promedio de horas de sueño del personal que labora de manera remota
presencial= BD1[BD1$Q8=="No", "Q13"] #promedio de horas de sueño del personal que labora de manera presencial
mean(remoto, na.rm = TRUE) - mean(presencial, na.rm = TRUE) #calculo la diferencia de medias. Lo que quiero saber en adelante es si esta diferencia de media es estadísticamente significativa o no.
## [1] 0.6013614
#3er PASO: DETERMINAR EL NIVEL DE SIGNIFICANCIA - p-value<=0.05 Rechazo la H0 y acepto H1 - p-value>0.05 No rechazo la H0
#4to PASO: CALCULAR P VALUE Y REALIZAR PRUEA T.TEST
t.test(
x = presencial,
y = remoto,
alternative = "two.sided",
mu = 0,
conf.level = 0.95 #nivel de confianza (95%)
)
##
## Welch Two Sample t-test
##
## data: presencial and remoto
## t = -5.4814, df = 495.41, p-value = 6.732e-08
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.8169153 -0.3858074
## sample estimates:
## mean of x mean of y
## 6.596358 7.197719
#5to PASO: INTERPRETAR ##En este caso el p-value es menor:
Se observa que el p-value es 6.732e-08,y es menor al alpha (0.05), entonces rechazo la H0, por tanto, existe una diferencia estadísticamente significativa entre las medias de horas de sueño del personal de la salud que labora de manera remota vs presencial con un 95% de confianza.
##En el caso en que p-value sea mayor:
Se observa que el p-value es … y es mayor a alpha(0.05), entonces compruebo la H0, por tanto, no existe una diferencia estadísticamente significativa entre … que … vs… con un 95% de confianza.
#PASO FINAL: GRAFICAR
library(Rmisc)
## Loading required package: lattice
## Loading required package: plyr
ci.indicador1 <- CI(remoto, ci=0.95)
ci.indicador2 <- CI(presencial, ci=0.95)
Para calcular la diferencia de medias
library(Rmisc)
group.CI(BD1$Q13~BD1$Q8,BD1,ci=0.95)
## BD1$Q8 BD1$Q13.upper BD1$Q13.mean BD1$Q13.lower
## 1 No 6.784401 6.596358 6.408314
## 2 Yes 7.303595 7.197719 7.091843
#BARRAS DE ERROR
library(gplots)
##
## Attaching package: 'gplots'
## The following object is masked from 'package:stats':
##
## lowess
plotmeans(BD1$Q13 ~ BD1$Q8, BD1) #gráfico de medias
#Añadiendo labels y removiendo líneas
plotmeans(BD1$Q13 ~ BD1$Q8, BD1,
mean.labels = TRUE, , digits=2,connect = FALSE,xlab = "Forma de trabajo remoto", ylab="Número de horas de sueño")
INTERPRETACIÓN: Como se observa ambos intervalos de confianza no se
traslapan, por lo que se puede concluir gráficamente que existe una
diferencia estadísticamente significativa entre las medias de horas de
sueño del personal de la salud que labora de manera remota vs presencial
con un 95% de confianza en la población.
Si se traslapara sería: Como se observa ambos intervalos de confianza se traslapan, por lo que se puede concluir gráficamente que no existe una diferencia estadísticamente significativa entre … que … vs …con un 95% de confianza en la población