los packages
library("tidyverse")
library("forcats")
library("ggthemes")
library("ggsignif")
library("broom")
library("viridis")
library("viridisLite")
Abro mi df
df <- read.csv("datos diego.csv", header = TRUE, sep=",")
Summary de datos
summary(df)
M..todo Pregunta.1 Pregunta.2 Pregunta.3 Pregunta.4
Aceptacion ICAV:42 Min. :2.000 Min. :2.000 Min. :3.000 Min. :3.000
Tradicional :46 1st Qu.:3.000 1st Qu.:3.000 1st Qu.:4.000 1st Qu.:4.000
Median :4.000 Median :4.000 Median :5.000 Median :5.000
Mean :4.023 Mean :3.852 Mean :4.568 Mean :4.545
3rd Qu.:5.000 3rd Qu.:5.000 3rd Qu.:5.000 3rd Qu.:5.000
Max. :5.000 Max. :5.000 Max. :5.000 Max. :5.000
Pregunta.5 Pregunta.6 Suma Genero.1H.2M Genero Edad
Min. :3.000 Min. :2.000 Min. :19.00 Min. :1.000 Hombre:41 Min. :20.00
1st Qu.:4.000 1st Qu.:3.000 1st Qu.:23.00 1st Qu.:1.000 Mujer :47 1st Qu.:21.00
Median :5.000 Median :4.000 Median :25.50 Median :2.000 Median :22.00
Mean :4.545 Mean :3.852 Mean :25.39 Mean :1.534 Mean :22.09
3rd Qu.:5.000 3rd Qu.:5.000 3rd Qu.:28.00 3rd Qu.:2.000 3rd Qu.:23.00
Max. :5.000 Max. :5.000 Max. :30.00 Max. :2.000 Max. :27.00
Estatura
Min. :1.500
1st Qu.:1.600
Median :1.685
Mean :1.673
3rd Qu.:1.740
Max. :1.830
Agrupo por metodo y calculo promedios y sd
Grafico histograma edad
hist(df$Edad)

Graficas histograma para estatura
hist(df$Estatura)

Grafico para puntaje total y tipo de metodo
df %>%
ggplot(aes(x=M..todo, y=Suma)) +
geom_boxplot() +
xlab("Tipo de metodo") +
ylab("Puntaje total encuesta") +
ggtitle("Puntaje total por tipo de metodo") +
theme_classic()+
geom_signif(comparisons = list(c("Aceptacion ICAV", "Tradicional")),
map_signif_level = TRUE, textsize = 4)

Existe diferencia entre el método y el puntaje total de encuesta???
t.test(Suma ~ M..todo, data=df) # Existen diferencias
Welch Two Sample t-test
data: Suma by M..todo
t = 10.199, df = 85.016, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
3.475237 5.158304
sample estimates:
mean in group Aceptacion ICAV mean in group Tradicional
27.64286 23.32609
Algo similar pero filtro por genero
df %>%
ggplot(aes(x=M..todo, y=Suma, fill=Genero)) +
scale_fill_manual(values=c("black", "blue")) +
geom_boxplot() +
xlab("Tipo metodo") +
ylab("Puntaje total encuesta") +
ggtitle("Puntaje total por tipo de metodo segun sexo") +
theme_classic() +
theme(legend.position = "right") +
scale_y_continuous(limits = c(0,40)) +
theme(axis.title.x = element_text(face="bold", vjust=-0.5, colour="black", size=rel(1))) +
theme(axis.title.y = element_text(face="bold", vjust=1.5, colour="black", size=rel(1))) +
scale_fill_discrete(name="Genero", labels=c("Femenino","Masculino"))
Scale for 'fill' is already present. Adding another scale for 'fill', which will replace the
existing scale.

Existen diferencias entre la suma y el genero ????
t.test(Suma ~ Genero, data=df) #No existen
Welch Two Sample t-test
data: Suma by Genero
t = 0.22709, df = 80.251, p-value = 0.8209
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.119901 1.408433
sample estimates:
mean in group Hombre mean in group Mujer
25.46341 25.31915
Ahora grafico método por estatura y filtro por genero
df %>%
ggplot(aes(x=M..todo, y=Estatura, fill=Genero)) +
geom_boxplot()

existe diferencia entre el método y estatura ??
t.test(Estatura ~ M..todo, data=df) #No existen diferencias
Welch Two Sample t-test
data: Estatura by M..todo
t = -0.57897, df = 83.813, p-value = 0.5642
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.04632257 0.02543231
sample estimates:
mean in group Aceptacion ICAV mean in group Tradicional
1.667381 1.677826
Modelo de regresion para estatura y suma
model <- lm(df$Estatura ~ df$Suma, data = df)
summary(model)
Call:
lm(formula = df$Estatura ~ df$Suma, data = df)
Residuals:
Min 1Q Median 3Q Max
-0.16126 -0.06980 0.01020 0.07036 0.16992
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.762460 0.078339 22.498 <2e-16 ***
df$Suma -0.003530 0.003066 -1.152 0.253
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.08378 on 86 degrees of freedom
Multiple R-squared: 0.01518, Adjusted R-squared: 0.003733
F-statistic: 1.326 on 1 and 86 DF, p-value: 0.2527
plot(model)




Ahora lo grafico

Ahora selecciono lo que necesito
long2 <- long_grafico1 %>%
select(M..todo,Preguntas,Puntaje)
Ahora grafico y filtro por pregunta
long2 %>%
ggplot(aes(x=M..todo, y=Puntaje, fill= Preguntas)) +
geom_boxplot()

Ahora grafico y filtro por metodo
long2 %>%
ggplot(aes(x=Preguntas, y=Puntaje, fill= M..todo)) +
geom_boxplot()+
facet_wrap(~ M..todo) +
ylab("Puntaje") +
xlab("Numero de pregunta") +
ggtitle("Puntaje por preguntas segun tipo de metodo") +
scale_fill_discrete(name="Metodo") +
annotate("text", x = 1, y = 6, label = "*", size = 5) +
annotate("text", x = 2, y = 6, label = "*", size = 5) +
annotate("text", x = 6, y = 6, label = "*", size = 5) +
scale_y_continuous(limit = c(0,7)) +
theme_classic()+
coord_flip()

aov para preguntas y puntaje
aov <- aov(long2$Puntaje~long2$Preguntas)
summary(aov)
Df Sum Sq Mean Sq F value Pr(>F)
long2$Preguntas 5 56.5 11.294 17.17 9.66e-16 ***
Residuals 522 343.3 0.658
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ahora donde estan esas diferencias ????
TukeyHSD(aov)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = long2$Puntaje ~ long2$Preguntas)
$`long2$Preguntas`
diff lwr upr p adj
Pregunta.2-Pregunta.1 -1.704545e-01 -0.5201729 0.1792638 0.7306199
Pregunta.3-Pregunta.1 5.454545e-01 0.1957362 0.8951729 0.0001449
Pregunta.4-Pregunta.1 5.227273e-01 0.1730089 0.8724457 0.0003258
Pregunta.5-Pregunta.1 5.227273e-01 0.1730089 0.8724457 0.0003258
Pregunta.6-Pregunta.1 -1.704545e-01 -0.5201729 0.1792638 0.7306199
Pregunta.3-Pregunta.2 7.159091e-01 0.3661907 1.0656275 0.0000001
Pregunta.4-Pregunta.2 6.931818e-01 0.3434634 1.0429002 0.0000004
Pregunta.5-Pregunta.2 6.931818e-01 0.3434634 1.0429002 0.0000004
Pregunta.6-Pregunta.2 -1.776357e-15 -0.3497184 0.3497184 1.0000000
Pregunta.4-Pregunta.3 -2.272727e-02 -0.3724457 0.3269911 0.9999693
Pregunta.5-Pregunta.3 -2.272727e-02 -0.3724457 0.3269911 0.9999693
Pregunta.6-Pregunta.3 -7.159091e-01 -1.0656275 -0.3661907 0.0000001
Pregunta.5-Pregunta.4 1.776357e-15 -0.3497184 0.3497184 1.0000000
Pregunta.6-Pregunta.4 -6.931818e-01 -1.0429002 -0.3434634 0.0000004
Pregunta.6-Pregunta.5 -6.931818e-01 -1.0429002 -0.3434634 0.0000004
en otra visualizacion
long2 %>%
ggplot(aes(x = Puntaje)) +
geom_histogram(bins = 7) +
facet_grid(Preguntas~M..todo)

Ahora puedo graficar los promedios por pregunta (para col)
long3 %>%
ggplot(aes(x=Preguntas, y=Promedios, fill= M..todo, color=M..todo)) +
geom_col()+
coord_flip()

Otro grafico
long3 %>%
ggplot(aes(x=Preguntas, y=Promedios, fill= M..todo, color=M..todo)) +
geom_jitter()

long3 %>%
ggplot(aes(x=Preguntas, y=Promedios, fill= M..todo, color=M..todo)) +
geom_col()+
facet_wrap(~ M..todo)+
coord_flip()

Abro los datos 2
df2 <- read.csv("datos diego2.csv", header = TRUE, sep=",")
Summary
summary(df2)
Metodo EXTENSION.M.D EXTENSION.B.L ELIMINACION.TECHO SOCAVADOS
ICAV :34 Min. :2.000 Min. :1.000 Min. :1.000 Min. :1.000
Tradicional:38 1st Qu.:3.000 1st Qu.:3.000 1st Qu.:2.750 1st Qu.:3.000
Median :4.000 Median :4.000 Median :3.500 Median :4.000
Mean :3.528 Mean :3.319 Mean :3.208 Mean :3.458
3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:4.000
Max. :4.000 Max. :4.000 Max. :4.000 Max. :4.000
AMPLITUD.CERVICAL SUMA TIEMPO
Min. :1.000 Min. : 9.00 Min. :22.00
1st Qu.:2.750 1st Qu.:14.00 1st Qu.:28.00
Median :3.000 Median :18.00 Median :32.50
Mean :3.125 Mean :16.64 Mean :33.51
3rd Qu.:4.000 3rd Qu.:20.00 3rd Qu.:39.25
Max. :4.000 Max. :20.00 Max. :45.00
Veo estructura de mis datos
str(df2)
'data.frame': 72 obs. of 8 variables:
$ Metodo : Factor w/ 2 levels "ICAV","Tradicional": 1 1 1 1 1 1 1 1 1 1 ...
$ EXTENSION.M.D : int 4 4 2 4 3 4 3 4 4 3 ...
$ EXTENSION.B.L : int 4 1 1 4 2 3 2 4 4 3 ...
$ ELIMINACION.TECHO: int 4 4 1 4 3 3 3 4 4 3 ...
$ SOCAVADOS : int 4 1 4 4 3 4 4 4 4 1 ...
$ AMPLITUD.CERVICAL: int 4 1 1 4 3 4 4 4 4 2 ...
$ SUMA : int 20 11 9 20 14 18 16 20 20 12 ...
$ TIEMPO : int 35 43 31 25 35 31 32 44 35 41 ...
Grafico para tipo de metodo y puntaje de desempeno
df2 %>%
ggplot(aes(x=Metodo, y=SUMA)) +
geom_boxplot() +
xlab("Tipo de metodo") +
ylab("Puntaje total de desempeno") +
ggtitle("Puntaje total del desempeno segun tipo de metodo") +
theme_classic()

Existen diferencias entre el tipo de metodo y la suma total ???
t.test(df2$SUMA~df2$Metodo)
Welch Two Sample t-test
data: df2$SUMA by df2$Metodo
t = -1.1626, df = 66.672, p-value = 0.2492
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.5319999 0.6682228
sample estimates:
mean in group ICAV mean in group Tradicional
16.14706 17.07895
Grafico para tipo de metodo y tiempo
df2 %>%
ggplot(aes(x=Metodo, y=TIEMPO)) +
geom_boxplot() +
xlab("Tipo de metodo") +
ylab("Tiempo") +
ggtitle("Tiempo segun tipo de metodo") +
theme_classic()

Existen diferencias entre metodo y tiempo????
t.test(df2$TIEMPO~df2$Metodo)
Welch Two Sample t-test
data: df2$TIEMPO by df2$Metodo
t = 1.4595, df = 69.342, p-value = 0.1489
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.7669473 4.9496099
sample estimates:
mean in group ICAV mean in group Tradicional
34.61765 32.52632
Modelo regresion entre tiempo y suma total de desempeno
model2 <- lm(df2$TIEMPO ~ df2$SUMA, data = df2)
summary(model2)
Call:
lm(formula = df2$TIEMPO ~ df2$SUMA, data = df2)
Residuals:
Min 1Q Median 3Q Max
-10.5764 -5.1794 -0.1794 4.8428 12.8206
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 40.1202 3.5826 11.198 <2e-16 ***
df2$SUMA -0.3970 0.2111 -1.881 0.0641 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.017 on 70 degrees of freedom
Multiple R-squared: 0.04812, Adjusted R-squared: 0.03452
F-statistic: 3.539 on 1 and 70 DF, p-value: 0.06411
plot(model2)




Lo grafico (lm 2/modelo)

