RESPECTO A LOS GRAFICOS : Cuando es de las diagonales X SIEMPRE ES NUMERO Y Y ES UN FACTOR cuando es el de los bloques X SIEMPRE ES UN FACTOR Y Y ES SIEMPRE UN NÚMERO. SI NO LO HAGO ASÍ EL GRÁFICO ME SALDRÁ MAL.

GRÁFICOS Si es NO PARAMÉTRICA, uso boxplot (ggplot) Si es PARAMÉTRICA, uso las barras (ggpubr) ggerrorplot

Los astericos indican que la probabilidad de que todas las medias sean iguales es menor a 0.05. De ahi que al menos una difiere de las demás.

RDG Y SES(nivel socioeconómico) - La pregunta sería: ¿a mayor nivel socioeconómico, mayor nivel de lectura? - Cuando me sale e-12. quiere decir que muevo la coma decimal doce veces, es muy significativo. - Según el gráfico, confirma que la diferencia es significativa puesto que el primer bloque está debajo de los demás. - Politómica: de tres a más

HIPOTESIS NULA o H0: para numéricas con categóricas (dico o poli) NUM- DICO :Los promedios de las variables numericas en cada grupo de la dicotómica no se diferencian. NUM-POLI Los promedios de las variables numericas en cada grupo de la politómica no se diferencian.

Test para aprobar o aceptar hipótesis

PARAMÉTRICA -DICO:PRUEBA T -POLI:anova o prueba F de Schnedeco

NO PÁRAMÉTRICA -DICO:WILCOX POLI: krustal

library(htmltab)
link="https://es.wikipedia.org/wiki/Elecciones_parlamentarias_de_Per%C3%BA_de_2016"
path='//*[@id="mw-content-text"]/div/table[6]/tbody/tr/td/table/tbody'

elecciones=htmltab(doc = link,which = path)
str(elecciones)
## 'data.frame':    130 obs. of  6 variables:
##  $ Distrito Electoral  : chr  "Amazonas(al 100,00%)" "Amazonas(al 100,00%)" "Áncash(al 100,00%)" "Áncash(al 100,00%)" ...
##  $ Escaños             : chr  "2" "2" "5" "5" ...
##  $ Congresistas electos: chr  "2" "1" "2" "1" ...
##  $ Congresistas electos: chr  "Marita Herrera Arévalo" "Miguel Antonio Castro Grández" "Eloy Ricardo Narváez Soto" "María Elena Foronda Farro" ...
##  $ Partido             : chr  "Fuerza Popular" "Fuerza Popular" "Alianza para el Progreso" "Frente Amplio" ...
##  $ Votos               : chr  "15 312" "12 939" "20 941" "9 094" ...
elecciones$Partido=as.factor(elecciones$Partido)
library(readr)

elecciones[,c(2,3,6)]=lapply(elecciones[,c(2,3,6)],parse_number)
elecciones=elecciones[,c(5,6)]
str(elecciones)
## 'data.frame':    130 obs. of  2 variables:
##  $ Partido: Factor w/ 6 levels "Acción Popular",..: 5 5 2 4 5 5 5 4 5 1 ...
##  $ Votos  : num  15 12 20 9 24 21 13 10 15 26 ...

Tengo una variable categórica y otra numérica

f1=formula(Votos ~ Partido)
aggregate(f1, elecciones,mean) 
library(knitr)
tablag= aggregate(f1, elecciones,
          FUN = function(x) {y <- shapiro.test(x); c(y$statistic, y$p.value)})

# para que se vea mejor:
library(knitr)

shapiroTest=as.data.frame(tablag[,2])
names(shapiroTest)=c("W","Prob")

kable(cbind(tablag[1],shapiroTest))
Partido W Prob
Acción Popular 0.8730698 0.2790776
Alianza para el Progreso 0.7129150 0.0020080
Alianza Popular 0.8299864 0.1390880
Frente Amplio 0.6847797 0.0000256
Fuerza Popular 0.4544075 0.0000000
Peruanos por el Kambio 0.6915787 0.0000638
Vemos que hay valores menor es que 0.05, entonces nuestro camino es el no paramétrico.

Graficamente:

library(ggpubr)
## Loading required package: ggplot2
## Loading required package: magrittr
ggqqplot(data=elecciones,x="Votos") + facet_grid(. ~ Partido)

Comprobamos que no hay normalidad

DICOTÓMICA

Como no hay normalidad, vamos por camino NO parametrico:

kruskal.test(f1,elecciones)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  Votos by Partido
## Kruskal-Wallis chi-squared = 19.014, df = 5, p-value = 0.001911

vemos que el p-value es menos que 0.05, por lo tanto se rechaza la hopotesis

ggplot(data=elecciones, aes(x=Partido, y=Votos)) + geom_boxplot(notch = T)
## notch went outside hinges. Try setting notch=FALSE.
## notch went outside hinges. Try setting notch=FALSE.
## notch went outside hinges. Try setting notch=FALSE.
## notch went outside hinges. Try setting notch=FALSE.

Frente amplio y APP varían en sus medias