RESPECTO A LOS GRAFICOS : Cuando es de las diagonales X SIEMPRE ES NUMERO Y Y ES UN FACTOR cuando es el de los bloques X SIEMPRE ES UN FACTOR Y Y ES SIEMPRE UN NÚMERO. SI NO LO HAGO ASÍ EL GRÁFICO ME SALDRÁ MAL.
GRÁFICOS Si es NO PARAMÉTRICA, uso boxplot (ggplot) Si es PARAMÉTRICA, uso las barras (ggpubr) ggerrorplot
Los astericos indican que la probabilidad de que todas las medias sean iguales es menor a 0.05. De ahi que al menos una difiere de las demás.
RDG Y SES(nivel socioeconómico) - La pregunta sería: ¿a mayor nivel socioeconómico, mayor nivel de lectura? - Cuando me sale e-12. quiere decir que muevo la coma decimal doce veces, es muy significativo. - Según el gráfico, confirma que la diferencia es significativa puesto que el primer bloque está debajo de los demás. - Politómica: de tres a más
HIPOTESIS NULA o H0: para numéricas con categóricas (dico o poli) NUM- DICO :Los promedios de las variables numericas en cada grupo de la dicotómica no se diferencian. NUM-POLI Los promedios de las variables numericas en cada grupo de la politómica no se diferencian.
Test para aprobar o aceptar hipótesis
PARAMÉTRICA -DICO:PRUEBA T -POLI:anova o prueba F de Schnedeco
NO PÁRAMÉTRICA -DICO:WILCOX POLI: krustal
library(htmltab)
link="https://es.wikipedia.org/wiki/Elecciones_parlamentarias_de_Per%C3%BA_de_2016"
path='//*[@id="mw-content-text"]/div/table[6]/tbody/tr/td/table/tbody'
elecciones=htmltab(doc = link,which = path)
str(elecciones)
## 'data.frame': 130 obs. of 6 variables:
## $ Distrito Electoral : chr "Amazonas(al 100,00%)" "Amazonas(al 100,00%)" "Áncash(al 100,00%)" "Áncash(al 100,00%)" ...
## $ Escaños : chr "2" "2" "5" "5" ...
## $ Congresistas electos: chr "2" "1" "2" "1" ...
## $ Congresistas electos: chr "Marita Herrera Arévalo" "Miguel Antonio Castro Grández" "Eloy Ricardo Narváez Soto" "María Elena Foronda Farro" ...
## $ Partido : chr "Fuerza Popular" "Fuerza Popular" "Alianza para el Progreso" "Frente Amplio" ...
## $ Votos : chr "15 312" "12 939" "20 941" "9 094" ...
elecciones$Partido=as.factor(elecciones$Partido)
library(readr)
elecciones[,c(2,3,6)]=lapply(elecciones[,c(2,3,6)],parse_number)
elecciones=elecciones[,c(5,6)]
str(elecciones)
## 'data.frame': 130 obs. of 2 variables:
## $ Partido: Factor w/ 6 levels "Acción Popular",..: 5 5 2 4 5 5 5 4 5 1 ...
## $ Votos : num 15 12 20 9 24 21 13 10 15 26 ...
Tengo una variable categórica y otra numérica
f1=formula(Votos ~ Partido)
aggregate(f1, elecciones,mean)
library(knitr)
tablag= aggregate(f1, elecciones,
FUN = function(x) {y <- shapiro.test(x); c(y$statistic, y$p.value)})
# para que se vea mejor:
library(knitr)
shapiroTest=as.data.frame(tablag[,2])
names(shapiroTest)=c("W","Prob")
kable(cbind(tablag[1],shapiroTest))
Partido | W | Prob |
---|---|---|
Acción Popular | 0.8730698 | 0.2790776 |
Alianza para el Progreso | 0.7129150 | 0.0020080 |
Alianza Popular | 0.8299864 | 0.1390880 |
Frente Amplio | 0.6847797 | 0.0000256 |
Fuerza Popular | 0.4544075 | 0.0000000 |
Peruanos por el Kambio | 0.6915787 | 0.0000638 |
Vemos que hay valores menor | es que 0.05, | entonces nuestro camino es el no paramétrico. |
Graficamente:
library(ggpubr)
## Loading required package: ggplot2
## Loading required package: magrittr
ggqqplot(data=elecciones,x="Votos") + facet_grid(. ~ Partido)
Comprobamos que no hay normalidad
Como no hay normalidad, vamos por camino NO parametrico:
kruskal.test(f1,elecciones)
##
## Kruskal-Wallis rank sum test
##
## data: Votos by Partido
## Kruskal-Wallis chi-squared = 19.014, df = 5, p-value = 0.001911
vemos que el p-value es menos que 0.05, por lo tanto se rechaza la hopotesis
ggplot(data=elecciones, aes(x=Partido, y=Votos)) + geom_boxplot(notch = T)
## notch went outside hinges. Try setting notch=FALSE.
## notch went outside hinges. Try setting notch=FALSE.
## notch went outside hinges. Try setting notch=FALSE.
## notch went outside hinges. Try setting notch=FALSE.
Frente amplio y APP varían en sus medias