Todos los cálculos que hago en bivariada dependen si mi variable numérica se comporta normal.
Tengo que ver que sean números.
Reading es la nota y sex es el factor. Numérico y categórico. f1 me da la media de reading pero referente al sexo.
Tengo dos caminos: estadística paramétrica (necesita requisitos) y no paramétrica (no requieren requisitos).
Si la prob es menos que 0.05 no se distribuye normalmente.
El gráfico ggqplot: si los puntos se alejan de la diagonal, no es normal. Decimos que la variable es significativa cuando la probabilidad es menor que 0.05.
Cuando no es normal, uso no paramétrico.
Cuando algo es no significativo no se contradice a la prueba. O sea no se puede concluir que los hombres leen mejor que los mujeres, puesto que el resultado es no significativo.(prueba wicox)
Si los bloques se separan hay diferencia, si estan juntos, hay igualdad.
El usar paramétrico o no paramétrico va a depender de lo que me salga en el cuadrito primero en PROB y en el gráfico. # DICOTÓMICA
Paramético: T No paramétrico: wilcox (Man Whitney) # POLITÓMICA
Paramétrico: Prueba F (SUMMARY) No paramétrico: kruskal

RESPECTO A LOS GRAFICOS : Cuando es de las diagonales X SIEMPRE ES NUMERO Y Y ES UN FACTOR cuando es el de los bloques X SIEMPRE ES UN FACTOR Y Y ES SIEMPRE UN NÚMERO. SI NO LO HAGO ASÍ EL GRÁFICO ME SALDRÁ MAL.

GRÁFICOS Si es NO PARAMÉTRICA, uso boxplot (ggplot) Si es PARAMÉTRICA, uso las barras (ggpubr) ggerrorplot

Los astericos indican que la probabilidad de que todas las medias sean iguales es menor a 0.05. De ahi que al menos una difiere de las demás.

El Coeficiente de contingencia o Cramer sugieren una intensidad relevante (mayor a 0.3).

RDG Y SES(nivel socioeconómico) - La pregunta sería: ¿a mayor nivel socioeconómico, mayor nivel de lectura? - Cuando me sale e-12. quiere decir que muevo la coma decimal doce veces, es muy significativo. - Según el gráfico, confirma que la diferencia es significativa puesto que el primer bloque está debajo de los demás. - Politómica: de tres a más

Importante: darse cuenta qué variable es y cuál hipótesis es.
Cuando es categórica - numérico, la hipótesis es que las medias son iguales. *Uso boxplots o diagrama de rho
Cuando es numérico - numérico la hipótesis es que no hay correlación.
Cuando es categórico - categórico no hay correlación entre las variables.
- Aquí analizo tabla de contingencia
- El Coeficiente de contingencia o Cramer sugieren una intensidad relevante (mayor a 0.3). La columna es la independiente Uso Diagrama de puntos, puedo ver si es lineal o no. (gráfico de values)
Si el p-valor es menor que 0.05, rechazo la hipótesis original.
Cuando el Pearson o Spearman son positivos, quiere decir que la relación es directa. Por lo tanto los puntos van del extremo inferior izquiero, al extremo superior derechos. (ASCENDENTE)

HIPOTESIS NULA o H0: para numéricas con categóricas (dico o poli) NUM- DICO :Los promedios de las variables numericas en cada grupo de la dicotómica no se diferencian. NUM-POLI Los promedios de las variables numericas en cada grupo de la politómica no se diferencian.

Test para aprobar o aceptar hipótesis

PARAMÉTRICA -DICO:PRUEBA T -POLI:anova o prueba F de Schnedeco

NO PÁRAMÉTRICA -DICO:WILCOX POLI: krustal

Si son negativos, van del extremo superior izquiero hasta el extremo inferior derecho. (DESCENDENTE) -as.orderer es con números y orden ok con palabras -Test de normalidad: Shapiro Wilk

library(htmltab)
link="https://es.wikipedia.org/wiki/Elecciones_parlamentarias_de_Per%C3%BA_de_2016"
path='//*[@id="mw-content-text"]/div/table[6]/tbody/tr/td/table/tbody'

elecciones=htmltab(doc = link,which = path)

str(elecciones)

## 'data.frame':    130 obs. of  6 variables:
##  $ Distrito Electoral  : chr  "Amazonas(al 100,00%)" "Amazonas(al 100,00%)" "Áncash(al 100,00%)" "Áncash(al 100,00%)" ...
##  $ Escaños             : chr  "2" "2" "5" "5" ...
##  $ Congresistas electos: chr  "2" "1" "2" "1" ...
##  $ Congresistas electos: chr  "Marita Herrera Arévalo" "Miguel Antonio Castro Grández" "Eloy Ricardo Narváez Soto" "María Elena Foronda Farro" ...
##  $ Partido             : chr  "Fuerza Popular" "Fuerza Popular" "Alianza para el Progreso" "Frente Amplio" ...
##  $ Votos               : chr  "15 312" "12 939" "20 941" "9 094" ...

elecciones$Partido=as.factor(elecciones$Partido)

library(readr)

elecciones[,c(2,3,6)]=lapply(elecciones[,c(2,3,6)],parse_number)

elecciones=elecciones[,c(5,6)]

str(elecciones)

## 'data.frame':    130 obs. of  2 variables:
##  $ Partido: Factor w/ 6 levels "Acción Popular",..: 5 5 2 4 5 5 5 4 5 1 ...
##  $ Votos  : num  15 12 20 9 24 21 13 10 15 26 ...

Tengo una variable categórica y otra numérica

f1=formula(Votos ~ Partido)
aggregate(f1, elecciones,mean)

library(knitr)
tablag= aggregate(f1, elecciones,
          FUN = function(x) {y <- shapiro.test(x); c(y$statistic, y$p.value)})

# para que se vea mejor:
library(knitr)

shapiroTest=as.data.frame(tablag[,2])
names(shapiroTest)=c("W","Prob")

kable(cbind(tablag[1],shapiroTest))

Partido	W	Prob
Acción Popular	0.8730698	0.2790776
Alianza para el Progreso	0.7129150	0.0020080
Alianza Popular	0.8299864	0.1390880
Frente Amplio	0.6847797	0.0000256
Fuerza Popular	0.4544075	0.0000000
Peruanos por el Kambio	0.6915787	0.0000638
Vemos que hay valores menor	es que 0.05,	entonces nuestro camino es el no paramétrico.

Graficamente:

library(ggpubr)

## Loading required package: ggplot2

## Loading required package: magrittr

ggqqplot(data=elecciones,x="Votos") + facet_grid(. ~ Partido)

Comprobamos que no hay normalidad

DICOTÓMICA

Paramético: T No paramétrico: wilcox

Como no hay normalidad, vamos por camino NO parametrico:

kruskal.test(f1,elecciones)

## 
##  Kruskal-Wallis rank sum test
## 
## data:  Votos by Partido
## Kruskal-Wallis chi-squared = 19.014, df = 5, p-value = 0.001911

vemos que el p-value es menos que 0.05, por lo tanto se rechaza la hopotesis

ggplot(data=elecciones, aes(x=Partido, y=Votos)) + geom_boxplot(notch = T)

## notch went outside hinges. Try setting notch=FALSE.
## notch went outside hinges. Try setting notch=FALSE.
## notch went outside hinges. Try setting notch=FALSE.
## notch went outside hinges. Try setting notch=FALSE.

Frente amplio y APP varían en sus medias

R Notebook

DICOTÓMICA