Estadística No Paramétrica
Las pruebas no paramétricas o de distribución libre no están sometidas a ciertos requisitos que son comunes a las pruebas paramétricas. Fundamentalmente, estos requisitos se refieren a la distribución que presenta la variable en la población, específicamente para aquellas que tienen una distribución normal. Por otra parte, son especialmente útiles ante tamaños muestrales pequeños. Aquí, se analizarán las pruebas de significación no paramétrica, tales como la prueba Chi Cuadrado, prueba de los rangos con signos de Wilcoxon y la prueba de Friedman.
Prueba Chi Cuadrado
Procedimientos
1.- Indicar cuáles son las hipótesis nula y las hipótesis alternativas.
- \(H_0:\) Las variables son independientes.
- \(H_1:\) Las variables están relacionadas.
2.- Seleccionar el nivel de significancia.
3.- Calcular el \(X_{crítico}^2\)
4.- Rechazar o aceptar la hipótesis nula. Región de rechazo: \[ X_{calculado}^2>X_{crítico}^2 \] 5.- Indicar el estadístico de prueba. \[ X_{calculado}^2=\sum_{i}\sum_{j}\frac{(O_{ij}-E_{ij})^2}{E_{ij}} \] Además, considerar que tiene K = (NF-1)(NC-1) grados de libertad.
Donde:
- NF es el número de filas de la tabla de datos.
- NC es el número de columnas de la tabla de datos.
Ejemplo
CORPMEC es una empresa que lleva a cabo un sondeo entre 500 personas de dos ciudades: Lima y Bogotá. Se pregunta a la gente cuál es su marca preferida de gaseosas, de entre las opciones Coca Cola, Pepsi e Inca Kola. Las respuestas obtenidas se resumen en la siguiente tabla:
- | Coca Cola | Pepsi | Inca Kola | Total |
---|---|---|---|---|
Lima | 85 | 44 | 151 | 280 |
Bogotá | 99 | 79 | 42 | 220 |
Total | 184 | 123 | 193 | 500 |
CORPMEC pone a prueba los datos obtenidos en el sondeo para determinar si la marca de gaseosas preferida de estas personas se relaciona con la ciudad donde viven. Se lleva a cabo una prueba chicuadrado con 𝛼 = 0.05.
Solución:
- Paso 1: Indicar cuál es la hipótesis nula y cuál, la hipótesis alternativa.
𝐻0: Las variables son independientes. 𝐻1: Las variables están relacionadas.
Paso 2: Seleccionar el nivel de significancia. \[ \alpha=0.05 \]
Paso 3: Calcular el \(X_{crítico}^2\)
Paso 4: Rechazar o aceptar la hipótesis nula, según la región de rechazo anteriormente señalada.
Indicar el estadístico de prueba anteriormente esepcificado, que es el Chi Cuadrado. Donde las frecuencias esperadas son las siguientes: \[ E_{ij}=\frac{f_i*f_j}{N} \\ O_{ij}=f_{ij} \] La tabla:
—— | Coca Cola | Pepsi | Inca Kola |
---|---|---|---|
Lima | \(184*\frac{280}{500}=103.04\) | \(123*\frac{280}{500}=68.88\) | \(193*\frac{280}{500}=108.08\) |
Bogota | \(184*\frac{220}{500}=80.96\) | \(123*\frac{220}{500}=54.12\) | \(193*\frac{220}{500}=84.92\) |
Entonces: \[
X_{calculado}^2=\sum_{i}\sum_{j}\frac{(O_{ij}-E_{ij})^2}{E_{ij}} \\
X_{calculado}^2=\frac{(85-103.04)^2}{103.04}+\frac{(99-80.96)^2}{80.96}+\frac{(44-68.88)^2}{68.88}+\frac{(79-54.12)^2}{54.12}+\frac{(151-108.08)^2}{108.88}+\frac{(42-84.92)^2}{84.92} \\
X_{calculado}^2=66.3394 \\
K=(NF-1)(NC-1)=1*2=2 \\
\alpha=0.05 \\
X_{critico}^2 = X_{2,0.05}^2=5.9915 \\
X_{calculado}^2>X_{critico}^2
\]
Las variables no son independientes, es decir, la marca de gaseosas preferida de estas personas sí se relaciona con la ciudad donde viven.
En R tendríamos que seguir los mismos pasos:
Paso 1:
- \(H_0:\) La marca de gaseosas preferida de una persona no está relacionada con la ciudad donde vive.
- \(H_1:\) La marca de gaseosas preferida de una persona está relacionada con la ciudad donde vive.
Paso 2:
**Paso 3: Cálculo de X_{calculado}^2
CiudadvsMarca<-as.table(rbind(c(85,44,151),c(99,79,42)))
dimnames(CiudadvsMarca)<-list(ciudades=c("Lima","Bogota"),
marcas=c("Coca Cola","Pepsi","Inca Kola"))
CiudadvsMarca
## marcas
## ciudades Coca Cola Pepsi Inca Kola
## Lima 85 44 151
## Bogota 99 79 42
##
## Pearson's Chi-squared test
##
## data: CiudadvsMarca
## X-squared = 66.339, df = 2, p-value = 3.932e-15
Los resultados obtenidos son:
chi.calculado<-res$statistic
chi.critico<-qchisq(alpha,res$parameter,lower.tail = F)
paste('El valor de Chi calculado es',format(chi.calculado,digits = 6))
## [1] "El valor de Chi calculado es 66.3394"
## [1] "El valor de chi critico es 5.99146"
Para ver la representación gráfica:
x<-seq(0,80, by=0.01)
fx<-dchisq(x, df=res$parameter)
plot(x, fx, main="Distribución Chi Cuadrado", type="l")
lines(c(chi.critico,chi.critico),c(0,0.5),col="red",lty=2)
lines(c(chi.calculado,chi.calculado),c(0,0.5),col="blue")
Prueba de los Rangos con Signo de Wilcoxon
Procedimiento
- Paso 1: Definir la hipótesis nula y la alternativa.
𝐻0: 𝑀𝑒(𝐴 − 𝐵) = 0
𝐻1: 𝑀𝑒(𝐴 − 𝐵) ≠ 0
Donde: 𝐴 y 𝐵 son las muestras.
Paso 2: Establecer el valor de significancia.
Paso 3: Hallar el vector de diferencias.
Paso 4: Ordenar el vector de diferencias según su valor absoluto.
Paso 5: Eliminar los elementos iguales a cero.
Paso 6: Asignar \(W^+\) a la suma de los valores positivos y \(W^-\) a la suma de los valores negativos.
Paso 7: Calcular el valor crítico \(W_{\alpha,n}^2\)
Si 𝑛 ≤ 25, usar la tabla de Wilcoxon.
Si 𝑛 > 25 \[ \mu_w=\frac{n(n+1)}{4} \\ \sigma_w^2=\frac{n(n+1)(2n+1)}{24} \\ Z = \frac{W-\mu_w}{\sigma_w} \] Donde \(n\) es la cantidad de filas.
- Paso 8: Establecer la regla de decisión.
Zona rechazo del 𝐻0 (para dos colas): \[ W_{estadístico}=<W_{\alpha/2,v} \] 9. Paso 9: Calcular el estadístico de prueba. \[ W_{estadístico}=min\text{{W-,W+}} \] 10. Paso 10: Interpretar los resultados.
Ejemplo
Se tiene la siguiente tabla con 13 datos para cada variable. Se pide demostrar que las medianas son significativamente diferentes.
A | B |
---|---|
18.3 | 12.7 |
13.3 | 11.1 |
16.5 | 15.3 |
12.6 | 12.7 |
9.5 | 10.5 |
13.6 | 15.6 |
8.1 | 11.2 |
8.9 | 14.2 |
10.0 | 16.2 |
8.3 | 15.5 |
7.9 | 19.9 |
8.1 | 20.4 |
13.4 | 36.8 |
Solución:
- Paso 1: Definir la hipótesis nula y la alternativa.
𝐻0: 𝑀𝑒(𝐴 − 𝐵) = 0
𝐻1: 𝑀𝑒(𝐴 − 𝐵) ≠ 0
- Paso 2: Establecer el valor de significancia.
𝛼 = 0.05
- Paso 3: Hallar el vector de diferencias.
A | B | Diferencia |
---|---|---|
18.3 | 12.7 | 5.6 |
13.3 | 11.1 | 2.2 |
16.5 | 15.3 | 1.2 |
12.6 | 12.7 | -0.1 |
9.5 | 10.5 | -1.0 |
13.6 | 15.6 | -2.0 |
8.1 | 11.2 | -3.1 |
8.9 | 14.2 | -5.3 |
10.0 | 16.2 | -6.2 |
8.3 | 15.5 | -7.2 |
7.9 | 19.9 | -12.0 |
8.1 | 20.4 | -12.3 |
13.4 | 36.8 | -23.4 |
- Paso 4: Ordenar el vector de diferencias según su valor absoluto.
A | B | Diferencia | Signo | Valor Absoluto |
---|---|---|---|---|
18.3 | 12.7 | 5.6 | + | |
13.3 | 11.1 | 2.2 | + | 2.2 |
16.5 | 15.3 | 1.2 | + | 1.2 |
12.6 | 12.7 | -0.1 | - | 0.1 |
9.5 | 10.5 | -1.0 | - | 1.0 |
13.6 | 15.6 | -2.0 | - | 2.0 |
8.1 | 11.2 | -3.1 | - | 3.1 |
8.9 | 14.2 | -5.3 | - | 5.3 |
10.0 | 16.2 | -6.2 | - | 6.2 |
8.3 | 15.5 | -7.2 | - | 7.2 |
7.9 | 19.9 | -12.0 | - | 12.0 |
8.1 | 20.4 | -12.3 | - | 12.3 |
13.4 | 36.8 | -23.4 | - | 23.4 |
- Paso 5: Eliminar los elementos.
Como los valores de la columna Valor absoluto son diferentes de cero, entonces, no es necesario eliminar elementos.
- Paso 6: Asignar \(W^+\) a la suma de los valores positivos y \(W^-\) a la suma de los valores negativos. \[ W^+ = 8+5+3=16 \\ W^- = 1+2+4+6+7+9+10+11+12+13=75 \]
- Paso 7: Calcular el valor crítico \(W_{\alpha,n}^2\)
Como \(n\leq 25\), se deberá usar la tabla de Wilcoxon. Donde: \(n\) es la cantidad de files.
Como 𝛼 = 0.05, 𝑛 = 13 y es de dos colas: \[
w_{crítico}=W_{\frac{0.05}{2},13}=18
\] 8. Paso 8: Establecer la regla de decisión. Zona rechazo del 𝐻0: \[
W_{estadístico}<18
\] 9. Paso 9: Calcular el estadístico de prueba. \[
W_{estadístico}=W=min\text{{W-,W+}}=16 \\
w_{estadístico}=16
\] 10. Paso 10: Interpretar los resultados.Como 𝑊𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜 < 18, entonces, se rechaza la hipótesis nula. Es decir, existe diferencia entre las medianas de A y B.
En R:
A<-c(18.3,13.3,16.5,12.6,9.5,13.6,8.1,8.9,10.0,8.3,7.9,8.1,13.4)
B<-c(12.7,11.1,15.3,12.7,10.5,15.6,11.2,14.2,16.2,15.5,19.9,20.4,36.8)
diferencia<-A-B
rango<-rank(abs(diferencia[diferencia !=0]))
tabla<-data.frame(A, B, diferencia,
signo=sign(diferencia),
v.absoluto=abs(diferencia),
rango)
tabla
## A B diferencia signo v.absoluto rango
## 1 18.3 12.7 5.6 1 5.6 8
## 2 13.3 11.1 2.2 1 2.2 5
## 3 16.5 15.3 1.2 1 1.2 3
## 4 12.6 12.7 -0.1 -1 0.1 1
## 5 9.5 10.5 -1.0 -1 1.0 2
## 6 13.6 15.6 -2.0 -1 2.0 4
## 7 8.1 11.2 -3.1 -1 3.1 6
## 8 8.9 14.2 -5.3 -1 5.3 7
## 9 10.0 16.2 -6.2 -1 6.2 9
## 10 8.3 15.5 -7.2 -1 7.2 10
## 11 7.9 19.9 -12.0 -1 12.0 11
## 12 8.1 20.4 -12.3 -1 12.3 12
## 13 13.4 36.8 -23.4 -1 23.4 13
## [1] 16
## [1] 75
## [1] 16
## [1] 18
Comprobando con el Wilcoxon test.
##
## Wilcoxon signed rank test with continuity correction
##
## data: A and B
## V = 16, p-value = 0.04269
## alternative hypothesis: true location shift is not equal to 0
La regla de desición sería:
if (res$p.value<alpha)
{
paste("Se rechaza la hipótesis nula H0.")
}else
{
paste("Se acepta la hipótesis nula HO.")
}
## [1] "Se rechaza la hipótesis nula H0."
## [1] "Por lo tanto, existe diferencia entre las medianas de A y B."
En un Diagrama de cajas:
boxplot(A,B,horizontal = T, boxwex=0.5,
col=c("orange","yellow"),
main="Diagrama de cajas",
names=c("A","B"))
Prueba de suma de rangos de Friedman
Procedimiento
- Paso 1: Definir las hipótesis nula y alternativa.
𝐻0: No hay diferencia entre las condiciones
𝐻1: Existe diferencia entre las condiciones
Paso 2: Establecer el valor de significancia.
Paso 3: Calcular el grado de libertad.
𝜈 = 𝑛 − 1 Donde: 𝑛 es la cantidad de columnas.
Paso 4: Calcular el valor crítico \(X_{\alpha,v}^2\)
Paso 5: Establecer la regla de decisión. Zona rechazo del 𝐻0: \[ X_{\alpha,v}^2<X_{estadístico}^2 \]
Paso 6: Calcular el estadístico de prueba. \[ X_{est}^2=\frac{12}{mn(n+1)}(\sum_{i=1}^n R_i^2)-3m(n+1) \] Donde:
\(m\) es el número de filas.
\(n\) es el número de columnas.
- Paso 7: Interpretar los resultados.
Ejemplo
Los científicos Hall, Culp, Hayakawa, Ratliff y Hightower compararon tres métodos para determinar los valores de amilasa sérica en pacientes con pancreatitis. En la siguiente tabla se muestran los valores de amilasa sérica (unidades de enzimas por 100 ml de suero) en pacientes con pancreatitis. Realizar una prueba de Friedman con 𝛼 = 5 %.
Muestra | A | B | C |
---|---|---|---|
1 | 4000 | 3210 | 6120 |
2 | 1600 | 1040 | 2410 |
3 | 1600 | 647 | 2210 |
4 | 1200 | 570 | 2060 |
5 | 840 | 445 | 1400 |
6 | 352 | 156 | 249 |
7 | 224 | 155 | 224 |
8 | 200 | 99 | 208 |
9 | 184 | 70 | 227 |
Solución:
- Paso 1: Definir las hipótesis nula y alternativa.
𝐻0: No hay diferencia entre los métodos A, B y C.
𝐻1: Existe diferencia entre los métodos A, B y C.
- Paso 2: Establecer el valor de significancia. \[ \alpha=5\%=0.05 \]
- Paso 3: Calcular el grado de libertad. \[ v=3-1=2 \]
- Paso 4: Calcular el valor crítico. \[ X_{\alpha,v}^2=X_{0.05,2}^2=5.99 \]
- Paso 5: Establecer la regla de decisión. Zona rechazo: \[ X_{estadístico}^2>5.99 \]
- Paso 6: Calcular el estadístico de prueba.
* m = 9 * n = 3
\[ X_{estadístico}^2=\frac{1}{9}(\sum_{i=1}^3 R_i^2)-108 \\ X_{est}^2=\frac{1}{9}(20^2+9^2+25^2)-108 \\ X_{est}^2=14.889 \] 7. Paso 7: Interpretar los resultados.
Como 14.889 > 5.99, entonces, se rechaza la hipótesis nula.
Por lo tanto, existe diferencia entre los métodos 𝐴, 𝐵 y 𝐶.
En R:
## [1] 5.991465
#Calcular el estadístico de prueba
A<-c(3500,1500,1600,1200,850,350,225,240,185)
B<-c(3000,1050,650,600,450,160,155,100,50)
C<-c(6200,2400,2200,2050,1200,250,220,258,230)
datos<-cbind(A,B,C)
datos
## A B C
## [1,] 3500 3000 6200
## [2,] 1500 1050 2400
## [3,] 1600 650 2200
## [4,] 1200 600 2050
## [5,] 850 450 1200
## [6,] 350 160 250
## [7,] 225 155 220
## [8,] 240 100 258
## [9,] 185 50 230
##
## Friedman rank sum test
##
## data: datos
## Friedman chi-squared = 14.889, df = 2, p-value = 0.0005847
chi.estadistico<-res$statistic
#Interpretar los resultados
paste('El valor de Chi.estadístico es', format(chi.estadistico,digits = 4))
## [1] "El valor de Chi.estadístico es 14.89"
## [1] "El valor de Chi.critico es 5.99"
if (chi.estadistico>chi.critico)
{
paste('Se rechaza la hipótesis nula HO.')
}else
{
paste('Se acepta la hipótesis nula H0.')
}
## [1] "Se rechaza la hipótesis nula HO."
## [1] "Por lo tanto, existe diferencia entre los métodos A, B y C."
En representación gráfica:
x<-seq(0,80, by=0.01)
fx<-dchisq(x,df=res$parameter)
plot(x,fx,main="Distribución Chi Cuadrado",type="l")
lines(c(chi.critico,chi.critico),c(0,0.5),col="red",lty=2)
lines(c(chi.estadistico,chi.estadistico),c(0,0.5),col="blue")
Ejemplos
Ejemplo 1: Prueba de Friedman
Se realiza un experimento sobre la alimentación de ganado porcino mediante la comparación de tres raciones distintas: A, B y C. Estas han sido administradas a tres cerdos de cinco camadas y se han obtenido las siguientes ganancias de peso en libras:
¿Existe diferencia en el peso ganado por cada ración a un nivel de significación del 5%? Resolver paso a paso y comprobar el resultado en R.
Solución:
- Paso 1: Definir la hipótesis nula y alternativa.
𝐻0: No existe diferencia entre el peso ganado con cada ración 𝐴, 𝐵 y 𝐶. 𝐻1: Existe diferencia entre el peso ganado por cada ración 𝐴, 𝐵 y 𝐶.
- Paso 2: Establecer el valor de significancia.
𝛼 = 5% = 0.05
- Paso 3: Calcular el grado de libertad.
𝜈 = 𝑛 − 1 𝜈 = 3 − 1 = 2
- Paso 4: Calcular el valor crítico. \[ X_{\alpha,v}^2=X_{0.05,2}^2=5.99 \]
- Paso 5: Establecer la regla de decisión. Zona rechazo: \[ X_{estadístico}^2>5.99 \]
- Paso 6: Calcular el estadístico de prueba.
Donde:
- \(m=5\)
- \(n=3\)
\[ X_{est}^2=\frac{1}{5}(\sum_{i=1}^3 R_i^2)-60 \\ X_{est}^2=\frac{1}{5}(7^2+11^2+12^2)-60 \\ X_{est}^2=2.8 \] 7. Paso 7: Interpretar los resultados. Como 2.8 < 5.99 entonces, se acepta la hipótesis nula. Por lo tanto, no existe diferencia entre el peso ganado con cada ración 𝐴, 𝐵 y 𝐶.
En R:
A<-c(6.7,16.2,13.4,10.8,14.2)
B<-c(13.3,15.2,20.2,9.9,19.6)
C<-c(8.2,16.3,13.8,15.8,14.4)
bloques<-c("Camada 1","Camada 2","Camada 3","Camada 4","Camada 5")
datos<-matrix(c(A,B,C),nrow = 5, dimnames = list(bloques,c("A","B","C")))
datos
## A B C
## Camada 1 6.7 13.3 8.2
## Camada 2 16.2 15.2 16.3
## Camada 3 13.4 20.2 13.8
## Camada 4 10.8 9.9 15.8
## Camada 5 14.2 19.6 14.4
Prueba de Friedman:
##
## Friedman rank sum test
##
## data: datos
## Friedman chi-squared = 2.8, df = 2, p-value = 0.2466
Vemos los resultados:
chi.critico<-qchisq(0.05,2,lower.tail = F)
chi.estadistico<-res$statistic
paste('El valor de chi.estadístico es', format(chi.estadistico,digits = 4))
## [1] "El valor de chi.estadístico es 2.8"
## [1] "El valor de chi.critico es 5.99"
La regla de desición:
if (chi.estadistico>chi.critico){
paste('Se rechaza la hipótesis nula H0.')
}else{
paste('Se acepta la hipótesis nula H0.')
}
## [1] "Se acepta la hipótesis nula H0."
## [1] "Por lo tanto, existe diferencia entre los métodos A, B y C."
Ejemplo 2: Prueba de los Rangos con Signo de Wilcoxon
Se tiene la siguiente tabla con 7 datos por cada variable. Demostrar que las medianas son significativamente diferentes.
Antes | Después |
---|---|
23 | 32 |
31 | 27 |
36 | 24 |
25 | 38 |
27 | 27 |
32 | 30 |
33 | 39 |
Solución:
- Paso 1: Definir las hipótesis nula y alternativa.
𝐻0: 𝑀𝑒(Antes − Después) = 0 𝐻1: 𝑀𝑒(Antes − Después) ≠ 0
Paso 2: Establecer el valor de significancia. 𝛼 = 0.05
Paso 3: Hallar el vector de diferencias.
Antes | Después | Diferencia |
---|---|---|
23 | 32 | -9 |
31 | 27 | 4 |
36 | 24 | 12 |
25 | 38 | -13 |
27 | 27 | 0 |
32 | 30 | 2 |
33 | 39 | -6 |
- Paso 4: Ordenar el vector de diferencias según su valor absoluto.
Datos
- Paso 5: Eliminar los elementos.
Como los valores de la columna Valor absoluto son diferentes de cero, entonces no es necesario eliminar elementos.
- Paso 6: Asignar 𝑊+ a la suma de los valores positivos y 𝑊− a la suma de los valores negativos. \[ W^+=2+5+1=8 \\ W^-=4+6+3=13 \]
- Paso 7: Calcular el valor crítico \(W_{\alpha,n}^2\)
Como 𝑛 ≤ 25, deberá usarse la tabla de Wilcoxon.
Donde: 𝑛 es la cantidad de filas.
Datos
Como 𝛼 = 0.05, 𝑛 = 6 y es de dos colas: \[ W_{critico}=W_{(\frac{0.05}{2},6)}=1 \] 8. Paso 8: Establecer la regla de decisión. Zona de rechazo del 𝐻0: \[ W_{estadístico}<1 \] 9. Paso 9: Calcular el estadístico de prueba. \[ W_{estadístico}=W=min{(W^-,W^+)} = 8 \\ W_{estadístico}=8 \] 10. Paso 10: Interpretar los resultados.
Como 𝑊𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜 > 1, entonces se acepta la hipótesis nula. Es decir, no existe diferencia entre las medianas de A y B.
En R:
## [1] -9 4 12 -13 0 2 -6
El rango:
## [1] 4 2 5 6 1 3
## [1] 5
## [1] 4 2 5 6 0 1 3
## A B diferencia signo v.absoluto rango
## 1 23 32 -9 -1 9 4
## 2 31 27 4 1 4 2
## 3 36 24 12 1 12 5
## 4 25 38 -13 -1 13 6
## 5 27 27 0 0 0 0
## 6 32 30 2 1 2 1
## 7 33 39 -6 -1 6 3
Continuamos:
## [1] 8
## [1] 13
## [1] 8
El test:
res<-wilcox.test(A, B, alternative = "t",
mu=0, paired = T, exact = F,
conf.int = T, conf.level = 0.95)
## Warning in wilcox.test.default(A, B, alternative = "t", mu = 0, paired = T, :
## requested conf.level not achievable
##
## Wilcoxon signed rank test with continuity correction
##
## data: A and B
## V = 8, p-value = 0.675
## alternative hypothesis: true location shift is not equal to 0
## 90 percent confidence interval:
## -9.500079 7.000030
## sample estimates:
## (pseudo)median
## -2.000037
La regla de desición
if (res$p.value<alpha){
paste('Se rechazala hipótesis nula H0.')
}else
{
paste('Se acepta la hipótesis nula H0.')
}
## [1] "Se acepta la hipótesis nula H0."
Ejemplo 3: Prueba de Krustal-Walis
Determine si hay diferencias significativas entre el largo de los pétalos en las tres especies de iris. Primero, visualizar los datos en un diagrama de cajas:
boxplot(Sepal.Length~Species,data=iris, col=rainbow(3),
main="Gráfica de cajas", ylab="Largo de Sépalo")
Diagrama de líneas:
## Warning: package 'ggpubr' was built under R version 4.0.2
## Loading required package: ggplot2
library(ggplot2)
ggline(iris, x ="Species",y="Sepal.Length",
add = c("mean_se","jitter"),color="orange")
Se muestra un resumen de la data iris:
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
Usar la función kruskal.test(), donde el largo de los sépalos (Sepal.Length) dependerá de la especie (Species)
##
## Kruskal-Wallis rank sum test
##
## data: Sepal.Length by Species
## Kruskal-Wallis chi-squared = 96.937, df = 2, p-value < 2.2e-16
La hipótesis nula es que los largos de los sépalos son idénticos (provienen de la misma población). El p-valor resulta ser casi cero \((2.2 × 10^6)\). Por lo tanto, se rechaza la hipótesis nula. Es decir, existe diferencia entre el largo de los pétalos en las tres especies de iris.
Bibliografía
- Chi Square Tests. Recuperado el 12 de Julio de 2018 de: http://uregina.ca/~gingrich/ch10.pd
- Correa, J. y Gonzáles N. (2002) Gráficos Estadísticos con R. Medellín, Colombia: Universidad Nacional-Sede Medellín. Recuperado el 12 de mayo del 2018, de https://cran.r-project.org/doc/contrib/grafi3.pdf
- Enríquez, G. Pruebas de hipótesis no paramétricas. Lima, Perú: Universidad Alas Peruanas.
- Prueba de Friedman. Recuperado el 12 de Julio de 2018 de: https://bit.ly/2uhkhXJ
- Statistical Tables. Recuperado el 12 de Julio de 2018 de: https://bit.ly/2KTm2or
- The Comprehensive R Archive Network. Recuperado el 12 de Julio de 2018 de: https://cran.r-project.org/
- The Wilcoxon Rank-Sum Test. Recuperado el 12 de Julio de 2018 de: https://bit.ly/2L8HPYG