Las pruebas no paramétricas o de distribución libre no están sometidas a ciertos requisitos que son comunes a las pruebas paramétricas. Fundamentalmente, estos requisitos se refieren a la distribución que presenta la variable en la población, específicamente para aquellas que tienen una distribución normal. Por otra parte, son especialmente útiles ante tamaños muestrales pequeños. Aquí, se analizarán las pruebas de significación no paramétrica, tales como la prueba Chi Cuadrado, prueba de los rangos con signos de Wilcoxon y la prueba de Friedman.

Prueba Chi Cuadrado

Procedimientos

1.- Indicar cuáles son las hipótesis nula y las hipótesis alternativas.

  • \(H_0:\) Las variables son independientes.
  • \(H_1:\) Las variables están relacionadas.

2.- Seleccionar el nivel de significancia.

3.- Calcular el \(X_{crítico}^2\)

4.- Rechazar o aceptar la hipótesis nula. Región de rechazo: \[ X_{calculado}^2>X_{crítico}^2 \] 5.- Indicar el estadístico de prueba. \[ X_{calculado}^2=\sum_{i}\sum_{j}\frac{(O_{ij}-E_{ij})^2}{E_{ij}} \] Además, considerar que tiene K = (NF-1)(NC-1) grados de libertad.

Donde:

  • NF es el número de filas de la tabla de datos.
  • NC es el número de columnas de la tabla de datos.

Ejemplo

CORPMEC es una empresa que lleva a cabo un sondeo entre 500 personas de dos ciudades: Lima y Bogotá. Se pregunta a la gente cuál es su marca preferida de gaseosas, de entre las opciones Coca Cola, Pepsi e Inca Kola. Las respuestas obtenidas se resumen en la siguiente tabla:

- Coca Cola Pepsi Inca Kola Total
Lima 85 44 151 280
Bogotá 99 79 42 220
Total 184 123 193 500

CORPMEC pone a prueba los datos obtenidos en el sondeo para determinar si la marca de gaseosas preferida de estas personas se relaciona con la ciudad donde viven. Se lleva a cabo una prueba chicuadrado con 𝛼 = 0.05.

Solución:

  1. Paso 1: Indicar cuál es la hipótesis nula y cuál, la hipótesis alternativa.

𝐻0: Las variables son independientes. 𝐻1: Las variables están relacionadas.

  1. Paso 2: Seleccionar el nivel de significancia. \[ \alpha=0.05 \]

  2. Paso 3: Calcular el \(X_{crítico}^2\)

  3. Paso 4: Rechazar o aceptar la hipótesis nula, según la región de rechazo anteriormente señalada.

  4. Indicar el estadístico de prueba anteriormente esepcificado, que es el Chi Cuadrado. Donde las frecuencias esperadas son las siguientes: \[ E_{ij}=\frac{f_i*f_j}{N} \\ O_{ij}=f_{ij} \] La tabla:

—— Coca Cola Pepsi Inca Kola
Lima \(184*\frac{280}{500}=103.04\) \(123*\frac{280}{500}=68.88\) \(193*\frac{280}{500}=108.08\)
Bogota \(184*\frac{220}{500}=80.96\) \(123*\frac{220}{500}=54.12\) \(193*\frac{220}{500}=84.92\)

Entonces: \[ X_{calculado}^2=\sum_{i}\sum_{j}\frac{(O_{ij}-E_{ij})^2}{E_{ij}} \\ X_{calculado}^2=\frac{(85-103.04)^2}{103.04}+\frac{(99-80.96)^2}{80.96}+\frac{(44-68.88)^2}{68.88}+\frac{(79-54.12)^2}{54.12}+\frac{(151-108.08)^2}{108.88}+\frac{(42-84.92)^2}{84.92} \\ X_{calculado}^2=66.3394 \\ K=(NF-1)(NC-1)=1*2=2 \\ \alpha=0.05 \\ X_{critico}^2 = X_{2,0.05}^2=5.9915 \\ X_{calculado}^2>X_{critico}^2 \] Distribución Chi Cuadrado

Las variables no son independientes, es decir, la marca de gaseosas preferida de estas personas sí se relaciona con la ciudad donde viven.

En R tendríamos que seguir los mismos pasos:

Paso 1:

  • \(H_0:\) La marca de gaseosas preferida de una persona no está relacionada con la ciudad donde vive.
  • \(H_1:\) La marca de gaseosas preferida de una persona está relacionada con la ciudad donde vive.

Paso 2:

**Paso 3: Cálculo de X_{calculado}^2

##         marcas
## ciudades Coca Cola Pepsi Inca Kola
##   Lima          85    44       151
##   Bogota        99    79        42
## 
##  Pearson's Chi-squared test
## 
## data:  CiudadvsMarca
## X-squared = 66.339, df = 2, p-value = 3.932e-15

Los resultados obtenidos son:

## [1] "El valor de Chi calculado es 66.3394"
## [1] "El valor de chi critico es 5.99146"

Para ver la representación gráfica:

Prueba de los Rangos con Signo de Wilcoxon

Procedimiento

  1. Paso 1: Definir la hipótesis nula y la alternativa.

𝐻0: 𝑀𝑒(𝐴 − 𝐵) = 0

𝐻1: 𝑀𝑒(𝐴 − 𝐵) ≠ 0

Donde: 𝐴 y 𝐵 son las muestras.

  1. Paso 2: Establecer el valor de significancia.

  2. Paso 3: Hallar el vector de diferencias.

  3. Paso 4: Ordenar el vector de diferencias según su valor absoluto.

  4. Paso 5: Eliminar los elementos iguales a cero.

  5. Paso 6: Asignar \(W^+\) a la suma de los valores positivos y \(W^-\) a la suma de los valores negativos.

  6. Paso 7: Calcular el valor crítico \(W_{\alpha,n}^2\)

Si 𝑛 ≤ 25, usar la tabla de Wilcoxon.

Si 𝑛 > 25 \[ \mu_w=\frac{n(n+1)}{4} \\ \sigma_w^2=\frac{n(n+1)(2n+1)}{24} \\ Z = \frac{W-\mu_w}{\sigma_w} \] Donde \(n\) es la cantidad de filas.

  1. Paso 8: Establecer la regla de decisión.

Zona rechazo del 𝐻0 (para dos colas): \[ W_{estadístico}=<W_{\alpha/2,v} \] 9. Paso 9: Calcular el estadístico de prueba. \[ W_{estadístico}=min\text{{W-,W+}} \] 10. Paso 10: Interpretar los resultados.

Ejemplo

Se tiene la siguiente tabla con 13 datos para cada variable. Se pide demostrar que las medianas son significativamente diferentes.

A B
18.3 12.7
13.3 11.1
16.5 15.3
12.6 12.7
9.5 10.5
13.6 15.6
8.1 11.2
8.9 14.2
10.0 16.2
8.3 15.5
7.9 19.9
8.1 20.4
13.4 36.8

Solución:

  1. Paso 1: Definir la hipótesis nula y la alternativa.

𝐻0: 𝑀𝑒(𝐴 − 𝐵) = 0

𝐻1: 𝑀𝑒(𝐴 − 𝐵) ≠ 0

  1. Paso 2: Establecer el valor de significancia.

𝛼 = 0.05

  1. Paso 3: Hallar el vector de diferencias.
A B Diferencia
18.3 12.7 5.6
13.3 11.1 2.2
16.5 15.3 1.2
12.6 12.7 -0.1
9.5 10.5 -1.0
13.6 15.6 -2.0
8.1 11.2 -3.1
8.9 14.2 -5.3
10.0 16.2 -6.2
8.3 15.5 -7.2
7.9 19.9 -12.0
8.1 20.4 -12.3
13.4 36.8 -23.4
  1. Paso 4: Ordenar el vector de diferencias según su valor absoluto.
A B Diferencia Signo Valor Absoluto
18.3 12.7 5.6 +
13.3 11.1 2.2 + 2.2
16.5 15.3 1.2 + 1.2
12.6 12.7 -0.1 - 0.1
9.5 10.5 -1.0 - 1.0
13.6 15.6 -2.0 - 2.0
8.1 11.2 -3.1 - 3.1
8.9 14.2 -5.3 - 5.3
10.0 16.2 -6.2 - 6.2
8.3 15.5 -7.2 - 7.2
7.9 19.9 -12.0 - 12.0
8.1 20.4 -12.3 - 12.3
13.4 36.8 -23.4 - 23.4
  1. Paso 5: Eliminar los elementos.

Como los valores de la columna Valor absoluto son diferentes de cero, entonces, no es necesario eliminar elementos.

  1. Paso 6: Asignar \(W^+\) a la suma de los valores positivos y \(W^-\) a la suma de los valores negativos. \[ W^+ = 8+5+3=16 \\ W^- = 1+2+4+6+7+9+10+11+12+13=75 \]
  2. Paso 7: Calcular el valor crítico \(W_{\alpha,n}^2\)

Como \(n\leq 25\), se deberá usar la tabla de Wilcoxon. Donde: \(n\) es la cantidad de files.

Tabla de Wilcoxon Como 𝛼 = 0.05, 𝑛 = 13 y es de dos colas: \[ w_{crítico}=W_{\frac{0.05}{2},13}=18 \] 8. Paso 8: Establecer la regla de decisión. Zona rechazo del 𝐻0: \[ W_{estadístico}<18 \] 9. Paso 9: Calcular el estadístico de prueba. \[ W_{estadístico}=W=min\text{{W-,W+}}=16 \\ w_{estadístico}=16 \] 10. Paso 10: Interpretar los resultados.Como 𝑊𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜 < 18, entonces, se rechaza la hipótesis nula. Es decir, existe diferencia entre las medianas de A y B.

En R:

##       A    B diferencia signo v.absoluto rango
## 1  18.3 12.7        5.6     1        5.6     8
## 2  13.3 11.1        2.2     1        2.2     5
## 3  16.5 15.3        1.2     1        1.2     3
## 4  12.6 12.7       -0.1    -1        0.1     1
## 5   9.5 10.5       -1.0    -1        1.0     2
## 6  13.6 15.6       -2.0    -1        2.0     4
## 7   8.1 11.2       -3.1    -1        3.1     6
## 8   8.9 14.2       -5.3    -1        5.3     7
## 9  10.0 16.2       -6.2    -1        6.2     9
## 10  8.3 15.5       -7.2    -1        7.2    10
## 11  7.9 19.9      -12.0    -1       12.0    11
## 12  8.1 20.4      -12.3    -1       12.3    12
## 13 13.4 36.8      -23.4    -1       23.4    13
## [1] 16
## [1] 75
## [1] 16
## [1] 18

Comprobando con el Wilcoxon test.

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  A and B
## V = 16, p-value = 0.04269
## alternative hypothesis: true location shift is not equal to 0

La regla de desición sería:

## [1] "Se rechaza la hipótesis nula H0."
## [1] "Por lo tanto, existe diferencia entre las medianas de A y B."

En un Diagrama de cajas:

Prueba de suma de rangos de Friedman

Procedimiento

  1. Paso 1: Definir las hipótesis nula y alternativa.

𝐻0: No hay diferencia entre las condiciones

𝐻1: Existe diferencia entre las condiciones

  1. Paso 2: Establecer el valor de significancia.

  2. Paso 3: Calcular el grado de libertad.

𝜈 = 𝑛 − 1 Donde: 𝑛 es la cantidad de columnas.

  1. Paso 4: Calcular el valor crítico \(X_{\alpha,v}^2\)

  2. Paso 5: Establecer la regla de decisión. Zona rechazo del 𝐻0: \[ X_{\alpha,v}^2<X_{estadístico}^2 \]

  3. Paso 6: Calcular el estadístico de prueba. \[ X_{est}^2=\frac{12}{mn(n+1)}(\sum_{i=1}^n R_i^2)-3m(n+1) \] Donde:

  • \(m\) es el número de filas.

  • \(n\) es el número de columnas.

  1. Paso 7: Interpretar los resultados.

Ejemplo

Los científicos Hall, Culp, Hayakawa, Ratliff y Hightower compararon tres métodos para determinar los valores de amilasa sérica en pacientes con pancreatitis. En la siguiente tabla se muestran los valores de amilasa sérica (unidades de enzimas por 100 ml de suero) en pacientes con pancreatitis. Realizar una prueba de Friedman con 𝛼 = 5 %.

Muestra A B C
1 4000 3210 6120
2 1600 1040 2410
3 1600 647 2210
4 1200 570 2060
5 840 445 1400
6 352 156 249
7 224 155 224
8 200 99 208
9 184 70 227

Solución:

  1. Paso 1: Definir las hipótesis nula y alternativa.

𝐻0: No hay diferencia entre los métodos A, B y C.

𝐻1: Existe diferencia entre los métodos A, B y C.

  1. Paso 2: Establecer el valor de significancia. \[ \alpha=5\%=0.05 \]
  2. Paso 3: Calcular el grado de libertad. \[ v=3-1=2 \]
  3. Paso 4: Calcular el valor crítico. \[ X_{\alpha,v}^2=X_{0.05,2}^2=5.99 \]
  4. Paso 5: Establecer la regla de decisión. Zona rechazo: \[ X_{estadístico}^2>5.99 \]
  5. Paso 6: Calcular el estadístico de prueba.

Los datos * m = 9 * n = 3

\[ X_{estadístico}^2=\frac{1}{9}(\sum_{i=1}^3 R_i^2)-108 \\ X_{est}^2=\frac{1}{9}(20^2+9^2+25^2)-108 \\ X_{est}^2=14.889 \] 7. Paso 7: Interpretar los resultados.

Como 14.889 > 5.99, entonces, se rechaza la hipótesis nula.

Por lo tanto, existe diferencia entre los métodos 𝐴, 𝐵 y 𝐶.

En R:

## [1] 5.991465
##          A    B    C
##  [1,] 3500 3000 6200
##  [2,] 1500 1050 2400
##  [3,] 1600  650 2200
##  [4,] 1200  600 2050
##  [5,]  850  450 1200
##  [6,]  350  160  250
##  [7,]  225  155  220
##  [8,]  240  100  258
##  [9,]  185   50  230
## 
##  Friedman rank sum test
## 
## data:  datos
## Friedman chi-squared = 14.889, df = 2, p-value = 0.0005847
## [1] "El valor de Chi.estadístico es 14.89"
## [1] "El valor de Chi.critico es 5.99"
## [1] "Se rechaza la hipótesis nula HO."
## [1] "Por lo tanto, existe diferencia entre los métodos A, B y C."

En representación gráfica:

Ejemplos

Ejemplo 1: Prueba de Friedman

Se realiza un experimento sobre la alimentación de ganado porcino mediante la comparación de tres raciones distintas: A, B y C. Estas han sido administradas a tres cerdos de cinco camadas y se han obtenido las siguientes ganancias de peso en libras:

Datos ¿Existe diferencia en el peso ganado por cada ración a un nivel de significación del 5%? Resolver paso a paso y comprobar el resultado en R.

Solución:

  1. Paso 1: Definir la hipótesis nula y alternativa.

𝐻0: No existe diferencia entre el peso ganado con cada ración 𝐴, 𝐵 y 𝐶. 𝐻1: Existe diferencia entre el peso ganado por cada ración 𝐴, 𝐵 y 𝐶.

  1. Paso 2: Establecer el valor de significancia.

𝛼 = 5% = 0.05

  1. Paso 3: Calcular el grado de libertad.

𝜈 = 𝑛 − 1 𝜈 = 3 − 1 = 2

  1. Paso 4: Calcular el valor crítico. \[ X_{\alpha,v}^2=X_{0.05,2}^2=5.99 \]
  2. Paso 5: Establecer la regla de decisión. Zona rechazo: \[ X_{estadístico}^2>5.99 \]
  3. Paso 6: Calcular el estadístico de prueba.

Datos Donde:

  • \(m=5\)
  • \(n=3\)

\[ X_{est}^2=\frac{1}{5}(\sum_{i=1}^3 R_i^2)-60 \\ X_{est}^2=\frac{1}{5}(7^2+11^2+12^2)-60 \\ X_{est}^2=2.8 \] 7. Paso 7: Interpretar los resultados. Como 2.8 < 5.99 entonces, se acepta la hipótesis nula. Por lo tanto, no existe diferencia entre el peso ganado con cada ración 𝐴, 𝐵 y 𝐶.

En R:

##             A    B    C
## Camada 1  6.7 13.3  8.2
## Camada 2 16.2 15.2 16.3
## Camada 3 13.4 20.2 13.8
## Camada 4 10.8  9.9 15.8
## Camada 5 14.2 19.6 14.4

Prueba de Friedman:

## 
##  Friedman rank sum test
## 
## data:  datos
## Friedman chi-squared = 2.8, df = 2, p-value = 0.2466

Vemos los resultados:

## [1] "El valor de chi.estadístico es 2.8"
## [1] "El valor de chi.critico es 5.99"

La regla de desición:

## [1] "Se acepta la hipótesis nula H0."
## [1] "Por lo tanto, existe diferencia entre los métodos A, B y C."

Ejemplo 2: Prueba de los Rangos con Signo de Wilcoxon

Se tiene la siguiente tabla con 7 datos por cada variable. Demostrar que las medianas son significativamente diferentes.

Antes Después
23 32
31 27
36 24
25 38
27 27
32 30
33 39

Solución:

  1. Paso 1: Definir las hipótesis nula y alternativa.

𝐻0: 𝑀𝑒(Antes − Después) = 0 𝐻1: 𝑀𝑒(Antes − Después) ≠ 0

  1. Paso 2: Establecer el valor de significancia. 𝛼 = 0.05

  2. Paso 3: Hallar el vector de diferencias.

Antes Después Diferencia
23 32 -9
31 27 4
36 24 12
25 38 -13
27 27 0
32 30 2
33 39 -6
  1. Paso 4: Ordenar el vector de diferencias según su valor absoluto.
Datos

Datos

  1. Paso 5: Eliminar los elementos.

Como los valores de la columna Valor absoluto son diferentes de cero, entonces no es necesario eliminar elementos.

  1. Paso 6: Asignar 𝑊+ a la suma de los valores positivos y 𝑊− a la suma de los valores negativos. \[ W^+=2+5+1=8 \\ W^-=4+6+3=13 \]
  2. Paso 7: Calcular el valor crítico \(W_{\alpha,n}^2\)

Como 𝑛 ≤ 25, deberá usarse la tabla de Wilcoxon.

Donde: 𝑛 es la cantidad de filas.

Datos

Datos

Como 𝛼 = 0.05, 𝑛 = 6 y es de dos colas: \[ W_{critico}=W_{(\frac{0.05}{2},6)}=1 \] 8. Paso 8: Establecer la regla de decisión. Zona de rechazo del 𝐻0: \[ W_{estadístico}<1 \] 9. Paso 9: Calcular el estadístico de prueba. \[ W_{estadístico}=W=min{(W^-,W^+)} = 8 \\ W_{estadístico}=8 \] 10. Paso 10: Interpretar los resultados.

Como 𝑊𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑜 > 1, entonces se acepta la hipótesis nula. Es decir, no existe diferencia entre las medianas de A y B.

En R:

## [1]  -9   4  12 -13   0   2  -6

El rango:

## [1] 4 2 5 6 1 3
## [1] 5
## [1] 4 2 5 6 0 1 3
##    A  B diferencia signo v.absoluto rango
## 1 23 32         -9    -1          9     4
## 2 31 27          4     1          4     2
## 3 36 24         12     1         12     5
## 4 25 38        -13    -1         13     6
## 5 27 27          0     0          0     0
## 6 32 30          2     1          2     1
## 7 33 39         -6    -1          6     3

Continuamos:

## [1] 8
## [1] 13
## [1] 8

El test:

## Warning in wilcox.test.default(A, B, alternative = "t", mu = 0, paired = T, :
## requested conf.level not achievable
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  A and B
## V = 8, p-value = 0.675
## alternative hypothesis: true location shift is not equal to 0
## 90 percent confidence interval:
##  -9.500079  7.000030
## sample estimates:
## (pseudo)median 
##      -2.000037

La regla de desición

## [1] "Se acepta la hipótesis nula H0."

Ejemplo 3: Prueba de Krustal-Walis

Determine si hay diferencias significativas entre el largo de los pétalos en las tres especies de iris. Primero, visualizar los datos en un diagrama de cajas:

Diagrama de líneas:

## Warning: package 'ggpubr' was built under R version 4.0.2
## Loading required package: ggplot2

Se muestra un resumen de la data iris:

##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 

Usar la función kruskal.test(), donde el largo de los sépalos (Sepal.Length) dependerá de la especie (Species)

## 
##  Kruskal-Wallis rank sum test
## 
## data:  Sepal.Length by Species
## Kruskal-Wallis chi-squared = 96.937, df = 2, p-value < 2.2e-16

La hipótesis nula es que los largos de los sépalos son idénticos (provienen de la misma población). El p-valor resulta ser casi cero \((2.2 × 10^6)\). Por lo tanto, se rechaza la hipótesis nula. Es decir, existe diferencia entre el largo de los pétalos en las tres especies de iris.

Bibliografía