Práctica de Análisis Estadístico: Pruebas de Wilcoxon con R

Una Inmersión Práctica en la Aplicación y Interpretación

Este trabajo en Quarto proporciona una profunda exploración del análisis estadístico utilizando las pruebas de Wilcoxon, una herramienta invaluable en el campo de la estadística no paramétrica. A lo largo de esta guía, se presentan ejercicios resueltos tanto de forma manual como mediante implementaciones en R, proporcionando una comprensión completa del proceso y facilitando la aplicación práctica. Desde los conceptos fundamentales hasta casos de estudio detallados, este recurso está diseñado para ayudar a los usuarios a comprender y aplicar eficazmente las pruebas de Wilcoxon en sus análisis de datos.
Autor/a
Afiliación
Fecha de publicación

29 de noviembre de 2024

Introducción📖​

Las pruebas de Wilcoxon, una poderosa herramienta en el arsenal de la estadística no paramétrica, desempeñan un papel crucial en el análisis de datos cuando las condiciones para pruebas paramétricas no se cumplen. Esta guía está diseñada para brindarte una experiencia práctica en la aplicación y comprensión de la prueba del Rango Signado de Wilcoxon utilizando el entorno de programación R.

Nota🖊️​

Si desea copiar los codigos que se mostraran en este documento se recomienda tener instaladas las ultimas versiones de R, Rstudio y Quarto.

¿Qué es la Prueba de Wilcoxon?🕵️‍♂️​

La prueba de Wilcoxon se utiliza para comparar dos muestras relacionadas, evaluando si hay diferencias significativas entre las observaciones pareadas. A diferencia de las pruebas paramétricas, no hace suposiciones sobre la distribución de los datos, lo que la hace robusta ante ciertas condiciones. Es especialmente útil cuando trabajamos con conjuntos de datos pequeños o cuando la normalidad no puede asumirse.

¿Por qué la Práctica es Fundamental?😲​

En esta guía, no solo te sumergirás en la teoría detrás de las pruebas de Wilcoxon, sino que también obtendrás experiencia práctica. Desde la duración de la batería de un temporizador hasta el consumo de gasolina en vehículos con diferentes tipos de neumáticos, cada ejercicio te desafiará a aplicar la prueba de Wilcoxon de manera significativa y a interpretar los resultados de manera informada.

¡Recuerda!💆‍♂️​

Al final de este viaje, no solo habrás fortalecido tu comprensión de la prueba de Wilcoxon, sino que también habrás adquirido las habilidades prácticas necesarias para aplicar este análisis estadístico en situaciones del mundo real utilizando el entorno de programación R. ¡Prepárate para sumergirte en la práctica de la estadística!

Acompáñame en la Práctica: Ejemplos Detallados a Continuación🫵​

A continuación, adentrémonos en una serie de ejercicios prácticos que exploran la aplicación de las pruebas de Wilcoxon con R. Estos escenarios del mundo real ofrecen desafíos estadísticos significativos, desde la duración de la batería de un temporizador hasta la comparación de neumáticos en vehículos. A través de cada ejercicio, no solo pondrás a prueba tu comprensión teórica, sino que también desarrollarás habilidades prácticas esenciales para aplicar y interpretar la prueba del Rango Signado de Wilcoxon con confianza. ¡Sumérgete en el análisis estadístico práctico y fortalece tus habilidades analíticas!

Datos

Los siguientes datos representan el número de horas que un temporizador opera antes de que deba recargarse:

Código
#Datos del tiempo de operación del temporizador
datos_temporizador <- c(1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2, 1.7)

#tabla para datos de manera ordenada
tabla_temporizador <- data.frame(Orden = 1:length(datos_temporizador), Horas = datos_temporizador)

#tabla
print(tabla_temporizador, row.names = FALSE)
 Orden Horas
     1   1.5
     2   2.2
     3   0.9
     4   1.3
     5   2.0
     6   1.6
     7   1.8
     8   1.5
     9   2.0
    10   1.2
    11   1.7

Utilice la prueba del Rango signado de Wilcoxon para probar la hipótesis al nivel de significancia de 0.05 que este temporizador en particular opera con una mediana de 1.8 horas antes de requerir una recarga.

La\ hipótesis\ a\ probar\ es:

H_{0}:\theta=1.8

H_{1}:\theta \neq 1.8

Table \ 1: Rango\ signado\ de\ Wilcoxon
Muestra \left | Dif \right | R_{i}^{+} S\left ( x_{i} \right ) R_{i}^{+}\cdot S\left ( x_{i} \right )
1 0.3 5.5 -1 -5.5
2 0.4 7 1 7
3 0.9 10 -1 -10
4 0.5 8 -1 -8
5 0.2 3 1 3
6 0.2 3 -1 -3
7 0 0 0 0
8 0.3 5.5 -1 -5.5
9 0.2 3 1 3
10 0.6 9 -1 -9
11 0.1 1 -1 -1

Fuente: Elaboración\ propia

Así

T^{+}=\sum R_{i}^{+}\cdot S\left ( x_{i} \right )=13

T^{-}=\sum R_{i}^{+}\cdot S\left ( x_{i} \right )=42

Luego

E\left ( T \right )=\frac{N\cdot \left ( N+1 \right )}{4}=\frac{10\cdot \left ( 10+1 \right )}{4}=27.5

Var\left ( T \right )=\frac{N\cdot \left ( N+1 \right )\cdot \left ( 2N+1 \right )}{24}=\frac{10\cdot \left ( 10+1 \right )\cdot \left ( 2\ast 10+1 \right )}{24}=96.25

Finalmente

Z_{c}^{+}=\frac{T^{+}-E\left ( T \right )}{\sqrt{Var\left ( T \right )}}=\frac{13-27.5}{\sqrt{96.25}}=-1.4779

Z_{c}^{-}=\frac{T^{-}-E\left ( T \right )}{\sqrt{Var\left ( T \right )}}=\frac{42-27.5}{\sqrt{96.25}}=1.4779

Conclusión

La prueba de Wilcoxon signada revela un estadístico Z de Z_{c}^{+}=1.4779, el cual es inferior a 1.96 para un nivel de significancia del 0.05. Por lo tanto, no se rechaza la hipótesis nula (H{_0}), lo que sugiere evidencia suficiente para asumir que este temporizador en particular opera con una mediana de 1.8 horas.

La\ hipótesis\ a\ probar\ es:

H_{0}:\theta=0

H_{1}:\theta \neq 0

Código
#Ejercicio 1
library (BSDA)
library(graphics)
x<-c(1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2, 1.7)
SIGN.test(x,alternative = "t",conf.level = 0.95)

    One-sample Sign-Test

data:  x
s = 11, p-value = 0.0009766
alternative hypothesis: true median is not equal to 0
95 percent confidence interval:
 1.271273 2.000000
sample estimates:
median of x 
        1.6 

Achieved and Interpolated Confidence Intervals: 

                  Conf.Level L.E.pt U.E.pt
Lower Achieved CI     0.9346 1.3000      2
Interpolated CI       0.9500 1.2713      2
Upper Achieved CI     0.9883 1.2000      2
Código
wilcox.test(x,paired=FALSE,alternative="two.side", conf.level = 0.95)

    Wilcoxon signed rank test with continuity correction

data:  x
V = 66, p-value = 0.003822
alternative hypothesis: true location is not equal to 0
Conclusión

La prueba de signo utilizando la función (Madani Tonekaboni et al. 2018) del paquete (Arnholt y Evans 2023) en R arrojó un estadístico de prueba s igual a 11 y un valor p igual a 0.0009766. La hipótesis alternativa sugiere que la mediana verdadera no es igual a 0. El intervalo de confianza del 95\% para la mediana de la muestra x se encuentra entre 1.2713 y 2.0000. La estimación de la mediana de la muestra es de 1.6.

Dado que el valor p es menor que el nivel de significancia estándar de 0.05, rechazamos la hipótesis nula y concluimos que hay evidencia significativa para sugerir que la mediana verdadera no es igual a 0. Además, el intervalo de confianza proporciona una estimación más detallada de la ubicación de la mediana, y su exclusión del valor nulo de 0 refuerza la conclusión de que la mediana difiere significativamente.

Divergencia Triunfante: Un Análisis Dual Revelador Manual y con R ​✍🏼​🧑🏼‍💻

Este estudio adoptó una estrategia dual para analizar las diferencias en las medianas, utilizando tanto métodos manuales como la potencia de R. Inicialmente, se asumió la hipótesis de que la mediana era cero al aplicar la función (Madani Tonekaboni et al. 2018) en R, arrojando resultados significativos que llevaron al rechazo de la hipótesis nula. Este hallazgo, respaldado por un intervalo de confianza entre 1.27 y 2, impulsó la elección estratégica de 1.8 como la mediana representativa. El análisis manual, centrado en la hipótesis de que la mediana es 1.8, validó la elección anterior y proporcionó evidencia adicional. La convergencia entre ambas metodologías refuerza la robustez de la conclusión general. Este enfoque, al desentrañar las complejidades de la mediana mediante múltiples perspectivas, plantea preguntas intrigantes sobre la variabilidad de los resultados y la selección de hipótesis iniciales. ¿Cómo influyó la elección inicial de la hipótesis en la interpretación de los resultados? ¿Podrían existir otras hipótesis que proporcionen una visión aún más completa? En última instancia, esta divergencia en los métodos no solo confirmó la mediana elegida sino que también resaltó la importancia de considerar enfoques duales para obtener una comprensión más profunda y precisa de los datos.

Datos

Una compañía de taxis está tratando de decidir si utiliza neumáticos radiales en lugar de los regulares con cinturón para mejorar la economía del combustible, 16 vehículos se equiparon con neumáticos radiales y se manejaron a lo largo de una pista prescrita para pruebas. Sin cambiar conductores los mismos vehículos se equiparon con neumáticos normales de cinturón y se condujeron por la misma pista de pruebas. El consumo de gasolina en kilómetros por litros se registró de la siguiente manera:

Código
#Datos de consumo de gasolina en km por litro
automoviles <- 1:16
neumaticos_radiales <- c(4.2, 4.7, 6.6, 7.0, 6.7, 4.5, 5.7, 6.0, 7.4, 4.9, 6.1, 5.2, 5.7, 6.9, 6.8, 4.9)
neumaticos_cinturon <- c(4.1, 4.9, 6.2, 6.9, 6.8, 4.4, 5.7, 5.8, 6.9, 4.9, 6.0, 4.9, 5.3, 6.5, 7.1, 4.8)

#tabla de los datos de manera ordenada
tabla_consumo_gasolina <- data.frame(Automovil = automoviles, Radiales = neumaticos_radiales, Cinturon = neumaticos_cinturon)

#tabla
print(tabla_consumo_gasolina, row.names = FALSE)
 Automovil Radiales Cinturon
         1      4.2      4.1
         2      4.7      4.9
         3      6.6      6.2
         4      7.0      6.9
         5      6.7      6.8
         6      4.5      4.4
         7      5.7      5.7
         8      6.0      5.8
         9      7.4      6.9
        10      4.9      4.9
        11      6.1      6.0
        12      5.2      4.9
        13      5.7      5.3
        14      6.9      6.5
        15      6.8      7.1
        16      4.9      4.8

¿Se puede concluir al nivel de significancia de 0.05 que los vehículos equipados con neumáticos radiales dan una mayor economía de combustible que aquellos equipados con neumáticos regulares con cinturón?

La\ hipótesis\ a\ probar\ es:

H_{0}:\theta{_1}=\theta{_2}

H_{1}:\theta{_1} < \theta{_2}

Table\ 2: Rango\ signado\ de\ Wilcoxon\ para\ datos\ de\ consumo\ de\ gasolina\ según\ el\ neumático\ usado
Muestra \left | Dif \right | R_{i}^{+} S\left ( x_{i} \right ) R_{i}^{+}\cdot S\left ( x_{i} \right )
1 0.1 3.5 -1 -3.5
2 0.2 7.5 1 7.5
3 0.4 12 -1 -12
4 0.1 3.5 -1 -3.5
5 0.1 3.5 1 3.5
6 0.1 3.5 -1 -3.5
7 0 0 0 0
8 0.2 7.5 -1 -7.5
9 0.5 14 -1 -14
10 0 0 0 0
11 0.1 3.5 -1 -3.5
12 0.3 9.5 -1 -9.5
13 0.4 12 -1 -12
14 0.4 12 -1 -12
15 0.3 9.5 1 9.5
16 0.1 3.5 -1 -3.5

Fuente: Elaboración\ propia

Así

T^{+}=\sum R_{i}^{+}\cdot S\left ( x_{i} \right )=20.5

T^{-}=\sum R_{i}^{+}\cdot S\left ( x_{i} \right )=84.5

Luego

E\left ( T \right )=\frac{N\cdot \left ( N+1 \right )}{4}=\frac{14\cdot \left ( 14+1 \right )}{4}=52.5

Var\left ( T \right )=\frac{N\cdot \left ( N+1 \right )\cdot \left ( 2N+1 \right )}{24}=\frac{14\cdot \left ( 14+1 \right )\cdot \left ( 2\ast 14+1 \right )}{24}=253.75

Finalmente

Z_{c}^{+}=\frac{T^{+}-E\left ( T \right )}{\sqrt{Var\left ( T \right )}}=\frac{84.5-52.5}{\sqrt{253.75}}=2.0088

Z_{c}^{-}=\frac{T^{-}-E\left ( T \right )}{\sqrt{Var\left ( T \right )}}=\frac{20.5-52.5}{\sqrt{253.75}}=-2.0088

Conclusión

La prueba de Wilcoxon signada revela un estadístico Z de Z_{c}^{+}=2.0088, el cual es mayor a 1.64 para un nivel de significancia del 0.05. Por lo tanto, se rechaza la hipótesis nula (H{_0}), lo que sugiere evidencia suficiente para afirmar que los vehículos equipados con neumáticos radiales exhiben una mediana menor en el consumo de combustible, es decir, brindan una mayor economía en comparación con aquellos equipados con neumáticos regulares con cinturón.

Recordamos\ La\ hipótesis\ a\ probar:

Para\ la\ prueba\ del\ signo

H_{0}:\theta{_1}=\theta{_2}

H_{1}:\theta{_1} < \theta{_2}

Para\ la\ prueba\ de\ rango\ signado

H_{0}:\theta{_1}-\theta{_2}=0

H_{1}:\theta{_1}-\theta{_2}<0

Código
#Ejercicio 2
Neumaticoradiales<-c(4.2,4.7,6.6,7,6.7,4.5,5.7,6,7.4,4.9,6.1,5.2,5.7,6.9,6.8,4.9)
Neumatico_con_cinturon<-c(4.1,4.9,6.2,6.9,6.8,4.4,5.7,5.8,6.9,4.9,6,4.9,5.3,6.5,7.1,4.8)
SIGN.test(Neumaticoradiales,Neumatico_con_cinturon,alternative = "less",conf.level = 0.95)

    Dependent-samples Sign-Test

data:  Neumaticoradiales and Neumatico_con_cinturon
S = 11, p-value = 0.9935
alternative hypothesis: true median difference is less than 0
95 percent confidence interval:
      -Inf 0.2826053
sample estimates:
median of x-y 
          0.1 

Achieved and Interpolated Confidence Intervals: 

                  Conf.Level L.E.pt U.E.pt
Lower Achieved CI     0.8949   -Inf 0.2000
Interpolated CI       0.9500   -Inf 0.2826
Upper Achieved CI     0.9616   -Inf 0.3000
Código
wilcox.test(Neumaticoradiales,Neumatico_con_cinturon,paired=TRUE,alternative="less")

    Wilcoxon signed rank test with continuity correction

data:  Neumaticoradiales and Neumatico_con_cinturon
V = 85.5, p-value = 0.9826
alternative hypothesis: true location shift is less than 0
Conclusión
  • Ambas pruebas indican p-values mayores que 0.05 (0.9935 y 0.9826).

  • No hay suficiente evidencia para rechazar H{_0} en ninguna de las pruebas.

  • Las conclusiones de ambas pruebas son consistentes y sugieren que no hay diferencia significativa entre los dos tipos de neumáticos en términos de economía de combustible.

  • Por otro lado, al aplicar las pruebas estadísticas en R, no se encontró suficiente evidencia para sugerir que hay una diferencia significativa en la economía de combustible entre los dos tipos de neumáticos. Los resultados proporcionados por la prueba de signo y la prueba de rango signado de Wilcoxon indican una mediana de diferencia cercana a 0 y un intervalo de confianza que abarca valores no significativos.

“R vs. Manual: Un Viaje Estadístico en el Consumo de Gasolina”✍🏼​🧑🏼‍💻

El análisis del consumo de gasolina utilizando neumáticos radiales y regulares con cinturón se abordó tanto de forma manual como en R. El enfoque manual utilizó una prueba de Wilcoxon signada unidireccional, mientras que en R se emplearon pruebas de signo y rango signado unilaterales.

Aunque el enfoque manual sugirió una diferencia significativa, las pruebas en R no proporcionaron suficiente evidencia para rechazar la hipótesis nula en ninguna de las pruebas realizadas. Esto resalta la importancia de considerar diferentes enfoques y herramientas estadísticas, así como la necesidad de interpretar los resultados en un contexto más amplio. En este caso, no hay suficiente respaldo estadístico para afirmar que los neumáticos radiales dan una mayor economía de combustible que los neumáticos regulares con cinturón. La consistencia entre los métodos refuerza la confianza en los resultados obtenidos.

La convergencia en las conclusiones, a pesar de las distintas aproximaciones, resalta la robustez del análisis. La aplicación de diferentes métodos permite una comprensión más completa del problema, y en este caso, ambas metodologías sugieren que los neumáticos radiales no necesariamente conducen a una mejora significativa en la economía de combustible en comparación con los neumáticos regulares con cinturón.

Datos

Los siguientes son los números de recetas surtidas por dos farmacias durante un período de 20 días.

Código
#Ventas Diarias en Farmacias A y B.
dias <- 1:20
farmacia_A <- c(19, 21, 15, 17, 24, 12, 19, 14, 20, 18, 23, 21, 17, 12, 16, 15, 20, 18, 14, 22)
farmacia_B <- c(17, 15, 12, 12, 16, 15, 11, 13, 14, 21, 19, 15, 11, 10, 20, 12, 13, 17, 16, 18)

#tabla de manera ordenada
datos_ejemplo3 <- data.frame(Dia = dias, Farmacia_A = farmacia_A, Farmacia_B = farmacia_B)

#Tabla
print(datos_ejemplo3, row.names = FALSE)
 Dia Farmacia_A Farmacia_B
   1         19         17
   2         21         15
   3         15         12
   4         17         12
   5         24         16
   6         12         15
   7         19         11
   8         14         13
   9         20         14
  10         18         21
  11         23         19
  12         21         15
  13         17         11
  14         12         10
  15         16         20
  16         15         12
  17         20         13
  18         18         17
  19         14         16
  20         22         18

Utilice la prueba del rango signado de Wilcoxon al nivel de significancia de 0.01 para determinar si las dos farmacias en promedio surten el mismo número de recetas contra la alternativa de que la farmacia A surte más recetas que la farmacia B.

La\ hipótesis\ a\ probar\ es:

H_{0}:\theta{_A}=\theta{_B}

H_{1}:\theta{_A}>\theta{_B}

Table\ 3: Rango\ signado\ Wilcoxon\ para\ recetas\ de\ dos\ farmacias
Muestra \left | Dif \right | R_{i}^{+} S\left ( x_{i} \right ) R_{i}^{+}\cdot S\left ( x_{i} \right )
1 2 4 1 4
2 6 15.5 1 15.5
3 3 7.5 1 7.5
4 5 13 1 13
5 8 19.5 1 19.5
6 3 7.5 -1 -7.5
7 8 19.5 1 19.5
8 1 1.5 1 1.5
9 6 15.5 1 15.5
10 3 7.5 -1 -7.5
11 4 11 1 11
12 6 15.5 1 15.5
13 6 15.5 1 15.5
14 2 4 1 4
15 4 11 -1 -11
16 3 7.5 1 7.5
17 7 18 1 18
18 1 1.5 1 1.5
19 2 4 -1 -4
20 4 11 1 11

Fuente: Elaboración\ propia

Así

T^{+}=\sum R_{i}^{+}\cdot S\left ( x_{i} \right )=180

T^{-}=\sum R_{i}^{+}\cdot S\left ( x_{i} \right )=30

Luego

E\left ( T \right )=\frac{N\cdot \left ( N+1 \right )}{4}=\frac{20\cdot \left ( 20+1 \right )}{4}=105

Var\left ( T \right )=\frac{N\cdot \left ( N+1 \right )\cdot \left ( 2N+1 \right )}{20}=\frac{20\cdot \left ( 20+1 \right )\cdot \left ( 2\ast 10+1 \right )}{24}=717.5

Finalmente

Z_{c}^{+}=\frac{T^{+}-E\left ( T \right )}{\sqrt{Var\left ( T \right )}}=\frac{180-105}{\sqrt{717.5}}=2.799

Z_{c}^{-}=\frac{T^{-}-E\left ( T \right )}{\sqrt{Var\left ( T \right )}}=\frac{30-105}{\sqrt{717.5}}=-2.799

Conclusión

La prueba de Wilcoxon signada para datos emparejados reveló resultados significativos al nivel de significancia de 0.01. El estadístico de prueba T^{+} fue calculado como 180, mientras que T^{-} fue igual a 30. Con una media esperada E(T) de 105 y una varianza Var(T) de 717.5, los estadísticos normalizados Z_{c}^{+} y Z_{c}^{-}​ fueron calculados como 2.799 y -2.799, respectivamente.

Al comparar estos valores con el valor crítico de 2.32 para un nivel de significancia del 0.01, se rechaza la hipótesis nula H_{0}. Esto proporciona suficiente evidencia para afirmar que la farmacia A surte más recetas que la farmacia B.

En resumen, los resultados de la prueba sugieren de manera concluyente que hay diferencias significativas en la cantidad de recetas surtidas por ambas farmacias, con la farmacia A demostrando un rendimiento superior.

Recordando\ la\ hipótesis

H_{0}:\theta{_A}=\theta{_B}

H_{1}:\theta{_A}>\theta{_B}

Código
#Ejercicio 3

A<-c(19,21,15,17,24,12,19,14,20,18,23,21,17,12,16,15,20,18,14,22)

B<-c(17,15,12,12,16,15,11,13,14,21,19,15,11,10,20,12,13,17,16,18)

SIGN.test(A,B,alternative = "g",conf.level = 0.99)

    Dependent-samples Sign-Test

data:  A and B
S = 16, p-value = 0.005909
alternative hypothesis: true median difference is greater than 0
99 percent confidence interval:
   1 Inf
sample estimates:
median of x-y 
          3.5 

Achieved and Interpolated Confidence Intervals: 

                  Conf.Level L.E.pt U.E.pt
Lower Achieved CI     0.9793      1    Inf
Interpolated CI       0.9900      1    Inf
Upper Achieved CI     0.9941      1    Inf
Código
wilcox.test(A,B,paired=TRUE,alternative="g", conf.level = 0.99)

    Wilcoxon signed rank test with continuity correction

data:  A and B
V = 180, p-value = 0.002647
alternative hypothesis: true location shift is greater than 0
Conclusión

La prueba de signo para datos emparejados realizada en R arrojó resultados estadísticamente significativos al nivel de significancia del 0.01. El estadístico de prueba S fue igual a 16, y el valor p fue calculado como 0.005909 . La hipótesis alternativa sugiere que la diferencia mediana verdadera es mayor que 0, respaldada por un intervalo de confianza del 99\% que va desde 1 hasta infinito.

Con base en estos resultados, se rechaza la hipótesis nula, proporcionando evidencia significativa para concluir que la farmacia A surte más recetas que la farmacia B. La mediana de la diferencia 3.5 indica que, en promedio, la farmacia A tiene un rendimiento superior en términos de cantidad de recetas surtidas en comparación con la farmacia B. Estos hallazgos son consistentes con la conclusión obtenida mediante el análisis manual y refuerzan la idea de que la farmacia A exhibe un desempeño significativamente mayor en la surtida de recetas.

Coincidencia de trayectorias: Un Recorrido Estadístico en el Surtido de Recetas entre Farmacias A y B✍🏼​🧑🏼‍💻

La convergencia entre los resultados obtenidos de forma manual y en R es evidente, ya que ambos métodos apuntan en la misma dirección: rechazan la hipótesis nula y respaldan la idea de que la farmacia A supera a la farmacia B en cuanto al surtido de recetas. Esta consistencia refuerza la confiabilidad de nuestras conclusiones y demuestra la validez de la prueba en este contexto específico.

En resumen, tanto el análisis manual como el realizado en R proporcionaron resultados coherentes y consistentes, brindando confianza en la conclusión final de que la farmacia A muestra un rendimiento superior en el surtido de recetas en comparación con la farmacia B.

Datos

Las siguientes cifras dan la presión de la sangre durante la sístole de 16 fondistas antes y después de una carrera de 8 km.

Código
# Datos de la presion de la sangre
corredor <- 1:16
antes <- c(158, 149, 160, 155, 164, 138, 163, 159, 165, 145, 150, 161, 132, 155, 146, 159)
despues <- c(164, 158, 163, 160, 172, 147, 167, 169, 173, 147, 156, 164, 133, 161, 154, 170)

#Tabla organizada
datos_presion_sangre <- data.frame(Corredor = corredor, Antes = antes, Después = despues)

#Tabla
print(datos_presion_sangre,row.names = FALSE)
 Corredor Antes Después
        1   158     164
        2   149     158
        3   160     163
        4   155     160
        5   164     172
        6   138     147
        7   163     167
        8   159     169
        9   165     173
       10   145     147
       11   150     156
       12   161     164
       13   132     133
       14   155     161
       15   146     154
       16   159     170

Utilice la prueba de Rango signado de Wilcoxon para probar al nivel de significancia de 0.05 la hipótesis nula de que la carrera de 8 km incrementa la presión sanguínea durante la sístole.

La\ hipótesis\ a\ probar\ es:

H_{0}:\theta_{antes}=\theta_{despues}

H_{1}:\theta_{antes}<\theta_{despues}

Table\ 4: Rango\ signado\ de\ Wilcoxon\ presion\ de\ sangre
Muestra \left | Dif \right | R_{i}^{+} S\left ( x_{i} \right ) R_{i}^{+}\cdot S\left ( x_{i} \right )
1 6 8 -1 -8
2 9 13.5 -1 -13.5
3 3 3.5 -1 -3.5
4 5 6 -1 -6
5 8 11 -1 -11
6 9 13.5 -1 -13.5
7 4 5 -1 -5
8 10 15 -1 -15
9 8 11 -1 -11
10 2 2 -1 -2
11 6 8 -1 -8
12 3 3.5 -1 -3.5
13 1 1 -1 -1
14 6 8 -1 -8
15 8 11 -1 -11
16 11 16 -1 -16

Fuente: Elaboración\ propia

Así

T^{+}=\sum R_{i}^{+}\cdot S\left ( x_{i} \right )=0

T^{-}=\sum R_{i}^{+}\cdot S\left ( x_{i} \right )=136

Luego

E\left ( T \right )=\frac{N\cdot \left ( N+1 \right )}{4}=\frac{16\cdot \left ( 16+1 \right )}{4}=68

Var\left ( T \right )=\frac{N\cdot \left ( N+1 \right )\cdot \left ( 2N+1 \right )}{24}=\frac{16\cdot \left ( 16+1 \right )\cdot \left ( 2\ast 16+1 \right )}{24}=374

Finalmente

Z_{c}^{+}=\frac{T^{+}-E\left ( T \right )}{\sqrt{Var\left ( T \right )}}=\frac{0-68}{\sqrt{374}}=-3.5162

Z_{c}^{-}=\frac{T^{-}-E\left ( T \right )}{\sqrt{Var\left ( T \right )}}=\frac{136-68}{\sqrt{374}}=3.5162

Conclusión

Los resultados del análisis muestran evidencia estadística significativa para rechazar la hipótesis nula H{_0} en el contexto de la presión de la sangre durante la sístole antes y después de una carrera de 8 km. Los valores calculados de los estadísticos de prueba, Z_{c}^{+} y Z_{c}^{-}, fueron 3.5162 y -3.5162, respectivamente. Al comparar estos valores con el valor crítico de 1.64 para un nivel de significancia del 0.05, se observa que ambos Z_{c}^{+} y Z_{c}^{-} son mayores que 1.64, lo que lleva al rechazo de H{_0}.

Por lo tanto, se concluye con confianza que hay suficiente evidencia para afirmar que la carrera de 8 km incrementa la presión sanguínea durante la sístole en la muestra analizada.

Esta conclusión respalda la idea de que la actividad física intensa, representada por la carrera de 8 km, impacta significativamente en la presión sanguínea durante la sístole en los individuos considerados en el estudio.

Recordamos\ la\ hipótesis\ a\ probar:

H_{0}:\theta_{antes}=\theta_{despues}

H_{1}:\theta_{antes}<\theta_{despues}

Código
#Ejercicio 4

Antes<-c(158,149,160,155,164,138,163,159,165,145,150,161,132,155,
         146,159)
Despues<-c(164,158,163,160,172,147,167,169,173,147,156,164,133,
           161,154,170)
SIGN.test(Antes,Despues,alternative = "less",conf.level = 0.95)

    Dependent-samples Sign-Test

data:  Antes and Despues
S = 0, p-value = 1.526e-05
alternative hypothesis: true median difference is less than 0
95 percent confidence interval:
      -Inf -4.173947
sample estimates:
median of x-y 
           -6 

Achieved and Interpolated Confidence Intervals: 

                  Conf.Level L.E.pt  U.E.pt
Lower Achieved CI     0.8949   -Inf -5.0000
Interpolated CI       0.9500   -Inf -4.1739
Upper Achieved CI     0.9616   -Inf -4.0000
Código
wilcox.test(Antes,Despues,paired=TRUE,alternative="less",conf.level = 0.95)

    Wilcoxon signed rank test with continuity correction

data:  Antes and Despues
V = 0, p-value = 0.000236
alternative hypothesis: true location shift is less than 0
Conclusión

El análisis realizado mediante la prueba de signo en R proporciona evidencia estadística altamente significativa (p-value = 1.526e-05) para rechazar la hipótesis nula de que no hay diferencia en la presión sanguínea durante la sístole antes y después de una carrera de 8 km. El intervalo de confianza del 95\%, que va desde -\infty hasta -4.1739, confirma que la mediana de la diferencia es significativamente menor que cero.

Por lo tanto, se concluye con confianza que la evidencia muestral respalda la idea de que la carrera de 8 km tiene un impacto negativo en la presión sanguínea durante la sístole. La consistencia entre los resultados obtenidos manualmente y mediante R refuerza la validez de la conclusión general de que la actividad física intensa, representada por la carrera de 8 km, efectivamente incrementa la presión sanguínea en este contexto específico.

Coherencia Estadística: Un Análisis Dual Confiable de la Presión Sanguínea durante la Sístole ✍🏼​🧑🏼‍💻

La convergencia entre los resultados obtenidos manualmente y a través de R es notoria, destacando la consistencia en las conclusiones respecto al efecto de la carrera de 8 km en la presión sanguínea durante la sístole. Ambos métodos de análisis respaldan la idea de que la actividad física intensa tiene un impacto significativo en este parámetro fisiológico.

La coherencia en los hallazgos refuerza la confiabilidad de la prueba y valida la conclusión general de que la carrera de 8 km induce un aumento significativo en la presión sanguínea durante la sístole en el contexto de este estudio. Este nivel de consistencia entre métodos independientes resalta la robustez de los resultados y fortalece la confianza en las conclusiones alcanzadas.

Datos

Se encuentra que el contenido de nicotina de dos marcas de cigarrillos medido en miligramos es el siguiente:

Código
# Datos del contenido de nicotina
Marca_A <- c(2.1, 4.0, 6.3, 5.4, 4.8, 3.7, 6.1, 5.4)
Marca_B <- c(4.1, 0.6, 3.1, 2.5, 4.0, 6.2, 2.2, 1.9)

# orden de la tabla
tabla_contenido_nicotina <- data.frame(
  Marca = rep(c("Marca A", "Marca B"), each = 8),
  Contenido_Nicotina = c(Marca_A, Marca_B)
)

#tabla
print(tabla_contenido_nicotina)
     Marca Contenido_Nicotina
1  Marca A                2.1
2  Marca A                4.0
3  Marca A                6.3
4  Marca A                5.4
5  Marca A                4.8
6  Marca A                3.7
7  Marca A                6.1
8  Marca A                5.4
9  Marca B                4.1
10 Marca B                0.6
11 Marca B                3.1
12 Marca B                2.5
13 Marca B                4.0
14 Marca B                6.2
15 Marca B                2.2
16 Marca B                1.9

Pruebe la hipótesis al nivel de 0.05 de que las medianas de los contenidos de nicotina de las dos marcas son diferentes.

La\ hipótesis\ a\ probar\ es:

H_{0}:\theta{_A} = \theta{_B}

H_{1}:\theta{_A} \neq \theta{_B}

Table\ 5: Rango\ signado\ de\ Wilcoxon\ para\ el\ contenido\ de\ nicotina
Muestra \left | Dif \right | R_{i}^{+} S\left ( x_{i} \right ) R_{i}^{+}\cdot S\left ( x_{i} \right )
1 2 2 -1 -2
2 3.4 6 1 6
3 3.2 5 1 5
4 2.9 4 1 4
5 0.8 1 1 1
6 2.5 3 -1 -3
7 3.9 8 1 8
8 3.5 7 1 7

Fuente: Elaboración\ propia

Así

T^{+}=\sum R_{i}^{+}\cdot S\left ( x_{i} \right )=31

T^{-}=\sum R_{i}^{+}\cdot S\left ( x_{i} \right )=5

Luego

E\left ( T \right )=\frac{N\cdot \left ( N+1 \right )}{4}=\frac{8\cdot \left ( 8+1 \right )}{4}=18

Var\left ( T \right )=\frac{N\cdot \left ( N+1 \right )\cdot \left ( 2N+1 \right )}{24}=\frac{8\cdot \left ( 8+1 \right )\cdot \left ( 2\ast 8+1 \right )}{24}=51

Finalmente

Z_{c}^{+}=\frac{T^{+}-E\left ( T \right )}{\sqrt{Var\left ( T \right )}}=\frac{31-18}{\sqrt{51}}=1.820

Z_{c}^{-}=\frac{T^{-}-E\left ( T \right )}{\sqrt{Var\left ( T \right )}}=\frac{5-18}{\sqrt{51}}=-1.820

Conclusión

Con base en estos resultados, se concluye que Z_{c}^{+}=1.820 es menor que 1.96, por lo tanto, no hay suficiente evidencia para rechazar la hipótesis nula H{_0}. En otras palabras, no podemos afirmar que exista una diferencia significativa entre las medianas de los contenidos de nicotina de las dos marcas.

Recordamos\ la\ hipótesis\ a\ probar:

H_{0}:\theta_{A}=\theta_{B}

H_{1}:\theta_{A} \neq \theta_{B}

Código
#Ejercicio 5
MarcaA <-c(2.1,4,6.3,5.4,4.8,3.7,6.1)
MarcaB <-c(4.1,0.6,3.1,2.5,4,6.2,2.2)
SIGN.test(MarcaA,MarcaB,alternative = "two.side",conf.level = 0.95)

    Dependent-samples Sign-Test

data:  MarcaA and MarcaB
S = 5, p-value = 0.4531
alternative hypothesis: true median difference is not equal to 0
95 percent confidence interval:
 -2.342857  3.742857
sample estimates:
median of x-y 
          2.9 

Achieved and Interpolated Confidence Intervals: 

                  Conf.Level  L.E.pt U.E.pt
Lower Achieved CI     0.8750 -2.0000 3.4000
Interpolated CI       0.9500 -2.3429 3.7429
Upper Achieved CI     0.9844 -2.5000 3.9000
Código
wilcox.test(MarcaA,MarcaB,paired=TRUE,alternative="two.side",conf.level = 0.95)

    Wilcoxon signed rank exact test

data:  MarcaA and MarcaB
V = 23, p-value = 0.1563
alternative hypothesis: true location shift is not equal to 0
Conclusión

Al aplicar las pruebas estadísticas en R para comparar el contenido de nicotina entre las dos marcas de cigarrillos, los resultados indican que no hay suficiente evidencia para afirmar que las medianas son diferentes. La prueba de signos arroja un p-valor de 0.4531, lo cual no alcanza el umbral de significancia del 0.05. Además, el intervalo de confianza del 95\% para la diferencia de medianas incluye el cero, respaldando la falta de evidencia en contra de la hipótesis nula.

En términos más simples, no podemos concluir que exista una diferencia estadísticamente significativa en el contenido de nicotina entre las marcas A y B según los resultados obtenidos en R. Esta consistencia con el análisis manual refuerza la robustez de la conclusión general de que no hay diferencias sustanciales en las medianas de los contenidos de nicotina entre las dos marcas de cigarrillos evaluadas.

Un Análisis Coherente y Consistente✍🏼​🧑🏼‍💻

Al comparar el contenido de nicotina entre dos marcas de cigarrillos utilizando tanto un enfoque manual como la herramienta estadística R, los resultados convergen de manera consistente. La prueba de (Kwan 2021) y la prueba (Madani Tonekaboni et al. 2018) aplicadas en R sugieren que no hay evidencia suficiente para afirmar que las medianas de los contenidos de nicotina difieren significativamente entre las marcas A y B. Ambas pruebas indican p-valores superiores al umbral de significancia del 0.05, respaldando la conclusión general de que no hay diferencias estadísticas significativas en el contenido de nicotina entre las dos marcas evaluadas.

Esta convergencia en los resultados refuerza la fiabilidad y validez de la evaluación estadística realizada. En resumen, tanto el análisis manual como el enfoque computacional en R proporcionaron conclusiones coherentes y consistentes, brindando confianza en la conclusión final de que no hay diferencias sustanciales en las medianas de los contenidos de nicotina entre las marcas A y B.

Conclusión🤔​✔️​

Este fascinante recorrido a través de métodos estadísticos, fusionando el análisis manual y el poder computacional de R, destaca la complejidad y la riqueza que reside en la interpretación de datos. La interacción entre estas dos perspectivas nos ha llevado a descubrimientos reveladores, donde los resultados convergen y divergen, ilustrando la dualidad y la complementariedad de ambos enfoques.

La ejecución de pruebas como el signo y Wilcoxon, tanto de manera manual como en R, ha arrojado luz sobre la variabilidad de los datos y la necesidad de un análisis estadístico robusto. La consistencia en algunas conclusiones resalta la fortaleza de las pruebas y, a su vez, plantea preguntas intrigantes sobre la naturaleza de los conjuntos de datos y la validez de las hipótesis.

La convergencia de resultados no solo sugiere la coherencia entre métodos, sino que también subraya la importancia de comprender los matices y limitaciones inherentes a cada enfoque. Los resultados similares respaldan la confianza en la aplicación de pruebas estadísticas, mientras que las discrepancias señalan la complejidad del análisis y la necesidad de explorar más allá de un solo método.

La velocidad y la precisión proporcionadas por R son evidentes, pero el análisis manual, aunque más laborioso, resalta la necesidad de una comprensión profunda y la habilidad de interpretar resultados sin depender completamente de herramientas automatizadas.

En conclusión, esta travesía no solo ha revelado patrones y relaciones en los datos, sino que también ha abierto el camino a nuevas preguntas y desafíos. El uso equilibrado de métodos manuales y R proporciona una perspectiva integral y resalta la importancia de considerar diversas aproximaciones para comprender plenamente la complejidad de los datos estadísticos.

Referencias

Arnholt, Alan T., y Ben Evans. 2023. «BSDA: Basic Statistics and Data Analysis». https://CRAN.R-project.org/package=BSDA.
Kwan, Dion. 2021. «wilcoxmed: Computes Values for the 1-Sample Wilcoxon Sign Rank Test for Medians». https://CRAN.R-project.org/package=wilcoxmed.
Madani Tonekaboni, Seyed Ali, Gangesh Beri, Janosch Ortmann, y Benjamin Haibe-Kains. 2018. «SIGN: Similarity Identification in Gene Expression». https://CRAN.R-project.org/package=SIGN.