26/11/2021

Prueba de rangos de Wilcoxon

Es una prueba no paramétrica para las diferencias de una sola muestra o dos muestras.

Para una sola muestra se comparan los datos contra \(\mu\). Retomando los datos de infección por salmonela tenemos que:

x<-c(0.593, 0.142, 0.329, 0.691, 0.231, 0.793, 0.519, 0.392, 0.418)
wilcox.test(x, mu=0.3)
## 
##  Wilcoxon signed rank exact test
## 
## data:  x
## V = 38, p-value = 0.07422
## alternative hypothesis: true location is not equal to 0.3

Cuando se utiliza para dos muestras apareadas:

# Retomemos los datos de gasolina regular o premium
reg <- c(16, 20, 21, 22, 23, 22, 27, 25, 27, 28)
prem <- c(19, 22, 24, 24, 25, 25, 26, 26, 28, 32)
wilcox.test(prem, reg, alternative = "g", paired = T) 
## Warning in wilcox.test.default(prem, reg, alternative = "g", paired = T): cannot
## compute exact p-value with ties
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  prem and reg
## V = 53, p-value = 0.00511
## alternative hypothesis: true location shift is greater than 0

Para dos muestras independientes la prueba se conoce como U de Mann-Whitney pero se calcula con la misma función:

tx <- c(91, 87, 99, 77, 88, 91)
control <- c(101, 110, 103, 93, 99, 104)
wilcox.test(tx,control)
## Warning in wilcox.test.default(tx, control): cannot compute exact p-value with
## ties
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  tx and control
## W = 1.5, p-value = 0.01014
## alternative hypothesis: true location shift is not equal to 0

Correlación

La correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra.

La expresión matemática de una correlación adquiere valores desde -1 hasta +1 y se denomina coeficiente de correlación.

Los valores positivos cercanos al +1 indican una correlación alta positiva, lo que implica que a valores altos en una medida, también serán altos en la otra.

Las correlaciones con valores iguales o cercanos a cero indican que no hay relación entre las mediciones que se están comparando.

Cuando los valores de una correlación se aproximan a -1, indican que la asociación es negativa, es decir, que los valores de una variable son inversamente proporcionales a los de la otra.

Coeficiente de correlación de Pearson (r)

La correlación de Pearson es una covarianza estandarizada.

\[r_{xy}={\Sigma (x_i-\bar{x})(y_i-\bar{y}) \over \sqrt{[\Sigma (x_i-\bar{x})^2+\Sigma(y_i-\bar{y})^2]}}\]

Coeficiente de correlación de Spearman

Es una prueba no paramétrica que mide la relación entre dos variables discretas, generalmente al menos una en escala ordinal. Se utiliza para calcular la asociación entre parejas de datos en rangos.

\[\rho=1-{6\Sigma D^2_i \over n^3-n}\]

Donde

\(D_i\) es la diferencia del iésimo par de rangos = \(R(x_i)-R(y_i)\)

\(R(x_i)\) es el rango del iésimo dato de \(x\)

\(R(y_i)\) es el rango del iésimo dato de \(y\)

\(n\) es el número de parejas de rangos

Coeficiente de correlación tau de Kendall

La tau (\(\tau\)) de Kendall es una correlación no paramétrica para dos variables ordinales. Es similar a las correlaciones de Spearman y Pearson la cual mide la relación entre dos variables y su valor se encuentra entre -1 y 1. No obstante, su interpretación es diferente ya que indica la diferencia entre dos probabilidades: la probabilidad de que los datos se encuentren en el mismo orden y la probabilidad de que los datos no estén en el mismo orden.

\[\tau={n_c-n_d \over {1 \over 2}n(n-1)}\]

Donde

\(n_c\) es el número de rangos concordantes

\(n_d\) es el número de rangos discordantes

\(n\) es el número total de pares

x <- c(44.4, 45.9, 41.9, 53.3, 44.7, 44.1, 50.7, 45.2, 60.1)
y <- c( 2.6,  3.1,  2.5,  5.0,  3.6,  4.0,  5.2,  2.8,  3.8)
cor.test(x, y, method = "pearson", alternative = "two.sided")
## 
##  Pearson's product-moment correlation
## 
## data:  x and y
## t = 1.8411, df = 7, p-value = 0.1082
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.1497426  0.8955795
## sample estimates:
##       cor 
## 0.5711816

cor.test(x, y, method = "spearman", alternative = "two.sided")
## 
##  Spearman's rank correlation rho
## 
## data:  x and y
## S = 48, p-value = 0.0968
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho 
## 0.6

cor.test(x, y, method = "kendall", alternative = "two.sided")
## 
##  Kendall's rank correlation tau
## 
## data:  x and y
## T = 26, p-value = 0.1194
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##       tau 
## 0.4444444

Análisis de correlación entre diferentes tipos de variables

El análisis de correlación es sensible al nivel de medición de las variables. En a continuación se presentan los diferentes análisis de correlación de acuerdo al nivel de medición de las variables.

Niveles de variables Coeficiente de correlación
Ambas variables son de intervalo Pearson
Una variable de intervalo y una ordinal Poliserial
Variable de intervalo y nominal (dicotómica) Punto biserial
Ambas variables son nominales (dicotómicas) Tetracórica
Ambas variables son ordinales Policórica, Spearman, Kendall

library(polycor)
acero<- read.csv("acero.csv")
hetcor(acero[c("consumo","linea","sistema","temperatura","NOx")])
## data contain one or more character variables
## the values of which are ordered alphabetically
## 
## Two-Step Estimates
## 
## Correlations/Type of Correlation:
##              consumo      linea    sistema temperatura        NOx
## consumo            1 Polyserial Polyserial  Polyserial    Pearson
## linea         -0.087          1 Polychoric  Polychoric Polyserial
## sistema       0.1545   -0.08829          1  Polychoric Polyserial
## temperatura 0.007276     0.5426    0.04289           1 Polyserial
## NOx         -0.03486   -0.02474   -0.05055     -0.1128          1
## 
## Standard Errors:
##             consumo   linea sistema temperatura
## consumo                                        
## linea        0.1036                            
## sistema      0.1148  0.1293                    
## temperatura   0.105 0.08538  0.1304            
## NOx         0.09259  0.1044  0.1169      0.1011
## 
## n = 117 
## 
## P-values for Tests of Bivariate Normality:
##               consumo     linea   sistema temperatura
## consumo                                              
## linea          0.9205                                
## sistema        0.6193     0.896                      
## temperatura    0.6153  0.007229     0.978            
## NOx         3.044e-42 8.585e-45 5.328e-47   8.386e-46