Prueba de Chi-cuadrado

La prueba de Chi-cuadrado también es conocida como una prueba de homogeneidad, bondad de ajuste, aleatoriedad, asociación e independencia. El estadístico de Chi-cuadrado sirve para trabajar con variables nominales o de clasificación. Requiere de que:

->Las muestras sean aleatorias.

->Las variables sean independientes.

->Los valores y las variables tienen que ser mutuamente excluyentes.

->Los datos resportados deben ser en frecuencias absolutas.

->Las frecuencias observadas no deben ser pequeñas.

La H0 para estas pruebas se refiere a si existe independencia, aleatoriedad, homogeneidad, etc.; para la H1 se presenta todo lo opuesto.

Se puede usar para hacer cálculos de los intervalos de confianza y prueba de hipótesis de las varianzas poblacionales; también, se usa para saber si un conjunto de datos sigue una distribución predeterminada y por último, para analizar tablas de contingencia.

Existen pruebas de Chi-cuadrado de una vía y de dos vías. Cuando se trabaja con una vía, la prueba a utilizar es la de bondad de ajuste a la cual se le debe de aplicar la corrección de Yates manualmente si gl=1.

Para dos vías existen dos pruebas, la de independencia y la homogeneidad. Para la primera, se recomienda usar la prueba de Fisher si los valores esperados son menores a 5, si hay presencia de ceros; además, se recomienda usar esta prueba para cuando se tienen tablas 2x2.

La prueba de homogeneidad está relacionada a la pregunta acerca de si las muestras provienen de una población homogénea.

Ejemplo: Un investigador quiere estudiar si hay asociación entre la práctica deportiva y la sensación de bienestar. Extrae una muestra aleatoria de 100 sujetos. Los datos aparecen a continuación.

Entonces se plantea que para la H0, los valores serán independientes.

Si<-c(20,10)
No<-c(25,45)
Cuadro1<-data.frame(Si,No)
rownames(Cuadro1)<-c("Si","No")
Cuadro1
Cuadro1
   Si No
Si 20 25
No 10 45

Se calculan los valores esperados

chisq.test(Cuadro1)$expected
Si   No
Si 13.5 31.5
No 16.5 38.5

Como estos son mayores a cinco, se continúa trabajando con “chisq.test”

chisq.test(Cuadro1)
Pearson's Chi-squared test with Yates' continuity correction

data:  Cuadro1
X-squared = 6.9264, df = 1, p-value = 0.008493

Para saber si se acepta la H0, se saca el valor teórico

qchisq(0.95,1)
[1] 3.841459

Como el valor calculado dio mayor al teórico, se rechaza la H0.

Correlación

Se le llama así a una relación cuantitativa entre dos variables aleatorias, que están medidas a escalas ordinales o en intervalos. Existen varios tipos de correlaciones, tales que si cuando el aumento de una de las variables viene de la mano en aumento con la otra, se trata de una correlación positiva; por el contrario, entre más aumente una y la otra dismuya, se trata de una correlación negativa.

Algo importante es que la presencia de correlación entre las variables no implica causalidad; lo que quiere decir que los datos deben ser coherentes.

Los coeficientes de correlación se pueden calcular mediante métodos paramétricos y no paramétricos. Para el primer método, se utiliza Pearson y si no son paramétricos, Spearman.

Los coeficientes de correlación van desde -1 a +1; entre más cerca esté el valor calculado de +1 o -1, se le conoce como correlación fuerte y perfecta. Por el contrario, sería una correlación débil. Lo mismo sucede si el valor se acerca a -1.

Cuando el valor calculado es cero, indica que no hay correlación.

Para saber si esta correlación es significativa o no, se observa si el p-value<0.05

Ejemplo: se desea saber si existe una relación entre la temperatura y la humedad presentes en cierta región.

library(DAAG)
data(dengue)
View(dengue)

Se determina si los datos de las variables presentan normalidad

shapiro.test(dengue$temp)
Shapiro-Wilk normality test

data:  dengue$temp
W = 0.91009, p-value < 2.2e-16

Como esta variable presenta datos no normales, se realiza la correlación con el método de Spearman

cor.test(dengue$temp, dengue$humid, method = "spearman") 
Spearman's rank correlation rho

data:  dengue$temp and dengue$humid
S = 177920000, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.8661581 

Con respecto al coeficiente de correlación de Spearman (rho), se muestra una correlación positiva y fuerte entre las variables. Esta correlación también presenta una significancia estadística debido a que su p<0.05

También, existe el coeficiente de determinación (R^2) el cual trata de explicar cuánto es la proporción de la variabilidad en “y” puede ser explicada en “x”; éste se determina elevando el valor de la prueba estadística al cuadrado. En este caso

0.8661581^2
0.7502299

Lo que quiere decir que aproximadamente, un 25% de la temperatura no depende de la humedad.

Regresión

El objetivo de la regresión es encontrar la curva que mejor ajuste a los datos experimentales debido a que esta se realiza cuando ya se conoce de que existe una relación entre las variables.

Se presenta una variable dependiente, “y”, y una independiente, “x”, en donde para cada de valor de “x”, “y” es un valor aleatorio con distribución normal. En la regresión se predicen los valores de “y” que se obtendrían diferentes de “x”.

Debe haber un control de los supuestos como la autocorrelación , multicolinealidad, ect.

Ejemplo 1

library(car)
data(Prestige)
head(Prestige)
education income women prestige census type
gov.administrators      13.11  12351 11.16     68.8   1113 prof
general.managers        12.26  25879  4.02     69.1   1130 prof
accountants             12.77   9271 15.70     63.4   1171 prof
purchasing.officers     11.42   8865  9.11     56.8   1175 prof
chemists                14.62   8403 11.68     73.5   2111 prof
physicists              15.64  11030  5.13     77.6   2113 prof

Se genera un modelo de regresión lineal con la variable “education” como independiente y “prestige” como la dependiente

reg1 <- lm(prestige ~ education, data = Prestige)
summary(reg1)
Call:
lm(formula = prestige ~ education, data = Prestige)

Residuals:
     Min       1Q   Median       3Q      Max 
-26.0397  -6.5228   0.6611   6.7430  18.1636 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -10.732      3.677  -2.919  0.00434 ** 
education      5.361      0.332  16.148  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.103 on 100 degrees of freedom
Multiple R-squared:  0.7228,    Adjusted R-squared:   0.72 
F-statistic: 260.8 on 1 and 100 DF,  p-value: < 2.2e-16

Se revisa la distribución de los residuos

shapiro.test(residuals(reg1))
Shapiro-Wilk normality test

data:  residuals(reg1)
W = 0.98065, p-value = 0.1406

Los residuos presentan normalidad, por ende es una regresión buena; ahora, se realiza el test de la heterocedasticidad

ncvTest(reg1)
Non-constant Variance Score Test 
Variance formula: ~ fitted.values 
Chisquare = 0.6327545, Df = 1, p = 0.42635

Se presenta que los datos son homogéneos. La ecuación de predicción es:

prestige= -10.732 + 5.361*education

Análisis de Varianza (ANDEVA)

Esta prueba se puede utilizar en los casos en los que se quiere analizar una respuesta cuantitativa (variable dependiente), medida bajo ciertas condiciones experimentales identificadas por dos o más variables categóricas (variables independientes).

Se le concoce ANDEVA de una vía cuando se presenta una sola variable que proporciona condiciones experimentales diferentes.

Con la prueba de Fischer, se debe cumplir algunos supuestos como:

->Aleatoriedad.

->Normalidad de los residuos.

->Homogeneidad de los residuos.

Si los p-value<0.05, significa que hay significancia y se deben realizar pruebas Post-Hoc

Para las pruebas de homocedasticidad, existen varios métodos dependiendo de los métodos paramétricos y de balanceo como:

Bartlett->datos normales y balanceados.

Levene->datos normales y no balanceados.

Fligner->datos no normales y balanceados.

cochran->datos no normales y no balanceados.