\left\{ \begin{array}{ll} H_{0}: & Los~datos~tienen~una~distribución~ Normal\\ H_{1}: & Los~datos~tienen~no~una~districión~ Normal \end{array} \right.
Base de datos
## speed dist
## 1 4 2
## 2 4 10
## 3 7 4
## 4 7 22
## 5 8 16
## 6 9 10
La prueba de Anderson-Darling es una prueba no paramétrica sobre los datos de una muestra que provienen de una distribución específica. Principalmente se basa en la distancia de la distribución hipotética F, y la función de la distribución empícica F_{n}.
A^{2}=n\int_{-\infty}^{\infty}\frac{(F_{n}(x)-F(x))^{2}}{F(x)(1-F(x))}dF(x)
donde n es el número de elementos en la muestra.
El estadístico de prueba A evalua si los datos {Y_{1}<\cdot,<Y_n} proviene de una distribución F:
A^{2}=-n-\sum_{i=1}^{n}\frac{2i-1}{n}\left[ln(F(X_{i})) + ln (1 - F(X_{n+1-i}))\right]
donde
F(X_{i})=\Phi\left(\frac{\left|x_{(i)}-\bar{x}\right|}{s}\right). Sea, \Phi la función de distribución acumulada de una normal estándar, \bar{x} la media y s la desviación estándar de los valores de la muestra.
El p-value es calculado a partir del estadístico modificado Z=A(1.0 + \frac{0.75}{n}+\frac{2.225}{n^{2}}).
El estadístico de prueba se puede comparar con los valores críticos de la distribución teórica.
Distribución | Anderson-Darling | Valor p |
---|---|---|
Exponencial | 9.599 | p<0.003 |
Normal | 0.641 | p<0.089 |
Weibull de 3 parámetros | 0.376 | p<0.432 |
La prueba Anderson-Darling es la prueba EDF recomendada por Stephens (1986). En comparación con la prueba de Cramer-von Mises (como segunda opción) le da más peso a las colas de la distribución.
El número de muestra debe de ser mayor a 7 y permite missing values.
##
## Anderson-Darling normality test
##
## data: speed
## A = 0.26143, p-value = 0.6927
##
## Anderson-Darling normality test
##
## data: dist
## A = 0.74067, p-value = 0.05021
El Criterio de Cramer Von Mises, utiliza como criterio la distancia mínima de la función de distribución acumulada F en comparación con la función de distribución empírica F_{n}.
w^{2}=\int_{-\infty}^{\infty}\left[F_{n}(x)-F^{*}(x)\right]^{2}dF^{*}(x) El estadístico de prueba W evalua si los datos {Y_{1}<\cdot,<Y_n} proviene de una distribución F:
W=\frac{1}{12n}+\sum_{i=1}^{n}\left(F(x_{i})-\frac{2i-1}{2n}\right)^{2} donde
F(x_{i})=\Phi\left(\frac{\left|x_{(i)}-\bar{x}\right|}{s}\right). Sea, \Phi la función de distribución acumulada de una normal estándar, \bar{x} la media y s la desviación estándar de los valores de la muestra.
El p-value es calculado a partir del estadístico modificado Z=W(1.0 + \frac{0.5}{n}).
Es útil para pequeñas muestras y usa los momentos como criterio.
La prueba de Cramér-Von Mises es una alternativa a la prueba de Kolmogorov-Smirnov.
##
## Cramer-von Mises normality test
##
## data: sd
## W = 0.23633, p-value = 0.001408
##
## Cramer-von Mises normality test
##
## data: dist
## W = 0.12632, p-value = 0.04742
El estadístico de prueba de Lilliefors utiliza la diferencia máxima absoluta entre la función de distribución acumulada empírica y la hipotética. Se puede calcular como D=max\{D^{+},D^{-}\}.
con
D^{+}=\mathop{max}_{i=1,...,n}\left\{\frac{i}{n}-F(X_{i})\right\},
D^{-}=\mathop{max}_{i=1,...,n}\left\{F(X_{i}-\frac{(i-1)}{n}\right\}
donde
F(x_{i})=\Phi\left(\frac{\left|x_{(i)}-\bar{x}\right|}{s}\right). Sea, \Phi la función de distribución acumulada de una normal estándar, \bar{x} la media y s la desviación estándar de los valores de la muestra.
El p-value se calcula a partir de la fórmula de Dallal-Wilkinson(1986), que se afirma que solo es confiable cuando el p-value es menor que 0.1.
Si el p-value de Dallal-Wilkinson resulta ser mayor que 0.1, entoces el p-value se calcula a partir del estadístico modificado Z=D(\sqrt{n}-0.01+\frac{0.85}{\sqrt{n}}). Simplemente, para estimarlo se obtiene mediante una simulación.
Aunque el estadístico de prueba obtenido de lillie.text(x)
es el mismo que el obtenido de ks(x,"pnorm",mean(x),sd(x))
, no es correcto usar el p-value de este último para la hipótesis compuesta de normalidad (media y varianza desconocidas), ya que la distribución del estadístico de prueba es diferente cuando se estiman los parámetros.
Se aplica más ampliamente cuando la muestra es grande.
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: dist
## D = 0.12675, p-value = 0.04335
La prueba de \chi^{2} para la normalidad, compara la distribución observada de los datos con una distribución esperada. Se basa en el siguiente estadístico:
P=\sum_{i}=\frac{(C_{i}-E_{i})^{2}}{E_{i}} donde
C_{i} es el número de observaciones contadas de la clase i y
E_{i} es el número de observaciones esperadas (bajo la hipótesis) de la clase i.Las clases deben estar construidas de tal manera que sean equiprobables bajo la hipótesis de la normalidad.
El p-value se calcula a partir de una distribución \chi^{2} con n.classes-3
grados de libertad si el argumento adjust=TRUE
y de lo contrario se calcula a partir de una distribución \chi^{2} con n.classes-1
grados de libertad. La prueba de \chi^{2} de Pearson generalmente no se recomienda para probar en la hipótesis compuesta de normalidad debido a sus propiedades de potencia son inferiores en comparación con otras pruebas.
El estadístico de prueba \chi^{2} es asintóticamente distribuido con n-1 grados de libertad. Es común calcular el p-value de la distribución de \chi^{2} con n-3 grados de libertad, para ajustar la estimación adicional de dos parámetros. (Para la hipótesis simple de normalidad (media y varianza conocidas). Sin embargo, esto no es correcto siempre que los parámetros se estimen por media(x)
y var(x)
, como generalmente se hace.
Dado que el verdadero p-value está en algún lugar entre los dos, se sugiere ejecutar pearson.test
dos veces, con adjust = TRUE
(predeterminado) y con adjust=FALSE
. También se sugiere cambiar ligeramente el número predeterminado de clases, para ver el efecto en el p-value.
Basada en una distribución \chi^{2} y que corresponde a una prueba de bondad de ajuste.
##
## Pearson chi-square normality test
##
## data: dist
## P = 11.2, p-value = 0.1301
La prueba de Shapiro-Francia es simplemente la correlación al cuadrado entre los valores de la muestra ordenados y los cuantiles esperados (aproximación) de la distribución normal estándar. El p-value se calcula a partir de la fórmula dada por Royston (1993).
Los cuantiles ordenados esperados de la distribución normal estándar se aproximan por qnorm(ppoints(x, a = 3/8))
, siendo ligeramente diferente de la aproximación qnorm(ppoints(x, a = 1/2))
utilizada para el qqnorm
para tamaños de muestra superiores a 10.
Simplificación de la prueba Shapiro-Wilk y este tipo de prueba funciona bien, también el número de datos debe estar entre 5 y 5000.
##
## Shapiro-Francia normality test
##
## data: dist
## W = 0.95206, p-value = 0.04179
La prueba de Frosini para la normalidad se basa en el siguiente estadístico:
B_{n}=\frac{1}{\sqrt{n}\sum_{i=1}^{n}\left|\Phi(Y_{i})-\frac{i-0.5}{n}\right|}
donde
Y_{i}=\frac{X_{(i)}-\bar{X}}{s},
s^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}
##
## Frosini test for normality
##
## data: dist
## B = 0.28686, p-value = 0.0495
La prueba de Geary se basa en el siguiente estadístico:
d=\frac{1}{ns}\sum_{i=1}^{n}|X_{i}-\bar{X}|
donde
s^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}
Usa los valores acumulados muestrales, sus medias y desviaciones estándar.
##
## Geary test for normality
##
## data: dist
## d = 0.81131, p-value = 0.41
La prueba de Hegazy-Green para la normalidad se basa en el siguiente estadístico:
T_{1}=\frac{1}{n}\sum_{i=1}^{n}\left|Y_{i}-\Phi^{-1}\left(\frac{i}{n+1}\right)\right|
donde
Y_{i}=\frac{X_{i}-\bar{X}}{s}, s^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}
##
## Hegazy-Green test for normality
##
## data: dist
## T = 0.16856, p-value = 0.035
La prueba de Jarque–Bera Ajustada para la normalidad se basa en el siguiente estadístico:
AJB=\frac{(\sqrt{b_{1}})^{2}}{Var(\sqrt{b_{1}})}+\frac{(b_{2}-E(b_{2}))^{2}}{Var(b_{2})}
donde
\sqrt(b_{1})=\frac{\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{3}}{\left(\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}\right)^{3/2}},
\sqrt(b_{2})=\frac{\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{4}}{\left(\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}\right)^{2}}
Var(\sqrt{b_{1}})=\frac{6(n-2)}{(n+1)(n+3)},
E(b_{2})=\frac{3(n-1)}{n+1},
Var(b_{2})=\frac{24n(n-2)(n-3)}{(n+1)^{2}(n+3)(n+5)}
El p-value es calculado por una simulación Monte Carlo.
Utiliza un estadístico en la prueba que involucra la curtosis y la asimetría. – Usada por economistas.
##
## Jarque-Bera test for normality
##
## data: dist
## JB = 5.2305, p-value = 0.048
La prueba de Kurtosis para la normalidad se basa en el siguiente estadístico:
b_{2}=\frac{\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{4}}{(\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2})^{2}}
##
## Kurtosis test for normality
##
## data: dist
## T = 3.248, p-value = 0.7005
La prueba de Skewness para la normalidad se basa en el siguiente estadístico:
\sqrt{b_{1}}=\frac{\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}}{(\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2})^{2/3}}
##
## Skewness test for normality
##
## data: dist
## T = 0.78248, p-value = 0.023
La prueba de Spiegelhalter para la normalidad se basa en el siguiente estadístico:
T=\left((c_{n}u)^{-(n-1)}+g^{-(n-1)}\right)^{1/(n-1)}
donde
u=\frac{X_{(n)}-X_{(1)}}{s},
g=\frac{\sum_{i=1}^{n}|X_{i}-\bar{X}|}{s\sqrt{n(n-1)}},
c_{n}=\frac{(n!)^{1/(n-1)}}{2n},
s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}
##
## Spiegelhalter test for normality
##
## data: speed
## T = 1.2295, p-value = 0.7405
La prueba de Weisberg-Bingham para la normalidad se basa en el siguiente estadístico:
WB=\frac{\frac{\sum_{i=1}^{n}m_{i}X_{(i)^{2}}}{\sum_{i=1}^{n}m_{i}^{2}}}{\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}} donde
m_{i}=\Phi^{-1}\left(\frac{1-3/8}{n+1/4}\right)
##
## Weisberg-Bingham test for normality
##
## data: speed
## WB = 0.98416, p-value = 0.65
La prueba de Agostino sirve para medir el nivel de asimetría de una normal en los datos. Bajo la hipótesis de la normalidad, los datos deben ser simétricos (es decir, la asimetría debe ser igual a cero).
##
## D'Agostino skewness test
##
## data: dist
## skew = 0.78248, z = 2.31281, p-value = 0.02073
## alternative hypothesis: data have a skewness
La prueba de Shapiro-Wilk es ampliamente recomendada para la prueba de normalidad y proporciona una mejor potencia que K-S
. Se basa en la correlación entre los datos y las puntuaciones normales correspondientes.
La prueba de normalidad es sensible al tamaño de muestra. Las muestras pequeñas con mayor frecuencia pasan las pruebas de normalidad. Por lo tanto, es importante combinar la inspección visual y la prueba de significación para tomar la decisión correcta.
Es más poderosa cuando se compara con otras pruebas de normalidad cuando la muestra es pequeña.
##
## Shapiro-Wilk normality test
##
## data: dist
## W = 0.95144, p-value = 0.0391
Consiste en representar los datos mediante un histograma y superponer la curva de una distribución normal con la misma media y desviación estándar que muestran los datos.
ggplot(data = cars, aes(x = dist)) +
geom_histogram(aes(y = ..density.., fill = ..count..,color=..count..),alpha=0.7) +
stat_function(fun = dnorm, colour = "#0C3D7D9F", size=2,args = list(mean = mean(dist), sd = sd(dist))) +
theme_bw() +
theme() +
scale_fill_viridis_c() +
scale_color_viridis_c() +
ggtitle("Histograma + curva normal teórica")
Consiste en comparar los cuantiles de la distribución observada con los cuantiles teóricos de una distribución normal con la misma media y desviación estándar que los datos. Cuanto más se aproximen los datos a una normal, más alineados están los puntos entorno a la recta.
Librerías que se usaron
## [1] "qqplotr" "ggplot2" "car" "carData" "moments" "normtest" "nortest"
Juergen Gross, & Uwe Ligges. (2015). Tests for Normality. https://cran.r-project.org/web/packages/nortest/nortest.pdf
Gavrilov, I., Maintainer, R. P., & Pusev, R. (2014). Tests for Normality. https://cran.r-project.org/web/packages/normtest/normtest.pdf
Lukasz Komsta, M. (2015). Moments, cumulants, skewness, kurtosis and related tests . http://www.komsta.net/
This work by Diana Villasana Ocampo is licensed under a Creative Commons Attribution 4.0 International License.