Al analizar varias muestras, podemos estar interesados en verificar sí provienen de la misma población. Sí es asi las muestras pueden tratarse juntas para obtener estimaciones e inferencias más eficientes; por otro lado sí sucede lo contrario no deberiamos usar la muestra total y realizar cualquier proceso de inferencia por separado. Este tipo de problemas son llamados problemas de homogeneidad o ** problemas de k-muestras**.
Los siguientes gráficos son los histogramas de la variable “sepal width” del conjunto de datos Iris para las tres especies diferentes de iris.
#¿Las especies versicolor y virginica comparten un modelo de distribución?
El estadistico de prueba de Kolmogorov-Smirnov también se puede adaptar para comparar dos distribuciones continuas. Supongamos que tenemos dos i.i.d. muestras de dos distribuciones continuas:
\(X_{1}, X_{2},...,X_{n}\) i.i.d muestra de \(X\), con función de distribución \(F\).
\(Y_{1}, Y_{2},...,Y_{m}\) i.i.d muestra de \(Y\), con función de distribución \(G\).
EL problema de las dos_muestras consiste en probar la hipotesis nula.
\[\begin{align*} H_{0}: F(x) &= G(x) \text{. para todo } x. \end{align*}\]contra la alternativa general
\[\begin{align*} H_{1}: F(x) &\neq G(x) \text{.} \end{align*}\]Sea:
\[ \begin{align*} \begin{array}{rrr} F_{n}(x) = \frac{1}{n} \sum_{i=1}^{n} I(X_{i} \leq x)& y & G_{m}(y) = \frac{1}{m} \sum_{j=1}^{m} I(Y_{j} \leq x) \end{array} \end{align*} \] Las funciones de distribución empírica obtenidas de las muestras aleatorias de \(X\) e \(Y\), respectivamente. El estadistico de prueba mide la distancia entre dos funciones empíricas:
\[ \begin{align*} D &= \sup_{x}|F_{n}(x)-G_{m}(x)|. \end{align*} \] En terminos de conveniencia de programación, el estadistico de prueba D se evalua como:
\[ \begin{align*} D &= \max \left\{ \max_{1\leq i\leq n}|F_{n}(X_{i})-G_{m}(X_{i})|, \max_{1\leq j\leq m}|F_{n}(Y_{j})-G_{m}(Y_{j})|\right\} \end{align*} \] O, equivalente,
\[ \begin{align*} D &= \max_{1\leq i\leq n+m} |F_{n}(Z_{i})-G_{m}(Z_{i})|, \end{align*} \] donde \(Z_{1}, Z_{2},...,Z_{n+m}\), es la muestra combinada \(X_{1},...,X_{n},Y_{1},...,Y_{m}\).
Para estudiar el comportamiento de D, ya que es independiente de la distribución F, al ser F continua, tenemos el siguiente proceso de simulación. Para una muestra de tamaño 50, realizaremos 1000 simulaciones y estudiaremos el comportamiento de D.
n <- 50
nsim <- 1000
estadistico <- numeric(nsim)
pvalor <- numeric(nsim)
# Realizar contrastes
for(isim in 1:nsim) {
u <- rexp(n)
v <- rexp(n)# Generar
tmp <- ks.test(u,v)
estadistico[isim] <- tmp$statistic
pvalor[isim] <- tmp$p.value
}
hist(estadistico,border = 'blue')
plot(density(estadistico),col='green',lwd=2,main='Estadistico')
Como notamos, D, sigue una distribución continua.
En todos los casos $X N(0,1) $. EL tamaño de las muestras son \(n=50\) y \(m=75\).
\[
\begin{align*}
D &= \sup_{x} |F_{n}(x)-G_{m}(x)|
\end{align*}
\] Sí la hipotesis nula \(H_{0}\) es verdadera, las funciones empíricas \(F_{n}(X)\) y \(G_{m}(X)\), estarían probablemente cerca una de otra, ya que ambas son estimadores de la función de distribución común. Entonces bajo \(H_{0}\), esperamos valores pequeños para D.
Por otro lado, cuando la hipotesis nula no es verdadera, cada función de distribución empírica estimará la distribuciónn de la población correspondiente, y así el estadistico de prueba D tomará valores grandes.
La hipótesis nula \(H_{0}\) de igualdad entre las distribuciones es rechazada por grandes valores del estadástico de prueba D. La región cítica de la prueba es de la forma \(\{ D> c \}\). El valor crítico \(c\) se obtiene de la distribución de \(D\) bajo la hipótesis nula. Como veremos en el siguiente lema, la distribución del estadístico de prueba \(D\) bajo la hipótesis nula no depende de la función de distribución común.
Sean F y G funciones de distribución continua, entonces bajo la hipotesis nula \(H_{0}: F=G\), la distribución de \(D=\sup_{x}|F_{n}(x)-G_{m}(x)|\) no depende de la función de distribución común \(F = G\)
Cuando \(u\) cubre el intervalo \((0, 1)\), la función de cuantil \(F^{-1}(u)\) cubre el soporte de la distribución \(F\) y \(G\). Entonces. \[ \begin{align*} D &= sup_{x}|F_{n}(x)-G_{m}(x)| = sup_{u}|F_{n}(F^{-1}(u))-G_{m}(F^{-1}(u))|. \end{align*} \] Notemos que: \[ \begin{align*} F_{n}(F^{-1}(u)) &= \frac{\text{número de } X_{i} \leq F^{-1}(u) }{n}= \frac{\text{número de } F(X_{i}) \leq u) }{n} \end{align*} \]
Claramente, \(F_{n}(F^{-1}(u)\) es la función de distribución empírica de la muestra \(F(X_{1}), F(X_{2}),. . ., F(X_{n})\), que es un muestra i.i.d. de una uniforme \([0,1]\) distribución. Obviamente, lo mismo ocurre con \(Gm(F^{-1}(u))\). Entonces la distribución de \(D\) no depende de \(F\).
La distribución de \(D\) bajo la hipotesis nula puede obtenerse por técnicas combinatorias y gráficas.
Para valores pequeños de \(n\) y \(m\), la distribución de \(D\) bajo la hipotesis nula está tabulada.
Por ejemplo, cuando \(n=m\), los valores críticos de la prueba para un nivel de significancia \(\alpha \leq 0.05\) son:
\[\begin{array}{ccc} n=m & 25 & 26 & 27 & 28 & 29 & 30 & 31 & 32 \\ & 9/25 & 9/26 & 9/27 & 9/28 & 9/29 & 9/30 & 9/31 & 9/32 \\ n=m & 33 & 34 & 35 & 36 & 37 & 38 & 39 & 40 \\ & 11/25 & 11/26 & 11/27 & 11/28 & 11/29 & 11/30 & 11/31 & 11/32 \\ \end{array}\]La distribución asintótica de \(D\) bajo la hipotesis nula se da en el siguiente teorema probado por Smirnov.
Sea \(F=G\) continuo. Entonces, cuando \(n,m \to \infty\), \[ \begin{align*} P\left( \sqrt{\frac{nm}{n+m}} D \leq z \right) &\to 1+2\sum_{k=1}^{\infty}(-1)^{k}exp(-2k^{2}z^{2}) \end{align*} \]
Los valores críticos de la prueba, para valores moderados y grandes de \(n\) y \(m\) pueden ser obtenido del teorema anterior. Las aproximaciones válidas son:
#Para n y m grandes.
En \(R\), la función ks.test() realiza pruebas de Kolmogorov-Smirnov de una muestra y de dos muestras. Las salidas son el valor observado del estadístico de prueba y el p-valor() de la prueba solicitada.
Además de la prueba de homogeneidad con la alternativa general de dos lados, en muchas situaciones aplicadas es de interés probar las alternativas de un solo lado:
\[ \begin{align*} &H_{0}: F(x)= G(x) \text{, versus.}\\ &H_{1}: F(x)\geq G(x). \end{align*} \]
Donde \(F(x) \geq G(x)\) significa que \(F(x)>G(x)\) para almenos un valor de \(x\).
La interpretación de alternativas unilaterales es la siguiente.
Tenga en cuenta que:
\[\begin{align*} \begin{array}{ccc} F(x) \geq G(x) & \text{sí y solo sí} & P(X\leq x) \geq P(Y \leq x) \end{array} \end{align*}\]Así que:
\[\begin{align*} \begin{array}{ccc} F(x) \geq G(x) & \text{sí y solo sí} & P(X > x) \leq P(Y > x) \end{array} \end{align*}\]Así, \(F(x) \geq G(x)\) significa que la variable aleatoria \(Y\) tiende a ser mayor que la variable aleatoria \(X\). En ese caso, decimos que \(Y\) es estocásticamente mayor que \(X\).
En caso de que deseemos realizar una prueba con una alternativa unilateral
\[ \begin{align*} &H_{0}: F(x)= G(x) \text{, versus.}\\ &H_{1}: F(x)\geq G(x). \end{align*} \] Debemos usar el estadístico de prueba
\[ \begin{align*} D^{+} = \sup_{x}(F_{n}(x)-G_{m}(x)) \end{align*} \]
y rechazar la hipótesis nula para valores grandes del estadístico de prueba.
El conjunto de datos de EXPENDITURES contiene información sobre los gastos mensuales de varios hogares holandeses durante el período de octubre de 1986 a septiembre de 1987. Las variables son:
Nos centraremos en los hogares que constan de 2, 3 y 4 miembros.
b. Realice la prueba por grupos de dos poblaciones (hogares con 2 y 3 miembros, 2 y 4 miembros, 3 y 4 miembros).
Usando una prueba de Kolmogorov-Smirnov. Para la variable ‘Food’, ¿Usará una alternativa de dos caras o una alternativa de una cara?
Se usará una laternativa de dos caras
Para hogares con 2 y 3 miembros tenemos:
## Warning: package 'readxl' was built under R version 3.5.3
## readxl works best with a newer version of the tibble package.
## You currently have tibble v1.4.2.
## Falling back to column name repair from tibble <= v1.4.2.
## Message displays once per session.
ks.test(comida1,comida2)
##
## Two-sample Kolmogorov-Smirnov test
##
## data: comida1 and comida2
## D = 0.26541, p-value = 0.01127
## alternative hypothesis: two-sided
#Aceptamos que siguen la misma distribución.
Para hogares con 3 y 4 miembros tenemos:
ks.test(comida2,comida3)
##
## Two-sample Kolmogorov-Smirnov test
##
## data: comida2 and comida3
## D = 0.17534, p-value = 0.3125
## alternative hypothesis: two-sided
#Aceptamos que siguen la misma distribución
Para hogares con 2 y 4 miembros tenemos:
ks.test(comida1,comida3)
##
## Two-sample Kolmogorov-Smirnov test
##
## data: comida1 and comida3
## D = 0.3491, p-value = 1.012e-05
## alternative hypothesis: two-sided
#Rechazamos que siguen la misma distribución.
Para dos muestras de tamaño \(n = 2\) y \(m = 4\), encuentre la distribución exacta del estadístico de prueba de Kolmogorov-Smirnov para la prueba \(H_{0}:\) \(F(x) = G(x)\) versus \(H_{1}:\) \(F(x) \geq G(x)\) .
Como D, es independiente de la distribucion de F, G, realizaremos un proceso de simulación para estimar el valor exacto del estadítstico D analizando a donde converge la media.
n <- 2
m <- 4
nsim <- 1000
estadistico <- numeric(nsim)
pvalor <- numeric(nsim)
# Realizar contrastes
for(isim in 1:nsim) {
u <- rexp(n)
v <- rexp(m)# Generar
tmp <- ks.test(u,v)
estadistico[isim] <- tmp$statistic
pvalor[isim] <- tmp$p.value
}
mean(estadistico)
## [1] 0.6185
plot(1:nsim, cumsum(estadistico)/(1:nsim),col='orange',lwd=2, type="l", ylab="Media muestral",
xlab="Nº de simulaciones")
a. Genere dos muestras de tamaños \(n = 50\) y \(m = 25\) a partir de la distribución \(X \sim U[0,1]\). Use la prueba de Kolmogorov-Smirnov para verificar la igualdad de las distribuciones correspondientes.
X <- rnorm(50)
Y <- rnorm(25)
ks.test(X,Y)
##
## Two-sample Kolmogorov-Smirnov test
##
## data: X and Y
## D = 0.24, p-value = 0.28
## alternative hypothesis: two-sided
#Aceptamos que las muestras siguen la misma distribución.
b. ¿Cuál es la función de distribución teórica de \(X^{2}\)? Dibujelo
Como X y Y siguen la misma distribución trabajaremos con la muestra agrupada.
X2 <- X^(2)
hist(X2,border = 'orange')
plot(density(X2),col='red',lwd=2,main="X^2")
La distribución teoríca de \(X^{2}\) es una \(X^{2}\) con n grados de libertad.
c. Elevar al cuadrado las observaciones en la segunda muestra. A continuación, olvidé que ha elevado al cuadrado la segunda muestra y pruebe la igualdad de las distribuciones.
Y2 <- Y^(2)
ks.test(X2,Y2)
##
## Two-sample Kolmogorov-Smirnov test
##
## data: X2 and Y2
## D = 0.18, p-value = 0.6372
## alternative hypothesis: two-sided
Aceptamos que \(X^{2}\), y \(Y^{2}\) tienen la misma distribución.
d. Repita los procedimientos de prueba en (a) y (c) (con nuevas muestras, por supuesto) 1000 veces. ¿Cuál es la proporción de valores de p superior al 5%?
n <- 50
m <- 25
nsim <- 1000
estadistico <- numeric(nsim)
pvalor <- numeric(nsim)
# Realizar contrastes
for(isim in 1:nsim) {
u <- rnorm(n)
v <- rnorm(m)# Generar
tmp <- ks.test(u,v)
estadistico[isim] <- tmp$statistic
pvalor[isim] <- tmp$p.value
}
hist(estadistico,border = 'blue')
plot(density(estadistico),col='blue',lwd=2,main='Estadistico')
s <<-0
for (i in 1:nsim) {
if(pvalor[i]>0.05){
s <<- s+1
}
}
Proporcion <- s/nsim
{
cat("Proporción=", Proporcion )
}
## Proporción= 0.979
Considere otros tamaños de muestra (por ejemplo, \(n = 25, 50, 100\) y \(m = 25, 50, 100\)). Preparar una tabla con las proporciones de rechazo en cada caso. Comenta el comportamiento de la prueba (nivel de aproximación y potencia).
tn <- c(25,50,100)
tm <- c(25,50,100)
Proporciones <- matrix(nrow=3,ncol=3)
for (i in 1:3) {
for(j in 1:3){
n <- tn[i]
m <- tm[j]
nsim <- 1000
estadistico <- numeric(nsim)
pvalor <- numeric(nsim)
for (isim in 1:nsim) {
u <- rnorm(n)
v <- rnorm(m)
tmp <- ks.test(u,v)
estadistico[isim] <- tmp$statistic
pvalor[isim] <- tmp$p.value
}
s <<- 0
for (k in 1:nsim) {
if(pvalor[k]>0.05){
s <<- s+1
}
}
Proporciones[i,j] <- (s/nsim)
}
}
## [,1] [,2] [,3]
## [1,] 0.962 0.952 0.953
## [2,] 0.957 0.956 0.951
## [3,] 0.954 0.960 0.965
Como en la configuracion de bondad de la prueba de Kolmogorov-Smirnov para la homogeneidad se basa principalmente en el proceso empírico.
\[ \begin{align*} F_{n}(x) - G_{m}(x)\text{, } -\infty < x < \infty. \end{align*} \] Además del supremo se pueden considerar otros funcionales continuos. Por ejemplo, el estadástico de Cramér-von Mises para la homogeneidad es:
\[ \begin{align*} D &= \int_{-\infty}^{\infty} (F_{n}(x)-G_{m}(x))^{2}dH_{n+m}(x) \end{align*} \]
donde \(H_{n+m}\) denota la función de distribución empírica de la muestra conjunta \(Z_{1}, Z_{2},. . . , Z_{n+m}\) \((Z_{i} = X_{i}\) para $ i = 1, …, n$, y $Z_{i} = Y_{i} $ para $ i = n + 1,. . . , n + m)$. En la práctica, el Cramér-von Mises se evalúa como:
\[ \begin{align*} D &= \frac{1}{n+m} \sum_{i=1}^{n+m}(F_{n}(Z_{i}) - G_{m}(Z_{i}) )^{2} \end{align*} \]
Bajo la hipótesis nula \(H_{0}: F(x) = G(x)\), la distribución de \(D\) no depende de \(F = G\) (¿por qué?), y se puede aproximar mediante simulaciones. Un inconveniente del estadístico de Cramér-von Mises con respecto al estadístico de Kolmogorov-Smirnov es que no se puede adaptar para probar alternativas unilaterales. (¿por qué?).
Las pruebas anteriores se pueden generalizar para probar la igualdad de k-distribuciones. Donde \(X_{1}, ... ,X_{k}\) son \(k\) variables aleatorias independientes con funciones de distribución \(F_{1}, ... ,F_{k}\), respectivamente, El interés ahora es probar la igualdad de las distribuciones de las \(k\) variables aleatorias. La hipótesis nula es:
\[ \begin{align*} H_{0}: F_{1} = ... = F_{k} \end{align*} \]
Y la hipótesis alternativa es \(H_{1}: H_{0}\) no es cierta.