1 Ejercicios y problemas estadística no paramétrica

Lea cuidadosamente y responde las siguientes ejercicios

1.1 Prueba de proporciones

1.1.1 Ejercicio 1 [Escrito por Ayrton Pablo Almada]

Suponga que adquiere un portafolio de instrumentos financieros, el broker le asegura que dicho portafolio esta formado de tal manera que a lo más el 25% de los activos presentan rendimientos negativos. Una vez adquirido el portafolio, usted observa que 24 de los 80 instrumentos que conforman la cartera presentan rendimientos negativos. ¿Es razonable suponer que el portafolio tiene a lo más 25% de activos que presentan rendimientos negativos?. Realiza lo siguiente:

1.1.1.1 a) Establecer \(H_o~\text{vs.}~H_a\)

\(\underline{\text{Solución:}}\)

Vamos a considerar una muestra aleatoria \(\{X_i\}_{i=1}^{n}\) con distibución Bernoulli de parámetro \(p\), (suponemos esta distribución ya que se nos habla de dos clases de rendimientos de activos: ‘rendimientos negativos’ ó ‘rendimientos no negativos’, por lo que \(p\) representa la probabilidad de que un activo tenga ‘rendimientos negativos’), por lo tanto nuestra prueba de hipótesis será de la forma:

\[H_o:~p\le p^*~\text{vs.}~H_a:~p\ge p^*\]

Y dado que se nos especifica que ‘a lo más el 25 % de los activos presentan rendimientos negativos’ nuestra \(p^*\) será igual a \(p^*=0.25\), resultando en que:

\[H_o:~p\le p^*=0.25~\text{vs.}~H_a:~p> p^*=0.25\] bajo el supuesto de que:

\[\{X_i\}_{i=1}^{n}~:~X_i\sim\text{Blli}(p)\] \(_\blacksquare\)

1.1.1.2 b) Encontrar la región de rechazo de la prueba binomial con un nivel de confianza 95%.

\(\underline{\text{Solución:}}\)

Empecemos aclarando lo siguiente. Sea \(n=80\), \(\alpha=0.05\) tal que el nivel de significancia sea \(1-\alpha=0.95\)

\[\forall_{j,i=1,...,n}~X_i\sim\text{Blli}(p)~,~X_i\perp X_j~~\text{si}~i\ne j\implies T=\sum_{i=1}^{n}\mathbb{I}_{\{X_i=1\}}\sim\text{Binom}(n,p)\]

Donde \(\mathbb{I}_{\{X_i=1\}}\) es la función indicadora del evento \(X_i=1\). Nótese que el estadístico \(T=\sum_{i=1}^{n}\mathbb{I}_{\{X_i=1\}}\) representa la cantidad de instrumentos que presentan rendimientos negativos. Por lo que, sea \(Y\sim\text{Binom}(80,0.25)\), dado que \(T=24\) y como \(\alpha=0.05\), vamos a buscar un cuartil \(t\in\mathbb{Z}\) tale que:

\[\mathbb{P}[Y>t]=0.025\] De forma que nuestra regla de rechazo es si \(T>t\), en otro caso, no se rechaza la hipótesis nula. Se tienen dos posibles resultados:

\[\mathbb{P}[Y>t=27]=0.02949574\] \[\mathbb{P}[Y>t=28]=0.01662971\] Por lo tanto, la región de rechazo con nivel de confianza 95% es \[\{X\in(\{0,1\})^n~:~T(X)>28\}\] En otras palabras, no rechazaremos la hipótesis de que la proporción de activos con rendimientos sea menor o igual al \(0.25\), puesto que el estadístico \(T\) evaluado en la muestra es \(T=24<28\).

prop.test(24,80,p=0.25,alternative=c("greater"),conf.level=0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  24 out of 80, null probability 0.25
## X-squared = 0.81667, df = 1, p-value = 0.1831
## alternative hypothesis: true p is greater than 0.25
## 95 percent confidence interval:
##  0.21784 1.00000
## sample estimates:
##   p 
## 0.3

\(_\blacksquare\)

1.1.2 Ejercicio 2 [Escrito por Hugo Reyna Castañeda]

El gobierno de cierto país reportó al consejo de la ciudad que al menos el 60% de los residentes están a favor de la emisión de bonos gubernamentales. Un grupo opositor seleccionó una muestra aleatoria de 150 miembros y se le preguntó su opinión de la emisión de los bonos dando como resultado que 52 están a favor.

1.1.2.1 a) Establecer \(H_o~\text{vs.}~H_a\)

\(\underline{\text{Solución:}}\)

Utilizando el mismo razonamiento que en el Ejercicio 1 y tendremos que

\[H_o:~p\ge p^*=0.6~\text{vs.}~H_a:~p<p^*=0.6\] \(_\blacksquare\)

1.1.2.2 b) Encontrar la región de rechazo de la prueba binomial con un nivel de confianza 90%.

\(\underline{\text{Solución:}}\)

Dado que ahora \(\alpha=0.1\), se necesita buscar a \(t\) que cumpla con:

\[\mathbb{P}[Y<t]=0.05\]

Donde \(Y\sim\text{Binom}(150,0.6)\), tenemos los siguientes resultados

\[\mathbb{P}[Y<t=79]=0.0408614\] \[\mathbb{P}[Y<t=80]=0.05745956\] Por lo tanto, la región de rechazo con nivel de confianza 90% es \[\{X\in(\{0,1\})^n~:~T(X)<79\}\]

prop.test(52,150,p=0.6,alternative=c("less"),conf.level=0.90)
## 
##  1-sample proportions test with continuity correction
## 
## data:  52 out of 150, null probability 0.6
## X-squared = 39.062, df = 1, p-value = 2.052e-10
## alternative hypothesis: true p is less than 0.6
## 90 percent confidence interval:
##  0.0000000 0.4012894
## sample estimates:
##         p 
## 0.3466667

\(_\blacksquare\)

1.1.2.3 c) Calcula el p-value de la prueba anterior.

\(\underline{\text{Solución:}}\)

Al realizar la prueba con el p-value se confirma la suposición de rechazar la prueba de hipótesis:

\[\text{p-value}=\mathbb{P}[Y\le T]=\mathbb{P}[Y\le 52]=3.352472e-10\] \(_\blacksquare\)

1.1.2.4 d) ¿Es razonable el reporte que presento el gobierno?

\(\underline{\text{Solución:}}\)

Puesto que el p-value de la prueba de hipótesis en menor al nivel de significancia \(\alpha=0.1\) entonces se rechaza la hipótesis nula, la cual suponía que al menos el 60% residentes están a favor de la emisión de bonos gubernamentales. Por lo tanto NO es razonable el reporte que presento el gobierno. \(_\blacksquare\)

1.2 Prueba de Rachas

1.2.1 Ejercicio 1 [Escrito por Ayrton Pablo Almada]

Suponga que compra el boleto para una rifa, el boleto le da la oportunidad de ganar alguno de los 20 premios disponibles. El organizador asegura que el procedimiento es completamente aleatorio. Para el día de la rifa se han vendido 100 boletos y los boletos ganadores fueron:

        27  57  15  10  74  51  31  86  56   6
        17  77   3  43  44  65   4   5  48  98
  

Usted duda quiere comprobar la hipótesis del organizador, que los resultados fueron aleatorios, con un nivel de significancia del 5%.

\(\underline{\text{Solución:}}\)

Dado que se tiene múltiples datos y la prueba de corridas es dicotómica, se procede a categorizar los resultados para formar dos subclases ambas excluyentes la una de la otra. Para se escoge como medida la mediana, en este caso la mediana de la muestra es 43.5.

Los valores que son menores a la mediana se les asignará la letra ‘p’, y los que son mayores a la mediana se les asignará la letra ‘q’, de esta manera con la nueva asignación se genera una muestra aleatoria dicotómica.

Boletos<-c(27,57,15,10,74,51,31,86,56,6,17,77,3,43,44,65,4,5,48,98)#Vector de Boletos premiados
Mediana<-median(Boletos)#43.5
Clases<-dplyr::case_when(Boletos>Mediana~'q',Boletos<=Mediana~'p',TRUE ~ as.character(Boletos))
Clases
##  [1] "p" "q" "p" "p" "q" "q" "p" "q" "q" "p" "p" "q" "p" "p" "q" "q" "p"
## [18] "p" "q" "q"

Se tienen contabilizan las frecuencias de las variables dicotómicas, de forma tal que \(n_1=10,n_2=10\).

Con un nivel de significancia \(\alpha=0.05\) y con las subrachas \(n_1=10\) y \(n_2=10\), se procede a buscar las estadísticas \(W^{0.025}\) y \(W^{0.975}\), de manera tal que (si \(n_1,n_2<20\)):

W_1=randtests::qruns(0.025,10,10)
W_2=randtests::qruns(0.975,10,10)

paste("W_1 = ",W_1)
## [1] "W_1 =  7"
paste("W_2 = ",W_2)
## [1] "W_2 =  15"

Dado que \(n_1=n_2=10\), tenemos que:

\[R=12>4=W^{0.025}~\text{y}~R=12<15=W^{0.975}\]

tseries::runs.test(as.factor(Clases))
## 
##  Runs Test
## 
## data:  as.factor(Clases)
## Standard Normal = 0.45947, p-value = 0.6459
## alternative hypothesis: two.sided

De esta manera la estadística R no cae en la región de rechazo, por lo que no se rechaza la hipótesis nula, asumiéndose así con un nivel de significancia del 5 %, que el organizador efectivamente realizo la rifa de manera aleatoria. Eso y además de que el p_value es del \(0.8016>\alpha=0.05\) \(_\blacksquare\)

1.2.2 Ejercicio 2 [Escrito por Ayrton Pablo Almada]

El equipo de fútbol de Nuevo Toledo tiene la siguientes resultados durante su actual temporada

        p  vvv  p   vv  pp  vv  p  v  ppp  

Donde v hace referencia a una victoria, mientras que p hace referencia a una derrota. Usted quiere comprobar la hipótesis que la resultados fueron aleatorios, con un nivel de significancia del 1 %.

\(\underline{\text{Solución:}}\)

Se tienen contabilizan las frecuencias de las variables dicotómicas, de forma tal que \(n_1=8,n_2=8\)

Con un nivel de significancia \(\alpha=0.01\) y con las subrachas \(n_1=8\) y \(n_2=8\), realizaremos la pruebas obteniendo y comparando el p-value, por esa razón ocuparemos el siguiente código:

set.seed(2020)
Partidos<-c('p','v','v','v','p','v','v','p','p','v','v','p','v','p','p','p')
Clases2<-dplyr::case_when(Partidos=='p'~1,Partidos!='p'~0)
P<-as.factor(Clases2)
tseries::runs.test(P)
## 
##  Runs Test
## 
## data:  P
## Standard Normal = 0, p-value = 1
## alternative hypothesis: two.sided

De esta manera el p-value de la prueba de hipótesis de de \(1>0.01=\alpha\), por lo tanto se acepta la hipótesis que la resultados fueron aleatorios. \(_\blacksquare\)

1.3 Prueba de Bondad de Ajuste

1.3.1 Ejercicio 1 [Escrito por Jesús Balam Rodríguez]

En la prueba de Kolmogorov-Smirnov y Lilliefors demostrar que la función empírica \(F_n\) es un estimador insesgado.

\[ F_n(x_i)= \frac{\sum_{i=1}^n\mathbb{I}_{(x_i\le x)}}{n} \]

\(\underline{\text{Solución:}}\)

Un estimador \(T(\underline{X})\) es insesgado para una función del parametro \(\theta\), \(\tau(\theta)\) si \(E[T(\underline{X})]=\tau(\theta)\)

La distribución empírica se define como

\[F_n(x_i)= \frac{\sum_{i=1}^n\mathbb{I}_{(x_i\le x)}}{n}\]

\[ \mathbb{E}[F_n(X_i)]=_{(1)}\mathbb{E}\left[\frac{\sum_{i=1}^n\mathbb{I}_{X_i\le x}}{n}\right]=_{(2)}\frac{n\mathbb{P}[X_i\le x]}{n}= \mathbb{P}[X_i\le x]=F(X_i) \] \((1)\) Solo es la definición de \(F_n(x_i)\).

\((2)\) Como \(\mathbb{I}_{x_i\le x}\sim\text{Blli}(\mathbb{P}[X_i\le x]) = \text{Blli}(F(X_i))\) pues se puede dar bien que \(x_i\le x\) o que \(x_i>x\) entonces se puede modelar como una variable Bernoulli y tomando que el éxito es \(x_i\le x\) entonces la probabilidad de éxito es justamente \(\mathbb{P}[X_i\le x]\), luego la suma de variables Bernoulli es una distribución binomial con parametros n y \(\mathbb{P}[X_i\le x]\) en este caso, la esperanza de dicha distribucion es \(n\mathbb{P}[X_i\le x]\).

Por lo tanto \(F_n(X_i)\) es insesgado. \(_\blacksquare\)

1.3.2 Ejercicio 2 [Escrito por Hugo Reyna Castañeda]

En la Prueba de Kolmogorov-Smirnov muestre que: \[ D_n=\sup_{x \in \mathbb{R}} \left|S_n(X_i)-F_{x}^{\ast}(X_i) \right|=\max\left\{\max\{S_n(X_{i-1})-F_x^{\ast}(X_i) \}, \max\{S_n(X_{i})-F_x^{\ast}(X_i) \} \right\} \] \(\underline{\text{Solución:}}\)

Demostración: Sea \(X_1,\ldots,X_n\) una muestra de variables aleatorias identicamente distribuidas, \(x \in \mathbb{R}\), \(S_n\) y \(F_x^{\ast}\) las funciones de distribución empírica y propuesta respectivamente.

Definamos por: \[ \begin{aligned} D_n^{+}&:=\max\{S_n(X_{i})-F_x^{\ast}(X_i) \} \\ D_n^{-}&:=\max\{S_n(X_{i-1})-F_x^{\ast}(X_i) \}\\ \end{aligned} \] Entonces, si definimos las estadísticas \(X_{(0)}:=-\infty\) y \(X_{(n+1)}:=\infty\) y suponesmos que la función real de los datos que se quiere comprobar sigue una distribución continua se tiene que: \[ S_n(X_i)=\frac{i}{n}\,\,\,\,\,\,\mbox{para}\,\, X_{(i)} \leq x \leq X_{(i+1)}\,\,\mbox{con}\,\,\, i=0,\ldots,n \] Por lo tanto, \(D_n^{+}\) se pueden escribir como: \[ \begin{aligned} D_n^{+}&=\sup_{x \in \mathbb{R}}(S_n(X_{i})-F_x^{\ast}(X_i) ) \\ &=\max_{0 \leq i \leq n}\left\{ \sup_{X_{(i)}\leq x \leq X_{(i+1)}}(S_n(X_{i})-F_x^{\ast}(X_i) ) \right\}\\ &=\max_{0 \leq i \leq n}\left\{ \sup_{X_{(i)}\leq x \leq X_{(i+1)}}\left(\frac{i}{n}-F_x^{\ast}(X_i) \right) \right\}\\ &=\max_{0 \leq i \leq n}\left\{ \left(\frac{i}{n}- \inf_{X_{(i)}\leq x \leq X_{(i+1)}} F_x^{\ast}(X_i) \right) \right\}\\ &=\max_{0 \leq i \leq n}\left\{ \left(\frac{i}{n}- F_x^{\ast}(X_i) \right) \right\}\\ &=\max\left\{\max_{0 \leq i \leq n}\left\{ \left(\frac{i}{n}- F_x^{\ast}(X_i) \right) \right\} ,0 \right\}\\ \end{aligned} \] De manera análoga, \(D_n^{-}\) se puede escribir como: \[ \begin{aligned} D_n^{-}&=\sup_{x \in \mathbb{R}}(S_n(X_{i-1})-F_x^{\ast}(X_i) ) \\ &=\max_{0 \leq i \leq n}\left\{ \sup_{X_{(i)}\leq x \leq X_{(i+1)}}(S_n(X_{i-1})-F_x^{\ast}(X_i) ) \right\}\\ &=\max_{0 \leq i \leq n}\left\{ \sup_{X_{(i)}\leq x \leq X_{(i+1)}}\left(\frac{i}{n}-F_x^{\ast}(X_i) \right) \right\}\\ &=\max_{0 \leq i \leq n}\left\{ \left(\frac{i-1}{n}- \inf_{X_{(i)}\leq x \leq X_{(i+1)}} F_x^{\ast}(X_i) \right) \right\}\\ &=\max_{0 \leq i \leq n}\left\{ \left(\frac{i-1}{n}- F_x^{\ast}(X_i) \right) \right\}\\ &=\max\left\{\max_{0 \leq i \leq n}\left\{ \left(\frac{i-1}{n}- F_x^{\ast}(X_i) \right) \right\} ,0 \right\}\\ \end{aligned} \] Así pues, la estadística \(D_n\) se comporta como: \[ \begin{aligned} D_n &=\sup_{x \in \mathbb{R}} \left|S_n(X_i)-F_{x}^{\ast}(X_i) \right| \\ &=\max\left\{ \max_{0 \leq i \leq n}\left\{ \left(\frac{i-1}{n}- F_x^{\ast}(X_i) \right) \right\} , \max_{0 \leq i \leq n}\left\{ \left(\frac{i}{n}- F_x^{\ast}(X_i) \right) \right\} ,0 \right\}\\ &=\max\left\{ \max\left\{\max_{0 \leq i \leq n}\left\{ \left(\frac{i-1}{n}- F_x^{\ast}(X_i) \right) \right\} ,0 \right\} , \max\left\{\max_{0 \leq i \leq n}\left\{ \left(\frac{i}{n}- F_x^{\ast}(X_i) \right) \right\} ,0 \right\} \right\} \\ &=\max\{D_n^{-},D_n^{+} \}.\,\, \blacksquare \end{aligned} \]

\(_\blacksquare\)

1.3.3 Ejercicio 3 [Escrito por Carlos Alberto Gómez Correa]

La siguiente muestra aleatoria hace referencia a los rendimientos positivos de cierta acción a lo largo del tiempo:

0.2513, 0.2566, 0.3459, 0.6379, 2.0505, 1.803, 2.1906, 1.5299, 0.35005, 0.3128, 1.2726, 2.3674, 2.3214, 2.4373, 0.6548.

1.3.3.1 a).

Usted piensa que la anterior muestra sigue una distribucion normal, realiza la prueba correspondiente para verificar que su suposicion es cierta con un nivel de confianza del 90 %.

\(\underline{\text{Solución:}}\)

Al buscar un nivel de confianza \(1-\alpha=90\%\), entonces \(\alpha=10\%\) Dado que no conocemos los parametros de la distribucion normal a probar, procedamos mediante la prueba de Lilliefors. Deseamos probar

\[H_0: \text{La muestra} \sim N(\mu, \sigma^2) ~\text{ vs. }~ H_a:\text{La muestra} \nsim N(\mu, \sigma^2)\]

rend=c(0.2513, 0.2566, 0.3459, 0.6379, 2.0505, 1.803, 2.1906,1.5299, 0.35005, 0.3128, 1.2726, 2.3674, 2.3214, 2.4373, 0.6548)
# lillie.test(rend)

# 
# x = rnorm (1000 ,0 ,1)
# f = ecdf (rend)
# plot (f , xlab =" observados ", ylab =" funcion de probabilidad ", main ="
# muestra con 1000 valores ", col =" darkcyan ")
# curve ( pnorm (x , 1.5 , 1) , add= TRUE , col="red")

Dado que no conocemos los parametros de la distribucion normal a probar, procedamos mediante la prueba de Lilliefors.Despues de ordernar los datos de menor a mayor, procedamos al calculo de la media \(\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i\) y la varianza \(s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2\)

rend_ord=sort(rend)
rend_bar=mean(rend_ord)
rend_var=var(rend_ord)

paste("La media muestal es: ",rend_bar)
## [1] "La media muestal es:  1.25213666666667"
paste("La varianza muestral es: ",rend_var)
## [1] "La varianza muestral es:  0.781079375880952"

Procedemos a calular la función de distribución empírica \(S_n(x)=\frac{1}{n}\sum_{i=1}^{n}\mathbb{I}_{\{X_i\le x\}}\), es decir:

\[S_n(x)=\begin{cases} \frac{1}{15} &\mbox{if } x<X_1 \\ \frac{2}{15} &\mbox{if } X_1\le x<X_2 \\ \vdots \\ 1 &\mbox{if } x\ge X_{15} \end{cases}.\]

Y, análogamente, obtenemos la funcion empirica retrasada: \[S_n^-(x)=\begin{cases} 0 &\mbox{if } x<X_1 \\ \frac{1}{15} &\mbox{if } X_1\le x<X_2 \\ \vdots \\ \frac{14}{15} &\mbox{if } x\ge X_{15} \end{cases}.\]

Después, efectuemos el cálculo de la distribucion normal teórica \(F(x_i)\) para ese conjunto de datos. En este último punto, se normalizaran los datos para obtener \(z_i=\frac{x_i-\bar{x}_i}{s^2}\) y se facilite la comparación con los valores teóricos de una función de distribución normal estándar.

n<-length(rend)
normal_z<-c()
Sn<-c()
Fx<-c()
#Normalizando los valores
for(i in 1:n){
  
  normal_z[i]=(rend_ord[i]- rend_bar )/rend_var
  }

#Funcion de distribucion empirica
for(i in 1:n){
  
  Sn[i]=i/n
}

#Funcion de distribucion teorica

for(i in 1:n){
  
  Fx[i]=pnorm(normal_z[i],mean = 0,sd = 1)
}

Mediante la comparación,se pueden realizar las diferencias en valor absoluto de la distribucion teórica y la distribucion empírica, es decir \(|S_n(z_i)-F(z_i)|\) y \(|S_n(z_{i-1})-F(z_i)|\)

diff_F<-c()
diff_F_retraso<-c()
for (i in 1:n){
  diff_F[i]=abs(Fx[i]-Sn[i])
  
  }

diff_F_retraso[1]=Fx[1]
for (i in 2:n){
 
    diff_F_retraso[i]=abs(Fx[i]-Sn[i-1])
  }

Una vez efectuados estos cálculos, se obtiene la siguiente tabla:

library(knitr)
resumen<-cbind(rend,rend_ord,normal_z,Sn,Fx,diff_F,diff_F_retraso)
colnames(resumen)<-c("X_i","X_i ord","Z_i","Sn(z_i)","F(z_i)",
                     "Di+","Di-")
X_i X_i ord Z_i Sn(z_i) F(z_i) Di+ Di-
0.25130 0.25130 -1.2813508 0.0666667 0.1000352 0.0333686 0.1000352
0.25660 0.25660 -1.2745653 0.1333333 0.1012316 0.0321018 0.0345649
0.34590 0.31280 -1.2026136 0.2000000 0.1145629 0.0854371 0.0187704
0.63790 0.34590 -1.1602363 0.2666667 0.1229763 0.1436904 0.0770237
2.05050 0.35005 -1.1549232 0.3333333 0.1240609 0.2092724 0.1426057
1.80300 0.63790 -0.7863947 0.4000000 0.2158181 0.1841819 0.1175152
2.19060 0.65480 -0.7647580 0.4666667 0.2222078 0.2444588 0.1777922
1.52990 1.27260 0.0261988 0.5333333 0.5104506 0.0228827 0.0437839
0.35005 1.52990 0.3556147 0.6000000 0.6389354 0.0389354 0.1056021
0.31280 1.80300 0.7052591 0.6666667 0.7596755 0.0930088 0.1596755
1.27260 2.05050 1.0221283 0.7333333 0.8466399 0.1133066 0.1799732
2.36740 2.19060 1.2014955 0.8000000 0.8852205 0.0852205 0.1518871
2.32140 2.32140 1.3689560 0.8666667 0.9144935 0.0478268 0.1144935
2.43730 2.36740 1.4278489 0.9333333 0.9233323 0.0100010 0.0566657
0.65480 2.43730 1.5173405 1.0000000 0.9354096 0.0645904 0.0020763

Procedamos a calcular las estadísticas \(D^-=\max\{D_i^-\}\) y \(D^+=\max\{D_i^+\}\) para el contraste con los cuantiles de la distribución:

## [1] "D+ = 0.24445882256577"
## [1] "D- = 0.179973242710844"

Por lo tanto, \(D=\max \{D^+,D^-\}=\max \{0.244,0.1799\}=0.24445\). Este resultado debe ser comparado con los valores críticos de Lilliefors. Para un nivel de significancia \(\alpha=10\%\) y el tamaño de muestra \(n=15\), tenemos que \(W_{\alpha}=W_{0.1}=0.2016\)

\[\therefore~ D=0.24445>0.2016=W_{0.1} \] De esta manera,tenemos evidencia suficiente para rechazar la hipótesis nula de normalidad de la muestra.

Ahora, efectuemos la prueba mediante la función lillie.test():

lillie.test(rend)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  rend
## D = 0.21711, p-value = 0.05541

Se observa que \(p-value=0.05541<0.10=\alpha\), por lo que tenemos evidendia suficiente para rechazar \(H_0\). Por lo tanto, con un nivel de significancia del 10%, se tiene evidencia de que la muestra no sigue una distribución normal. \(_\blacksquare\) #### b).

El gerente del banco asume que la muestra se distribuye sigue una distribucion lognormal con media 0 y varianza 1.Realice la prueba correspondiente para verificar la suposición del gerente con un nivel de significancia \(\alpha = 0.01\)

\(\underline{\text{Solución:}}\)

Dado que ya tenemos la muestra ordenada, calculemos, al igual que en el inciso anterior, la función de distribución empírica \(S_n(x_i)=\frac{i}{n}\), la función de distribucion empírica retrasada \(S_n^-(x_i)=\frac{i-1}{n}\), y la distribución propuesta, que en este caso de una lognormal con \(\mu=0\) y \(\sigma^2=1\).

n<-length(rend)

Sn<-c()
Fx<-c()

#Funcion de distribucion empirica
for(i in 1:n){
  
  Sn[i]=i/n
}

#Funcion de distribucion teorica lognormal

for(i in 1:n){
  
  Fx[i]= plnorm(rend_ord[i],mean = 0,sd = 1)
}

Calculemos las diferencias en valor absoluto de la distribución teórica y la distribución empírica, es decir \(D^+=|S_n(x_i)-S(x_i)|\) y \(D^-=|S_n(x_{i-1})-S(x_i)|\). A continuación se muestra la tabla resumen de los valores obtenidos:

diff_F<-c()
diff_F_retraso<-c()
for (i in 1:n){
  diff_F[i]=abs(Fx[i]-Sn[i])
  
  }

diff_F_retraso[1]=Fx[1]
for (i in 2:n){
 
    diff_F_retraso[i]=abs(Fx[i]-Sn[i-1])
}

resumen2<-cbind(rend,rend_ord,Sn,Fx,diff_F,diff_F_retraso)
colnames(resumen2)<-c("X_i","X_i ord","Fn(x_i)","F(x_i)",
                     "Di+","Di-")
kable(resumen2)%>% kable_paper()
X_i X_i ord Fn(x_i) F(x_i) Di+ Di-
0.25130 0.25130 0.0666667 0.0836229 0.0169562 0.0836229
0.25660 0.25660 0.1333333 0.0868775 0.0464558 0.0202108
0.34590 0.31280 0.2000000 0.1225789 0.0774211 0.0107544
0.63790 0.34590 0.2666667 0.1442074 0.1224593 0.0557926
2.05050 0.35005 0.3333333 0.1469328 0.1864005 0.1197339
1.80300 0.63790 0.4000000 0.3265089 0.0734911 0.0068244
2.19060 0.65480 0.4666667 0.3359924 0.1306742 0.0640076
1.52990 1.27260 0.5333333 0.5952465 0.0619132 0.1285798
0.35005 1.52990 0.6000000 0.6646554 0.0646554 0.1313221
0.31280 1.80300 0.6666667 0.7222209 0.0555543 0.1222209
1.27260 2.05050 0.7333333 0.7636471 0.0303138 0.0969805
2.36740 2.19060 0.8000000 0.7835314 0.0164686 0.0501981
2.32140 2.32140 0.8666667 0.8001537 0.0665129 0.0001537
2.43730 2.36740 0.9333333 0.8055991 0.1277342 0.0610676
0.65480 2.43730 1.0000000 0.8135061 0.1864939 0.1198272

Podemos notar lo siguiente

## [1] "D+ = 0.186493859603525"
## [1] "D- = 0.131322089725449"

Por lo tanto, \(D=\max\{D^+,D^-\}=0.1864\). Comparemos este valor con la tabla de valores críticos de Kolmogorov-Smirnov, para \(\alpha=1\%\) y \(n=15\). El valor \(W_{0.01}=0.4042>0.1864=D\), por lo que no se rechaza la hipótesis nula de que la muestra tiene un comportamiento lognormal con media 0 y varianza 1.

En efecto. Confeccionemos las graficas comparativas de las distribuciones acumuladas

Las gráficas son muy parecidas, por lo que se confirma anterior.

Mas aun, efectuemos la prueba mediante la funcion ks.test()

ks.test(rend,plnorm,0,1)
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  rend
## D = 0.18649, p-value = 0.609
## alternative hypothesis: two-sided

Notemos que \(p-value=0.609>0.01=\alpha\), por lo que no se rechaza la hipotesis nula de que los rendimientos tienen una distribución lognormal con media 0 y varianza 1. \(_\blacksquare\)

1.3.4 Ejercicio 4 [Escrito por Ayrton Pablo Almada]

Un cierto banco otorga crédito a las personas con una tasa preferencial, de tal manera que los acreditados pueden pagar en cualquier momento desde que piden el préstamo hasta 8 semanas posteriores para que les sea respetada la tasa preferencial . Se seleccionaron aleatoriamente a 1,000 personas y observaron su comportamiento, generando de esta manera la siguiente tabla de frecuencia

Semana Créditos pagados
<1 64
\(x\in [1,2)\) 195
\(x\in [2,3)\) 287
\(x\in [3,4)\) 241
\(x\in [4,5)\) 140
\(x\in [5,6)\) 51
\(x\in [6,7)\) 25
\(x\in [7,8)\) 4
>8 1

Usted piensa que el pago de estos créditos, sigue una distribución binomial con parámetros n=10 y p=0.25, realice la prueba \(\chi^2\) para verificar que suposición es válida con un 99% de confianza.

\(\underline{\text{Solución:}}\)

Tenenos la siguiente prueba de hipótesis con \(\alpha=0.01\):

\[ H_{o}:~X\sim\text{Binom}(10,0.25)~\text{vs.}~H_{a}:~X\nsim\text{Binom}(10,0.25) \]

Se procede a calcular cuantiles para

\[\mathbb{P}[X=x_i]= {n\choose x_i}p^{x_i}(1-p)^{n-x_i}\]

C<-c(0,1,2,3,4,5,6,7,8) #Clase
O<-c(64,195,287,241,140,51,25,4,1) #Frecuencia Observada
P<-dbinom(C,size=10,prob=0.25) #Probabilidad Esperada
P[9]<-1-pbinom(7,size=10,prob=0.25) #Probabilidad Esperada Ajustada
E<-P*sum(O) #Frecuencia Esperada
D1<-data.frame(C,O,P)
D2<-data.frame(C,O,P,E)
colnames(D1)<-c('Clase','Frecuencia Observada','Probabilidad Esperada')
colnames(D2)<-c('Clase','Frecuencia Observada','Probabilidad Esperada','Frecuencia Esperada')
EstT<-sum((O-E)^2/(E))

Recordar que la suma probabilidades deben de ser 1, por lo que se modifica el último valor obteniendo:

Clase Frecuencia Observada Probabilidad Esperada
0 64 0.0563135
1 195 0.1877117
2 287 0.2815676
3 241 0.2502823
4 140 0.1459980
5 51 0.0583992
6 25 0.0162220
7 4 0.0030899
8 1 0.0004158

Se obtiene las observaciones esperadas \(E_i=n\mathbb{P}[X=x_i]\), en este caso \(n=1008\). Obteniendo así:

Clase Frecuencia Observada Probabilidad Esperada Frecuencia Esperada
0 64 0.0563135 56.7640228
1 195 0.1877117 189.2134094
2 287 0.2815676 283.8201141
3 241 0.2502823 252.2845459
4 140 0.1459980 147.1659851
5 51 0.0583992 58.8663940
6 25 0.0162220 16.3517761
7 4 0.0030899 3.1146240
8 1 0.0004158 0.4191284

Se obtiene el estadístico

\[T=\sum_{i=1}^{n}{\frac{(O_i-E_i)^2}{E_i}}=8.670518\] Se compara el cuantil, ya que T=8.670518 y la región de valor crítico con un nivel de significancia \(\alpha=0.01\) es \(\chi^{2(1-0.01)}_8=20.09024\), por lo que:

\[T=8.670518<\chi^{2(1-0.01)}_8=20.09024\] Por lo que la estadística T cae en la región de aceptación, así que se tiene evidencia suficiente para no rechazar la hipótesis nula, la cual propone que los datos tienen una distribución Binomial con parámetros n = 10 y p = 0.25. \(_\blacksquare\)

1.3.5 Ejercicio 5 [Escrito por Carlos Alberto Gómez Correa]

En R fije la semilla 2019, y genera 25 observaciones distribuidas como una \(N(0,1)\) y con ella realiza:

set.seed(2019)

norm_small<-rnorm(25,0,1)
print(norm_small)
##  [1]  0.7385227 -0.5147605 -1.6401813  0.9160368 -1.2674820  0.7382478
##  [7] -0.7826228  0.5092959 -1.4899391 -0.3191793 -0.2379111  1.6186229
## [13] -1.1176011  0.2340028  0.3161516  0.3707686  0.8775886 -1.7683235
## [19] -0.3271264 -2.2632252  0.2855605  0.9684286  0.8673066  1.3781350
## [25] -0.8082596

1.3.5.1 a).

Calcula y grafica la funcion de distribucion empırica de las observaciones generadas.

\(\underline{\text{Solución:}}\)

cdf_small<-ecdf(norm_small)

plot(cdf_small, col="navyblue",xlab="Muestra n=25",main="Funcion de distribucion empirica N(0,1)")

\(_\blacksquare\)

1.3.5.2 b).

Agrega sobre esa misma grafica, la curva de la distribucion verdadera \(N(0,1)\)

\(\underline{\text{Solución:}}\)

plot(cdf_small, col="navyblue",xlab="Muestra n=25",main="Fn(x) muestral vs F(x) teorica N(0,1)")
x=rnorm(1000,mean = 0,sd = 1)
curve(pnorm(q =x ,mean = 0,sd = 1) ,add=T, col="orange")

\(_\blacksquare\)

1.3.5.3 c).

A partir de las graficas anteriores ¿La funcion de distribucion empırica es similar a la distribucion teorica de los datos?

\(\underline{\text{Solución:}}\)

Sí, es ligeramente similar, pero existen diferencias de mediana magnitud entre la distribución teórica y la simulación. Es decir, la muestra es aproximadamente cercana a la distribución real, pero se notan las diferencias con precisión.

Vuelve a fijar la semilla 2019, y genera un millón observaciones distribuidas como una \(N(0,1)\) y con ello:

set.seed(2019)

norm_pro<- rnorm(1000000,0,1)
head(norm_pro)
## [1]  0.7385227 -0.5147605 -1.6401813  0.9160368 -1.2674820  0.7382478

\(_\blacksquare\)

1.3.5.4 d).

Calcula y grafica la función de distribución empírica de las observaciones generadas

\(\underline{\text{Solución:}}\)

cdf_pro<-ecdf(norm_pro)
plot(cdf_pro, col="navyblue",xlab="Muestra n = 1M",main="Fn(x) muestral N(0,1)")

\(_\blacksquare\)

1.3.5.5 e).

Agrega sobre esa misma gráfica, la curva de la distribución verdadera \(N(0,1)\)

\(\underline{\text{Solución:}}\)

plot(cdf_pro, col="navyblue",xlab="Muestra n = 1M",main="Fn(x) muestral vs F(x) teorica N(0,1)", )
x=rnorm(1000,0,1)
curve(pnorm(x,0,1),add=T, col="orange")

\(_\blacksquare\)

1.3.5.6 f).

A partir de las gráficas anteriores ¿La función de distribución empírica es similar a la distribución teórica de los datos? .

\(\underline{\text{Solución:}}\)

Efectivamente, en este caso con la simulación \(n=1,000,000\), las funciones de distribución empirica y teórica son muy parecidas. \(_\blacksquare\)

1.3.5.7 g).

Realiza diferencia entre el valor de la función empírica y la función real, (Hint: no olvides que debes ordenar de menor a mayor los valores de la distribucion conocida y solo mostrar los primeros 5 y los ultimos 5 resultados).

\(\underline{\text{Solución:}}\)

#Funcion de distribucion teorica ordenada
cdf_teorical<-pnorm(x,0,1)
cdf_ordered<-cdf_teorical[order(cdf_teorical)]

#Funcion de distribucion muestral ordenada
cdf_pro_vector<-pnorm(norm_pro,0,1)
cdf_pro_ordered<-cdf_pro_vector[order(cdf_pro_vector)]

#Diferencias
diff<-cdf_ordered- cdf_pro_ordered
head(diff,5)
## [1] 0.001044685 0.002518704 0.002696883 0.005705837 0.006268049
tail(diff,5)
## [1] -0.011333403 -0.011125358 -0.006810355 -0.006246212 -0.002017650

Notemos que las diferencias son valores muy pequeños, alrededor del 0.

¿Al ser una muestra mucho mayor que la anterior a que teorema te recuerda el resultado obtenido?

Dado que las diferencias entre la función de distribución teórica y la función de distribución muestral disminuyeron conforme el tamaño de muestra aumentaba, los resultados recuerdan al teroema de Glivenko-Cantelli que enuncia que entre más grande sea la muestra, la función de distribución empírica converge a la distribucion real. \(_\blacksquare\)

1.4 Tablas de Contingencia

1.4.1 Ejercicio 1 [Escrito por Ayrton Pablo Almada]

Se recopilaron datos macroeconómicos de diversos países durante el 2017 del Fondo Monetario Internacional entre los cuales destacan el tamaño del territorio del país en km2 y la tasa de fertilidad. Se clasificó la información de la siguiente manera:

  • Microestado cuando su territorio se menor ó igual a \(23,180~\text{km}^2\).

  • País pequeñoo cuando su territorio este ente los \(23,180\) y \(112,760~\text{km}^2\).

  • País mediano cuando su territorio este entre \(112,760\) y los \(527,970~\text{km}^2\).

  • País grande cuando su territorio sea mayor a los \(527,970~\text{km}^2\).

A su vez los países se subclasifican en dos grupos dependiendo de la tasa de fecundidad del país de la forma:

  • Tasa de Fecundidad menor o igual a 2.7 hijos por mujer.

  • Tasa de Fecundidad mayor a 2.7 hijos por mujer.

Con esa información se construyó la siguiente tabla de contingencia:

Tasa Microestado País Pequeño País Mediano País Grande
<2.7 35 31 28 26
>2.7 12 15 18 26

1.4.1.1 a) Establecer \(H_0~\text{vs.}~H_a\) [Escrito por Ayrton Pablo Almada & Hugo Reyna Castañeda]

\(\underline{\text{Solución:}}\)

Sea \(P_{ij}\) la probabilidad de que un individuo elegido al azar de la población bajo consideración, (en este caso un país del mundo), caerá en la celda correspondiente al i−ésimo renglón y j−ésima columna. Además, sean:

\[P_{i\bullet}=\sum_{j=1}^{c}P_{ij}~~\text{la probabilidad de estar en el i−ésimo renglón}\] \[P_{\bullet j}=\sum_{i=1}^{r}P_{ij}~~\text{la probabilidad de estar en el j−ésima columna}\]

El problema de probar si las dos variables clasificadas son independientes puede plantearse como:

\[H_0:~P_{ij}=P_{i\bullet}P_{\bullet j},~i=1,...,r~;~r=1,...,c.~\text{vs.}~H_a:~\exists_{i,j}~|~ P_{ij}\neq P_{i\bullet}P_{\bullet j}\] \(_\blacksquare\)

1.4.1.2 b) [Escrito por Ayrton Pablo Almada]

De la tabla de contigencia realice el procedimiento obteniendo la estadística necesaria para rechazar o aceptar con un nivel de significancia \(\alpha = 0.05\) la hipótesis de que la tasa de fecundidad y el tamaño del territorio se comportan de manera independiente entre si con los parámetros dados.

\(\underline{\text{Solución:}}\)

Se calculan las marginales por renglón y por columna de la siguiente manera:

Tasa Microestado País Pequeño País Mediano País Grande Total
<2.7 \(n_{11}=35\) \(n_{12}=31\) \(n_{13}=28\) \(n_{14}=26\) 120
>2.7 \(n_{21}=12\) \(n_{22}=15\) \(n_{23}=18\) \(n_{24}=26\) 71
Total 47 46 46 52 191

Una vez obtenido las marginales, se calculan los valores esperados \(e_{ij}\) de la forma:

\[e_{ij}=\frac{\sum_{l=1}^{4}n_{il}\times \sum_{k=1}^{2}n_{kj}}{n}\]

V1<-c(35,31,28,26)
V2<-c(12,15,18,26)
DF<-data.frame(V1,V2)
DF<-t(DF)
colnames(DF)<-c('Microestado','Pais pequeño','Pais mediano','Pais grande')
rownames(DF)<-c('Tasa<=2.7','Tasa>2.7')

T1<-rowSums(DF) #Totales por Tasa
T2<-colSums(DF) #Totales por País

E<-function(i,j){ #Calcular los valores esperados e_{ij}
  n<-sum(T1)
  T1[i]*T2[j]/n
}

Finalmente se calcula la estadística:

\[T=\sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(n_{ij}-e_{ij})^2}{e_{ij}}\]

T<-0
for (i in 1:2) {
  for (j in 1:4) {
    T<-T+((DF[i,j]-E(i,j))^2)/E(i,j)
    #cat('entrada=',DF[i,j],' función=',E(i,j),"\n")
  }
}

Por lo tanto \(T=6.876336\)

Realizando la prueba de hipótesis con un nivel de significancia del 5% se obtiene el cuantil \(W^{0.95}=\chi^{2(1-0.05)}_{(2-1)(4-1)=7.814728}\), debido a que

\[T=6.876336<7.814728=W^{0.95}\]

Dada la regla de decisión de las tablas de contingencia, no existe razón para rechazar la hipótesis nula con un nivel de significancia \(\alpha = 0.05\), por lo que se tenemos evidencia suficiente de que la tasa de fecundidad y el tamaño del país son independientes entre si. \(_\blacksquare\)

1.4.1.3 c) Calcula el coeficiente de contigencia, ¿cómo lo interpretarías? [Escrito por Ayrton Pablo Almada]

\(\underline{\text{Solución:}}\)

\[C=\sqrt{\frac{T}{T+n}}\]

C=sqrt(T/(T+sum(T1)))
m=min(dim(DF))
C_max=sqrt((m-1)/m)
C
## Tasa<=2.7 
## 0.1864153

Dado que C es una medida del grado de asociación entre variables en una tabla de contingencia tal que \(C\in(0,1)\) y considerando el hecho de que \(T\) es pequeño y que C está más cerca del 0 que del 1, entonces tenemos más indicios de que la variable aleatoria de tasa de fertilidad es independiente a la clase de país (eso en cuanto al tamaño). \(_\blacksquare\)

1.4.1.4 d). Calcular el p − value de la prueba anterior [Escrito por Hugo Reyna Castañeda]

\(\underline{\text{Solución:}}\)

p_val=1-pchisq(6.876336,3)

\[\text{p-value}=\mathbb{P}\left[Y> T~|~\text{H}_0 \right]=\mathbb{P}\left[Y> 6.876336 \right]=0.07594558\]

De esta manera el \(\text{p−value}=0.075 > 0.05=\alpha\) por lo que la hipótesis nula no se rechaza, teniendo evidencia del 95 % que las dos variables se distribuyen de manera independiente la una de la otra. \(_\blacksquare\)

1.4.1.5 e). Realiza el procedimiento mediante la prueba de la Ji-Cuadrada; De esta forma ¿Se rechaza o no la prueba?. [Escrito por Hugo Reyna Castañeda]

\(\underline{\text{Solución:}}\)

Resumiendo todo lo anteriormente realizado, realizamos la prueba de forma automática con su respectivo comando en R:

chisq.test(DF)
## 
##  Pearson's Chi-squared test
## 
## data:  DF
## X-squared = 6.8763, df = 3, p-value = 0.07595

El p-value es \(0.07595>0.05=\alpha\), por lo que con un nivel de confianza del 95% no rechazamos la hipóteis nula. \(_\blacksquare\)

1.4.1.6 f). ¿Económicamente tiene sentido la proposición de que el tamaño de una país y la población se comportan de manera independiente?. [Escrito por Hugo Reyna Castañeda]

\(\underline{\text{Solución:}}\)

Sí tiene sentido, ya que la extensión del territorio no afecta a la tasa de fecundidad, lo que en efecto afectará a la fecundidad del país el la población per se. \(_\blacksquare\)