Dem. \[\text{Recordemos que:} \quad O=O_{1}+O_{2} \quad ; \quad N=N_{1}+N_{2}\] \[\Rightarrow O_1-E_1=O-O_2-\frac{ON_1}{N}=O-O_2-\frac{O(N-N_2)}{N}=\frac{ON-O_2N-ON+ON_2}{N}\] \[=\frac{ON_2}{N}-O_2 \Rightarrow (\frac{ON_2}{N}-O_2)^2=(O_2-\frac{ON_2}{N})^2=(O_2-E_2)^2 \quad \rightarrow \quad 1\] \[\text{Además como} \quad Var[X-Y]=Var[X]-2Cov(X,Y)+(-1)^2Var[Y]\] \[=Var[Y]-2Cov(X,Y)+(-1)^2Var[X]=Var[Y-X]\] \[\text{Entonces:} \quad Var[O_1-E_1]=Var[\frac{O_2N_2}{N}-O_2]=Var[O_2-\frac{O_2N_2}{N}]=Var[O_2-E_2] \rightarrow2\] \[\therefore \text{Por 1 y 2:} \quad \frac{(O_1-E_1)^2}{Var[O_1-E_1]}=\frac{(O_2-E_2)^2}{Var[O_2-E_2]} \blacksquare\]
Sol. Tenemos una m.a. de tamaño n con distribución \(Exp(\lambda)\) por lo que de acuerdo al método de estimación por máxima verosimilitud obtenemos que: \[L=\prod_{i=1}^{n}\lambda e^{- \lambda t_{i}}=\lambda^{n}e^{-\lambda\sum_{i=1}^{n}t_{i}}\\ \Leftrightarrow lnL=nln(\lambda)-\lambda\sum_{i=1}^{n}t_{i}\\ \Leftrightarrow \frac{dlnL}{d\lambda}= \frac{n}{\lambda}-\sum_{i=1}^{n}t_{i}\\ \Rightarrow \frac{n}{\lambda}-\sum_{i=1}^{n}t_{i}=0 \Leftrightarrow \lambda=\frac{1}{\bar{T}}\\ \therefore \hat{\lambda}= \frac{1}{\bar{T}}\]
Dem. Como cada \(T_{i} \sim Exp(\lambda)\) entonces \(\sum_{i=1}^{n} T_{i}\sim Gamma(n,\lambda)\). Entonces:
\[\frac{2n\lambda}{\hat{\lambda}}= 2n\lambda \bar{T}\\ W=2n\lambda \bar{T} \Rightarrow M_{W}(z)=E[e^{zW}]=E[e^{2n\lambda z\bar{T}}]=E[e^{2\lambda z \sum_{i=1}^{n}T_{i}}]=(1-\frac{2 \lambda z}{\lambda})^{-n} =(1-2z)^{-n}\] Que corresponde a la f.g.m. de una distribución \(\chi^2_{2n} \blacksquare\)
\[P[a_{\frac{\alpha}{2}}\leq \frac{2n\lambda}{\hat{\lambda}} \leq b_{\frac{1-\alpha}{2}}]= (1-\alpha) \\ \Leftrightarrow P[\frac{a_{\frac{\alpha}{2}}}{2n\bar{T}} \leq \lambda \leq \frac{b_{\frac{1-\alpha}{2}}}{2n\bar{T}}]= (1-\alpha)\\ \Leftrightarrow P[\frac{2n\bar{T}}{b_{1-\frac{\alpha}{2}}} \leq \frac{1}{\lambda} \leq \frac{2n\bar{T}}{a_{\frac{\alpha}{2}}}]= (1-\alpha) \dagger\]
Donde \(a_{\frac{\alpha}{2}}\) y \(b_{\frac{1-\alpha}{2}}\) corresponden a los cuantiles al \(\frac{\alpha}{2}\) y \(\frac{1-\alpha}{2}\) de una distribuión \(\chi^2_{2n}\)
\[\mu(t)=\hat{\lambda}= \frac{21}{\sum_{i=1}^{21} t_{i}}= 0.1060 \dagger\]
Sol. Teniendo a \(\lambda\) estimada y sabiendo que \(E[T]=\frac{1}{\lambda}\) entonces \(E[T]= \frac{1}{0.1060}=9.4339 \dagger\)
Sol. Nuevamente usando lo obtenido en el ejercicio anterior, podemos hallar el intervalo de confianza para la media, en este caso \(\frac{1}{\lambda}\) al 95% de confianza y obtenemos lo siguiente: \[P[\frac{2n\bar{T}}{b_{1-\frac{\alpha}{2}}} \leq \frac{1}{\lambda} \leq \frac{2n\bar{T}}{a_{\frac{\alpha}{2}}}]= (1-\alpha)\Leftrightarrow P[\frac{2(21)(9.4285)}{35.5099}\leq \frac{1}{\lambda}\leq \frac{2(21)(9.4285)}{61.7767}=0.95\] \[\Leftrightarrow P[6.4101 \leq \frac{1}{\lambda} \leq 11.1517]=0.95\]
Y vemos que \(5 \notin [6.4101,11.1517]\) al 95% de confianza \(\dagger\).
\[P[T \leq 20]=1-e^{-0.1060(20)}=0.8799 \dagger\]
Sol. Por método de Máxima Verosimilitud obtenemos que: \[logL=log({n\choose r})+nlog(\lambda)-\lambda\sum_{i=1}^{n}t_{i}+log(\lambda tr^2-\lambda tnr)\] \[\frac{dlogL}{d\lambda}= \frac{n}{\lambda}-\sum_{i=1}^{n}t_{i} +\frac{tr^2-tnr}{\lambda tr^2-\lambda tr} \Rightarrow \frac{dlogL}{d\lambda}=0 \Leftrightarrow \frac{n}{\lambda}-\sum_{i=1}^{n}t_{i}+\frac{tr^2-tnr}{\lambda tr^2-\lambda tr}=0 \] \[\therefore \hat{\lambda}=\frac{n+1}{\sum_{i=1}^{n}t_{i}}\dagger\]
Comparando con lo obtenido en el ejercicio 3.a), lógicamente obtuvimos un estimador diferente por la construcción de la función de verosimilitud.
Un investigador de laboratorio interesado en la relación entre la dieta y el desarrollo de tumores dividió 90 ratas en tres grupos y los alimentó con dietas bajo en grasas, grasas saturadas y grasas no saturadas respectivamente. La tabla 3.4 indica los tiempos sin presencia de tumor para cada grupo. El interés principal del investigador es comparar las tres capacidades de las dietas para mantener el tiempo sin desarrollar tumor. Con estos datos:
1.Obtenga y grafique las funciones de supervivencia estimadas por Kaplan- Meier para los tres grupos de dieta.
2.Estime el tiempo mediano de supervivencia de los tres grupos.
3.¿Qué se puede concluir a partir de lo observado en 1 y 2?
Grafico y estimo las funciones de superviviencia con Kaplan-Meier para los tres grupos de dieta
## Loading required package: ggplot2
## Loading required package: ggpubr
## Loading required package: magrittr
Tiempo mediano de supervivencia por grupo
## strata median lower upper
## 1 type=low fat 191.0 140 NA
## 2 type=saturated fat 108.5 89 142
## 3 type=unsaturated fat 92.5 77 112
Las conclusiones obtenidas con base en la gráfica: las ratas de dieta baja en grasas tienen un tiempo mayor de supervivencia en comparación a las ratas que tienen las dietas con grasas saturadas y no saturadas, inclusive hay mayor cantidad de datos censurados en las ratas con dieta baja en grasas, es decir, que hubo ratas sin contraer tumor. Sin embargo, las ratas con dieta no saturada tienen un tiempo de supervivencia menor que los otros dos grupos de ratas. En este grupo no hay censuras, así que todas desarrollaron tumor. Por lo tanto, las ratas alimentadas con dieta baja en grasas tienen menor probabilidad de desarrollar tumor y las que tienen dieta no saturada tienen mayor probabilidad de desarrollar tumor. Las ratas que tienen dieta saturada contraen tumor más fácil que las ratas con dieta baja en grasa, pero no tanto como las que llevan dieta con grasas no saturadas.
Considere los siguientes tiempos de supervivencia en meses de 25 pacientes con cáncer de próstata:
## [1] 2 19 19 25 30 35 40 45 45 48 60 62 69 89
## [15] 90 110 145 160 9+ 10+ 20+ 40+ 50+ 110+ 130+
1.Realice las gráficas p-p, q-q, y de linearización de la función de supervivencia para probar gráficamente si los datos siguen una distribución exponencial con \(\lambda=0.01\)
2.¿Qué prueba formal utilizaría para sustentar 1?
En la linealización aparece una línea recta, lo cual es buena señal para comparar la supervivencia del modelo con la supervivencia de un mdelo exponencial.
p-p plot. La tarea indica usar el valor \(\lambda=0.01\) para comparar la supervivencia de los datos.
p-p plot con valor \(\lambda=0.0123119\) obtenido con el ajuste de R, aquí hay una recta con pendiente 1 que pasa por el origen.
q-q plot
La recta alcanza algunos puntos al inicio. Yo utilizaría una prueba log-rank con las supervivencias del modelo exponencial.
Para los datos dados en la tabla 3.4, compare las distribuciones del tiempo libre de tumor para los grupos: bajo en grasas y grasas saturadas; usando la prueba de Log-rank.Concluya.
## Call:
## survdiff(formula = D2 ~ tipo, data = datos, rho = 0)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## tipo=low fat 30 15 21.6 2.00 4.76
## tipo=saturated fat 30 23 16.4 2.63 4.76
##
## Chisq= 4.8 on 1 degrees of freedom, p= 0.03
El p-value es de: 0.03, lo cual es un valor chico por lo tanto se rechaza la hipótesis nula, es decir, que las supervivencias entre el grupo de ratas don dieta baja en grasas y el de dieta de grasas saturadas son distintas. Y en efcto, esto se puede apreciar al ver las gráficas de supervivencia para cada grupo.
Dem. \[\text{Sea} \quad T=\text{min}\{T_1,T_2,...,T_n\} \quad S_T(t)=P[\text{min}\{T_1,T_2,...,T_n\}>t]\] \[\text{Como} \quad T_i\perp T_j \quad \forall i \ne j \Rightarrow S_T(t)=\prod_{i=1}^{n}S_{T_{i}}(t)\]
\[\text{Recordemos que:}\quad h(t)=-\frac{d}{dt}log(S_T(t))\] \[\therefore h_{T}(t)=-\frac{d}{dt}log(\prod_{i=1}^{n}S_{T_{i}}(t))=\sum_{i=1}^{n}-\frac{d}{dt}log(S_{T_{i}}(t))=\sum_{i=1}^{n}h_{i}(t) \blacksquare\]
Sol. Bajo el supuesto de que los tiempos de supervivencia de ambos grupos siguen una distrbución exponencial ( o sea una distribución paramétrica), la prueba de Log-Rank no será útil en este caso, por lo que utilizaremos la prueba F de Cox para distribuciones exponenciales. Dicha prueba nos ayudará a probar: \[H_0:\lambda_1=\lambda_2 \quad \text{vs.} \quad H_a:\lambda_1\ne \lambda_2\] Es decir si la supervivencia de ambos grupos se comporta igual o no. Para ello haremos uso de la estadística de prueba:
\[T=\frac{r_2\sum_{i=1}^{r_1}x_i+\sum_{i=r_1+1}^{n_1}x_i^{+}}{r_1\sum_{i=1}^{r_2}y_i+\sum_{i=r_2+1}^{n_2}y_i^{+}}\] Donde las \(x_i,y_i\) son las observaciones no censuradas y \(x_i^{+},y_i^{+}\) son las censuradas del primer y segundo grupo respectivamente, \(r_1\) el número de observaciones no censuradas del primer grupo y \(r_2\) las no censuradas del segundo grupo y \(n_1,n_2\) el total de observaciiones del primer y segundo grupo respectivamente. \(T\sim F(2r_1,2r_2)\) de ahí el nombre. Por lo tanto no rechazaremos \(H_0\) si \(T<F_{(2r_1,2r_2)}^{\frac{\alpha}{2}}\) y rechazaremos \(H_0\) si \(T>F_{(2r_1,2r_2)}^{\frac{\alpha}{2}}\). Procediendo al cálculo de la estadística con un nivel de 95% de confianza tenemos que: \[n_1=21,r_1=13,n_2=15,r_2=8, \sum_{i=1}^{13}x_i=147,\sum_{i=1}^{8}x_i^{+}=195,\sum_{i=1}^{8}y_i=168,\sum_{i=1}^{7}y_i^{+}=163\] \[\Rightarrow T=\frac{8(147+195)}{13(168+163)}=0.6358 \quad ; F_{(26,16)}^{0.05}=0.4237 \Rightarrow T>F_{(26,16)}^{0.05}\] \(\therefore\) Se rechaza \(H_0\) por lo que estadísticamente los tiempos de supervivencia de ambos grupos tienen comportamientos distintos\(\dagger\).