Primera práctica de IIP
Análisis de supervivencia y series de tiempo. Grupo 9240 FC UNAM
Sofia Villers Gomez
Vásquez Guerra Carlos Fernando
10/2020
El objetivo de esta práctica es poner a prueba tus habilidades para resolver e interpretar el conocimiento que haz adquirido hasta el momento sobre el análisis de supervivencia, el cual abarca los capítulos 1-5 del libro digital Modelos de Supervivencia. Considera los siguientes puntos para la entrega de tu trabajo:
- Se puede entregar en cualquiera de los siguientes formatos:
- Archivo HTML. En este caso se debe entregar un enlace de Rpubs donde este publicado tu trabajo.
- Archivo tipo Shiny. En este caso, eres libre de enviar tu trabajo mediante un archivo comprimido o mediante un enlace que redirija hacia una publicación en ShinyApps.
- Un integrante del equipo debe hacer entrega de la tarea y los demás miembros deben asegurarse de que el estatus de su tarea de classroom sea “Tarea entregada”.
- Es necesario que se tenga explícito el código en el trabajo aunque se agradece si deseas hacer alguna acción para ocultarlo y facilitar la lectura del desarrollo de tu problema.
- Los códigos deben estar comentados y el planteamiento de la solución se debe explicar de la manera más clara posible aunque, sólo por esta ocasión, se corra el riesgo de ser redundantes.
- El trabajo deber llevar los datos del equipo.
- En caso de tener archivos extra, scripts, paquetes propios, archivos de estilo css, etc; favor de mencionarlos cuando se utilice alguna función, objecto o característica de estos y si se considera pertinente agregarlos como parte de la entrega.
Para realizar este trabajo se dejan en la siguiente liga 4 pares de datos simulados que corresponden a uno de los siguientes escenarios. Uno de los data sets de cada carpeta corresponde a datos simulados de su distribución y el otro corresponde a la supervivencia. Las distribuciones que aquí se consideran son Exponencial, Weibull, Gamma y Pareto.
Los datos corresponden al tiempo de vida en segundos de un disco magnético que es expuesto a una cierta mezcla corrosiva.
Los datos corresponden al tiempo que dedicaron un grupo de niños a jugar videojuegos en su primer fin de semana de vacaciones.
Los datos corresponden al tiempo que un empleado de correos pasa con su cliente.
Los datos corresponden al tiempo en segundos que tardar en pasar 100 automóviles por un cierto punto en una carretera.
Tu trabajo será realizar con uno de los 4 data sets lo siguiente:
- Hacer un análisis exploratorio y descriptivo de los datos que justifique el por qué propones que dichos datos se ajustan a uno de los escenarios antes mencionados. No te preocupes que por esta ocasión no habrá datos perdidos. Hint: Tal vez te ayude recordar las propiedades de cada una de las distribuciones.
- Demostrar estadísticamente (mediante alguna prueba de bondad y ajuste) que tus datos se ajustan a la distribución especificada en los incisos anteriores. Puedes hacer uso de los métodos que conoces para ajustar los datos a una distribución así como el uso de librerías especializadas. No olvides dar una posible interpretación a los parámetros obtenidos si existe alguno más allá que sólo modificar las características de la distribución.
- Dar representaciones visuales que ayuden a reforzar el anterior punto (histogramas + gráficos de densidad, \(Q-Q\)plot, \(P-P\)plot, ect).
- Probablemente en el análisis descriptivo calculaste algunas de las estadísticas básicas para los datos originales, así que compara tus resultados con los parámetros poblaciones teóricos y calcula los restantes.
- Calcula la función de riesgo y función de riesgo acumulado como si se tratara del caso discreto y compararlos con los teóricos. Siéntete tranquilo sobre el tamaño de los intervalos.
- Finalmente agrega las gráficas que consideres necesarias donde mínimo debe haber una donde se compare la supervivencia otorgada por los datos y la teórica.
Extra: En la misma carpeta donde se encuentran los datos, hay dos archivo para cada problema con los sufijos right_censored.csv y left_censored.csv, los cuales corresponden a observaciones censuradas simuladas. Calcula los estimadores máximo verosimil para ambos casos censurados y haz una gráfica comparativa entre las distribuciones ajustadas con y sin censura.
Un trabajo de Carlos Vásquez
carlosfvasquez@ciencias.unam.mx