Un Verdadero Análisis de Supervivencia
Análisis de supervivencia y series de tiempo. Grupo 9240 FC UNAM
Sofia Villers Gomez
Vásquez Guerra Carlos Fernando
11/2020
El objetivo de esta práctica es poner a prueba tus habilidades para resolver e interpretar el conocimiento que haz adquirido hasta el momento sobre el análisis de supervivencia, el cual abarca todos capítulos del libro digital Modelos de Supervivencia. Considera los siguientes puntos para la entrega de tu trabajo:
- Se puede entregar en cualquiera de los siguientes formatos:
- Archivo HTML. En este caso se debe entregar un enlace de Rpubs donde este publicado tu trabajo.
- Archivo tipo Shiny. En este caso, eres libre de enviar tu trabajo mediante un archivo comprimido o mediante un enlace que redirija hacia una publicación en ShinyApps.
- Un integrante del equipo debe hacer entrega de la tarea y los demás miembros deben asegurarse de que el estatus de su tarea de classroom sea “Tarea entregada”. En caso de que alguno de los integrantes no lo haga a tiempo, no avíse de un posible retraso o de una justificación certera del retraso, no se le contará para la evaluación.
- Es necesario que se tenga explícito el código en el trabajo aunque se agradece si deseas hacer alguna acción para ocultarlo y facilitar la lectura del desarrollo de tu problema.
- Los códigos deben estar comentados y el planteamiento de la solución se debe explicar de la manera más clara posible tanto como para un lector experimentado como para un lector que conozca poco acerca de estadística en general sin tener que explicar la parte teórica de manera exhaustiva.
- El trabajo deber llevar los datos del equipo.
- En caso de tener archivos extra, scripts, paquetes propios, archivos de estilo css, etc; favor de mencionarlos cuando se utilice alguna función, objecto o característica de estos y si se considera pertinente agregarlos como parte de la entrega.
- De acuerdo a tu número de equipo, es el problema que te fue asignado. Si deseas aumentar tus habilidades haciendo algún inciso extra estás en completa libertad de hacerlo y obviamente será tomado en cuenta.
Para realizar este trabajo se dejan los siguientes enlaces donde podrán encontrar cada uno de sus data sets.
Nivel de ingreso en adultos de una población de acuerdo a diferentes características. Asumase que se esta estudiando a una población en donde la edad indica la fecha en que salio del estudio, ya sea porque fue su decisión o presentó alguna otra complicación. La variable de interés será income.
Datos referentes a diversas enfermedades dermatológicas. En este caso, podemos pensar que se esta estudiando a una población desde su nacimiento en el cual la edad indica la fecha en que salio del estudio, ya sea porque fue su decisión o presentó alguna otra complicación. La variable de interés será alguna enfermedad que se elijan o diversas si así lo desean (pueden estudiar si se es más propenso a tener una enfermedad cuando ya se tiene otra). La codificación que deben crear es 0 si no se tuvo dicha enfermedad y 1 en algún otro caso.
Datos referentes a diversas enfermedades cardiacas Al igual que en los anteriores casos, se supondrá que se está estudiando a una población en donde la edad indica la fecha en que salio del estudio, ya sea porque fue su decisión o presentó alguna otra complicación. La variable de interés será num. Se beben tomar los datos de procedentes de Cleveland.
Marketing para prestamos bancarios Finalmente, se desea estudiar el tiempo de la llamada y la variable de fallo será y (si el cliente suscrito realizará el depositado o no).
Tu trabajo será realizar un análisis de supervivencia con el conocimiento que ya se ha adquirido. Al menos, se deben hacer los siguientes puntos
- Se debe realizar una limpieza de datos (lo cual no es necesario mencionar todos los pasos que se utilizaron o ningúno si así lo desean).
- Se debe realizar un EDA.
- Estimar la o las funciones de supervivencia.
- Graficar la función anterior agregando anotaciones o marcas en puntos críticos.
- Es tu opción agregar o no intervalos confianza a la anterior gráfica.
- Se deben obtener resúmenes estadísticos (parámetro poblacionales, funciones de riesgo, etc.)
- Se tienen distintas segmentaciones en los datos, por lo que habría que ver el comportamiento anterior por cada estrato.
- Comprobar mediante pruebas de hipótesis los resultados que propongan.
- Utilizar distintas covariables para aplicar un modelo de Cox u algún otro que se haya visto y sea relevante.
Recomendaciones:
- Realicen una buena limpieza de datos que puede iniciar fuera de R.
- Agregen información sobre la base de datos la cual la pueden encontrar en los mismos enlaces.
- Se pueden utilizar distintas estadísticas de ajuste como BIC, AIC y likehood-ratio test.
- Utilicen su función de la entrega pasada para mostrar el tiempo máximo que puede existir entre dos o más curvas de supervivencia en una probabilidad dada.
- El diseño importa, así como la limpieza y organización del trabajo.
Un trabajo de Carlos Vásquez
carlosfvasquez@ciencias.unam.mx