Tarea 5
Análisis de supervivencia y series de tiempo. Grupo 9245 FC UNAM
Sofia Villers Gomez
Vásquez Guerra Carlos Fernando
05/2024
El objetivo de esta práctica es poner a prueba tus habilidades para
resolver e interpretar el conocimiento que haz adquirido hasta el
momento sobre el análisis de supervivencia, el cual abarca los capítulos
1-5 del libro digital Modelos de
Supervivencia y comenzar con los primeros pasos de tu proyecto, por
lo que esta tarea estará dividida en 2 partes.
Parte 1
Ya que algunos integrantes del curso realizan su trabajo de manera
individual, se dejarán diferentes problemas a elegir y estos deberán ser
mencionados en la sección de comentarios de la publicación en Google
Classroom. Consideren lo siguiente:
- Por favor coloquen el nombre de los integrantes del equipo y el
nombre del problema a elegir.
- Solo se puede elegir un problema de los disponibles. Consideren que
cuando un equipo haya elegido un problema, este no estará disponible
para el resto de los equipos.
- Solo se puede pertenecer a un equipo y no son permitidas las tareas
individuales si se pertenece a un equipo previamente anunciado.
- Los conjuntos de datos se dejan en la siguiente liga,
los cuales son datos simulados que corresponden a uno de los siguientes
escenarios.
- Tiempo de espera en servicios de
telecomunicaciones. Es decir, los datos indican el tiempo
(minutos) que los usuarios esperan para establecer una conexión (ya sea
entre una llamada telefónica, conexión a internet, etc).
- Tiempo de espera en un semáforo: Datos sobre el
tiempo (minutos) que un conductor espera en un semáforo antes de que
cambie de color.
- Duración de proyectos de construcción: Los tiempos
(meses) indican la duración de proyectos de una construcción, teniendo
en cuenta diferentes factores como recursos disponibles y condiciones
ambientales.
- Precios de activos financieros: Los siguientes
datos modelan los precios (pesos) de activos financieros de alguna
materia prima.
- Tiempo hasta la falla de equipos: Datos para
modelar el tiempo (horas) hasta la falla de ciertos equipos y
componentes mecánicos utilizados en una consultora de ingeniería.
- Tiempo de servicio en sistemas de atención médica:
Los siguientes datos modelan el tiempo (minutos) que los pacientes pasan
en la sala de espera de un hospital antes de ser atendidos por un
médico.
- Tasas de crecimiento de población: Estos datos
modelan las tasas de crecimiento de una población en una ciudad.
Tiempo de supervivencia de pacientes en estudios
médicos: En un estudio clínico del departamento de
epidemiología se registraron estos tiempos (meses) de supervivencia de
pacientes en los estudios clínicos.
Distribución de ingresos: Estos datos modelan la
distribución de ingresos (pesos) en una población, donde los ingresos
más altos son menos probables a medida que aumentan.
Tamaño de ciudades: Una consultora de geografía
urbana tiene los siguientes datos para modelar el tamaño de las ciudades
(habitantes), donde pocas ciudades grandes dominan el paisaje
urbano.
Tiempo de vida de productos: Los siguientes
datos modelan el tiempo (años) de vida de baterías en una empresa de
ingeniería donde se realiza un estudio de confiabilidad.
Tiempo de degradación de productos perecederos:
Una empresa de logística modeló el tiempo (días) que tardan algunos
productos perecederos en degradarse.
Tiempo entre llegadas de clientes: Se esta
utilizando teoría de colas para modelar el tiempo (minutos) entre
llegadas sucesivas de clientes a un sistema de servicio.
Tiempo de espera en una cola: Estamos modelando
el tiempo (minutos) que un cliente espera en una cola antes de ser
atendido en un centro de atención al cliente.
Tiempos de reacción en psicología: Un
departamento de psicología experimental registró los tiempos (segundos)
de reacción de los participantes en diferentes tareas.
Velocidades del viento: El departamento de
meteorología registró las velocidades (m/s) del viento en ciertas áreas
geográficas de interés.
Frecuencia de palabras en lenguaje natural: Los
siguientes datos buscan modelar la frecuencia de palabras de un idioma,
donde unas pocas palabras son extremadamente comunes y la mayoría son
raras.
Tasas de mortalidad: Los estudiantes de biología
desean modelar las tasas de mortalidad de ciertos organismos a medida
que envejecen.
Ingresos familiares: El departamento de estudios
socioeconómicos registró los ingresos (pesos) familiares en una
población.
Distribución de riqueza: Se busca modelar la
riqueza (pesos) en una población, donde una pequeña cantidad de personas
posee la mayoría de los recursos.
Tasas de deserción en marketing: El departamento
de análisis cuantitativo de una empresa de marketing obtuvo los
siguientes datos para modelar la tasa de deserción de clientes a medida
que pasa el tiempo.
Tu trabajo será realizar un análisis de supervivencia con el
conocimiento que ya se ha adquirido. Es decir que al menos, se deben
hacer los siguientes puntos
- Identificar la distribución de probabilidad asociada.
- Proponer distribuciones de probabilidad de acuerdo a estadísticas
básicas de los datos e ir descartando algunas distribuciones.
- Considerar el contexto para explicar tus propuestas cuando sea
posible.
- Se deben utilizar pruebas de hipótesis para comprobar las
distribuciones mencionadas.
- Se pueden utilizar herramientas computaciones y gráficas para tomar
tu decisión.
- Se debe dar una interpretación a los parámetros de la distribución
si es posible. Busque la interpretación de los parámetros, entiendan si
tiene participación en la media o varianza su parámetro, identifiquen si
el valor de su parámetro afecta de alguna manera la distribución,
etc.
- Se deben obtener resúmenes estadísticos asociados al análisis de
supervivencia, es decir parámetros poblacionales, funciones de riesgo,
etc. y dar una interpretación no técnica preferentemente.
En cada uno de los conjuntos de datos se tiene una variable llamada
Type, la cual segrega la información de acuerdo a diferentes variables
uniformes y hace que la distribución de probabilidad cambie un poco en
sus parámetros, por lo que después de identificar la distribución base
de tu conjunto de datos, ajusta nuevamente tu información pero ahora
segregada por dicha variable (por lo que tendrías 4 funciones de
distribución del mismo tipo pero con diferentes parámetros). En este
punto no necesitas hacer todo el análisis de identificación, solo una
línea de código para cada estrato.
Ya con tus funciones de distribucion identificadas realiza lo
siguiente:
Crear una función que, de acuerdo a diferentes curvas de
supervivencia, mínimo 2, se obtenga la diferencia de tiempo más grande.
Aquí un ejemplo:
- El objetivo de la función anterior es determinar entre cuales
estratos hay una mayor diferencia de supervivencia entre algún tiempo en
específico. Si llevamos esto a un enfoque aplicado podríamos dimensionar
la eficacia de distintos tratamientos en una vacuna para cierta
enfermedad. Dar una explicación interpretativa.
- Mostrar graficamente las curvas con mayor separación y dar
conclusiones.
- Algunas distribuciones pueden tener colas pesadas, por lo que para
el ejercicio del cálculo del máximo de tiempo se puede crear una ventana
de tiempo para limitar las curvas de supervivencia
Recomendaciones:
- Todos los datos fueron generados de alguna distribución
(exponencial, weibull, log-logistico, log-normal, gamma, pareto o
gompertz), por lo que sería adecuado ajustar un modelo y utilizar
algunas técnicas gráficas que ayuden a proponer un cierto comportamiento
paramétrico.
- Se pueden utilizar distintas estadísticas de ajuste como BIC y
AIC.
- Siempre es ideal hacer una limpieza de datos.
- Las distribuciones especiales que se utilizaron fueron:
actuar::*llogis(), actuar::pareto() y
flexsurv::*gompertz()
- Aquí se deja un link.
- Hacer un ajuste a las curvas de supervivencia para hacer la
comparación entre tiempos.
Parte 2
Como parte de cualquier análisis de datos, se te solicita realizar un
análisis descriptivo de los datos exhaustivo y una limpieza de la
información inicial, esto significa que deberás entender tu información,
su contexto, las variables, investigar si es necesario por fuentes
externas, tratar valores extremos, valores perdidos, describir y hacer
relaciones entre tus variables mediante gráficas, etc. Al igual que en
el la parte 1, se te fue asignado un conjunto de datos para tu proyecto
final.
Este ejercicio te ayudará a prepararte para la siguiente parte de tu
trabajo en esta clase. Recuerda que un análisis descriptivo y la
limpieza de datos puede ser parte de un proceso en tu análisis, por lo
que, de acuerdo a tu proceso posterior pueden cambiar tus resultados,
así que en la entrega final de tu proyecto puedes tener otras
conclusiones y tratamientos.
Consideraciones finales
Toma en cuenta los siguientes puntos para la entrega de tu
trabajo:
- Un integrante del equipo debe hacer entrega de la tarea.
- Es necesario que se tenga explícito el código en el trabajo aunque
se agradece si deseas hacer alguna acción para ocultarlo para facilitar
la lectura del desarrollo de tu problema.
- Los códigos deben estar comentados y el planteamiento de la solución
se debe explicar de la manera más clara posible tanto como para un
lector experimentado como para un lector que conozca poco acerca de
estadística en general sin tener que explicar la parte teórica de manera
exhaustiva.
- El trabajo deber llevar los datos del equipo.
- En caso de tener archivos extra, scripts, paquetes propios, archivos
de estilo css, etc; favor de mencionarlos cuando se utilice alguna
función, objecto o característica de estos y si se considera pertinente
agregarlos como parte de la entrega.
- El trabajo debe ser entregado en formato pdf, html, etc.
- Debe existir un orden lógico que permita la lectura entre las
imágenes, etc. Por lo que se recomienda darle diseño a sus gráficas
(títulos y nombres adecuados a los ejes por lo menos) y procurar que en
su trabajo final aparezcan estas en su totalidad y que este
referenciadas de manera adecuada.
- Procura evitar mostrar salidas de código repetitivas o que no
aporten al análisis. Si es necesario mostrar mucha información,
considera mostrar solo una muestra, los primeros datos, etc.
- Cuida tu limpieza, evitar mensajes, warnings, etc. Por ejemplo, con
lo siguiente en un archivo markdown puedes evitar la visualización de
esos mensajes molestos:
knitr::opts_chunk$set(
#echo = FALSE, #Podemos evitar que se muestre el código en general
fig.pos = 'H', #Posicionamos todas las gráficas en el lugar donde se calculan
fig.align = 'center', #Posicionamos todas las gráficas en el lugar en el centro del documento
message = FALSE, #Evitamos los mensajes
warning = FALSE, #Evitamos los warnings
comment = NA #Evitamos los comentarios
)
- En caso de no tener cuidado con los puntos de limpieza y que
permitan entregar un trabajo de calidad sin paja y profesional, se dará
una penalización correspondiente.
A work by Carlos Vásquez
carlosfvasquez@ciencias.unam.mx