Generación de escenarios futuros con analítica

Actividad 4. Simulación de escenarios de riesgo

Ximena Meléndez - A01720569 Ana Sofía Mijares - A01236164 Sofía Badillo - A01384253

Responde las problemáticas que se plantean en los siguientes puntos.

Indicadores

¿Cuál es la utilidad de los Indicadores Clave de Desempeño y de los Indicadores Clave de Riesgo?

Los Indicadores Clave de Desempeño (KPI, por sus siglas en inglés) y los Indicadores Clave de Riesgo (KRIs, por sus siglas en inglés) son herramientas fundamentales para evaluar el rendimiento y los riesgos asociados con cualquier proyecto, proceso o cambio en una organización.

Ahora, con respecto al cambio en los métodos de pago del transporte en Nuevo León, con el objetivo de evaluar el desempeño y los riesgos asociados con este cambio en los usuarios, aquí te propongo algunos posibles KPI y KRIs enfocados en la experiencia del usuario:

Caso de Estudio:

En el último trimestre, el transporte de Nuevo León implementó un cambio en los métodos de pago del usuario, pasando de realizar el pago en efectivo a realizarlo por medio de una aplicación llamada Urbani. Como parte de la implementación, queremos evaluar el desempeño y los riesgos que generó este cambio en los usuarios, para esto necesitamos proponer indicadores clave de desempeño e indicadores clave de riesgo, que proporcionen información importante. Puedes enfocarte en distintas áreas de esta implementación, tanto en experiencia en usuario, tecnología, ventas, administración, etc.

Indicadores Clave de Desempeño (KPI): - Tasa de adopción de la aplicación Urbani: Porcentaje de usuarios que han comenzado a utilizar la aplicación en comparación con el total de usuarios de transporte público. - Índice de satisfacción del usuario: Implementar una encuesta rápida al terminar de hacer una recarga, y el resultado de encuestas o comentarios de usuarios que evalúan su experiencia con la nueva forma de pago. - Número de transacciones por usuario: Promedio de veces y monto que un usuario utiliza la aplicación para pagar el transporte en un período específico. - Porcentaje de transacciones exitosas: Proporción de transacciones realizadas con éxito en comparación con el total de transacciones intentadas.

Indicadores Clave de Riesgo (KRI): - Tasa de errores de transacción: Porcentaje de transacciones que resultan en errores técnicos o de usuario. - Tasa de abandono de la aplicación: Porcentaje de usuarios que descargan la aplicación pero no la utilizan o la abandonan después de un solo uso. - Impacto en la demanda de transporte público: Cambios en el número de usuarios de transporte público como resultado del cambio en el método de pago.

Árboles de decisión

Dado la base de datos contenida en el siguiente link:

https://github.com/datasciencedojo/datasets/blob/master/titanic.csv

Realiza un árbol de decisión para evaluar la supervivencia de los pasajeros del barco Titanic. Para realizarlo considera los siguientes puntos:

Realiza un preproceso al dataset, coloca los datos numéricos en el formato requerido, y los categóricos en tipo de dato factor, elimina valores faltantes y considera las variables necesarias para realizar el análisis.

Separa el conjunto de datos en entrenamiento y prueba, para esto considera que ambos grupos deben tener un orden aleatorio para poder tener riqueza en ambos grupos.

Entrena el modelo de árbol de decisión a tu conjunto de entrenamiento y evalúa con tu conjunto de prueba, para esto realiza varias métricas como Accuracy, Recall, F1 e interpreta esta información.

Modifica algunos hiperparámetros, entrena y evalúa nuevamente el modelo para analizar si hubo mejora en las métricas.

library(readr)
titanic <- read_csv("titanic (1).csv")

## Rows: 891 Columns: 12
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): Name, Sex, Ticket, Cabin, Embarked
## dbl (7): PassengerId, Survived, Pclass, Age, SibSp, Parch, Fare
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

Titanic <- titanic[,c("Pclass", "Age", "Sex", "Survived")]

Titanic$Survived <- as.factor (ifelse(Titanic$Survived==0, "Murio","Sobrevivió"))
Titanic$Pclass <- as.factor(Titanic$Pclass)
Titanic$Sex <- as.factor(Titanic$Sex)
str(Titanic)

## tibble [891 × 4] (S3: tbl_df/tbl/data.frame)
##  $ Pclass  : Factor w/ 3 levels "1","2","3": 3 1 3 1 3 3 1 3 3 2 ...
##  $ Age     : num [1:891] 22 38 26 35 35 NA 54 2 27 14 ...
##  $ Sex     : Factor w/ 2 levels "female","male": 2 1 1 1 2 2 2 2 1 1 ...
##  $ Survived: Factor w/ 2 levels "Murio","Sobrevivió": 1 2 2 2 1 1 1 1 2 2 ...

Titanic <- na.omit(Titanic)

library(rpart)
arbol <- rpart(formula = Survived ~., data = Titanic)
arbol

## n= 714 
## 
## node), split, n, loss, yval, (yprob)
##       * denotes terminal node
## 
##  1) root 714 290 Murio (0.59383754 0.40616246)  
##    2) Sex=male 453  93 Murio (0.79470199 0.20529801)  
##      4) Age>=6.5 429  77 Murio (0.82051282 0.17948718) *
##      5) Age< 6.5 24   8 Sobrevivió (0.33333333 0.66666667) *
##    3) Sex=female 261  64 Sobrevivió (0.24521073 0.75478927)  
##      6) Pclass=3 102  47 Murio (0.53921569 0.46078431)  
##       12) Age>=38.5 12   1 Murio (0.91666667 0.08333333) *
##       13) Age< 38.5 90  44 Sobrevivió (0.48888889 0.51111111)  
##         26) Age>=5.5 75  35 Murio (0.53333333 0.46666667)  
##           52) Age< 12 8   0 Murio (1.00000000 0.00000000) *
##           53) Age>=12 67  32 Sobrevivió (0.47761194 0.52238806) *
##         27) Age< 5.5 15   4 Sobrevivió (0.26666667 0.73333333) *
##      7) Pclass=1,2 159   9 Sobrevivió (0.05660377 0.94339623) *

library(rpart.plot)

rpart.plot(arbol)

Realiza una conclusión.

A través de este análisis de árbol de decisión pudimos conocer que había mayor probabilidad de sobrevivir si eran niños de al rededor de 6 años, 60% de los hombres mayores (no infantes) no sobrevivieron. También se indica que el 37% de las mujeres sobrevivieron, 22% siendo de la clase 3, de igual manera en su mayoría eran de edades pequeñas.

Sin embargo podrías especificar más nuestro análisis si estuviera balanceada la base de datos, ya que predomina en más del 50% el valor de muertes. No sé contemplo hacer el balanceo manualmente en este análisis ya que si se recortan los datos para emparejarlo la base quedría con pocos registros, crear los datos para equilibrarla consideramos no era factible porque son datos reales.

Referencias

(Mijares(2022) notes,“Minería de datos”, modulo 2)