Los archivos adjuntos tienen el comportamiento de las oportunidades de compra de 10000 clientes (diferentes en cada mes) donde el nombre de la base indica el mes en el que empezó el contacto con WSES. Así, por ejemplo, si en la base de noviembre se tiene la secuencia A, A, L para el cliente X entonces dicho cliente tuvo su primer contacto en noviembre comenzando en etapa A, en diciembre continuó en etapa A y en enero entró en estado L.
Teniendo presente que las cadenas de Markov son una serie de eventos, en la cual la probabilidad de que ocurra un evento depende del evento inmediato anterior (ley de pérdida de memoria). Las cadenas de Markov de primer orden se pueden utilizar para modelar procesos que su conjunto de sucesos posibles sea finito y/o que estas probabilidades permanezcan constantes con el tiempo. Aplicando esto en el caso de la empresa We Sell Everything in Software (WSES) podemos confirmar que según su contexto si es posible modelar las etapas de oportunidad con una cadena de Markov de orden uno ya que como nos narran a lo largo del informe las oportunidades en cada una de las etapas se movían a la siguiente pasado un mes aplicando la pérdida de memoria puesto que no dependemos de todo el historial para realizar un pronóstico a futuro, también tenemos presente que a lo largo del proceso se muestra una estacionalidad que pasa de una etapa a otra para obtener un resultado, en el caso de la empresa WSES las etapas son las siguientes: Etapa A: Inicio y respuesta de la solicitud de propuesta (RFP) Etapa B: Discusión comercial y preselección Etapa C: Discusión del contrato Etapa L: Perdió o dejó el proceso Etapa W: Ganador de las cuales se analizó que para poder obtener un proceso ganador este debió pasar por cada una de estas etapas (exceptuando la etapa L) y finalizar en W, también se tuvo presente que desde cualquiera de las etapas es posible ir a la etapa L en la cual no se puede volver a salir.
Empezando a analizar el caso dado por la empresa We Sell Everything in Software (WSES) con la información suministrada se realizaron las tablas de frecuencia que se muestran a continuación para cada mes respectivamente
Tabla de frecuencias Noviembre \[ \left[ \begin{array}{ll} & A & B & C & L & W \\A & 9984 & 5976 & 0 & 4024 & 0 \\ B & 0 & 3917 & 4478 & 1498 & 0 \\C & 0 & 0 & 1906 & 2960 & 1518\\L & 0 & 0 & 0 & 8482 & 0 \\W & 0 & 0 & 0 & 0 & 1518\end{array} \right] \]
Análisis descriptivo noviembre
| NOV | |
|---|---|
| Media | 2211,70833 |
| Error típico | 519,702882 |
| Mediana | 1513,75 |
| Moda | 3021,75 |
| Desviación estándar | 1800,30359 |
| Varianza de la muestra | 3241093,02 |
| Curtosis | 4,06165501 |
| Coeficiente de asimetría | 1,73492582 |
| Rango | 6900,5 |
| Mínimo | 61,75 |
| Máximo | 6962,25 |
| Suma | 26540,5 |
| Cuenta | 12 |
| Mayor (1) | 6962,25 |
| Nivel de confianza(95,0%) | 1143,85833 |
Tabla de frecuencias Diciembre
\[ \left[ \begin{array}{ll} & A & B
& C & L & W \\A & 9796 & 6004 & 0 & 3996
& 0 \\ B & 0 & 4091 & 4499 & 1505 & 0 \\C &
0 & 0 & 1937 & 2958 & 1541\\L & 0 & 0 & 0
& 8459 & 0 \\W & 0 & 0 & 0 & 0 &
1541\end{array} \right] \]
Análisis descriptivo diciembre
| DIC | |
|---|---|
| Media | 3027,25 |
| Error típico | 835,416147 |
| Mediana | 2447,5 |
| Moda | 0 |
| Desviación estándar | 2893,96642 |
| Varianza de la muestra | 8375041,66 |
| Curtosis | 1,46640766 |
| Coeficiente de asimetría | 1,12732101 |
| Rango | 9796 |
| Mínimo | 0 |
| Máximo | 9796 |
| Suma | 36327 |
| Cuenta | 12 |
| Mayor (1) | 9796 |
| Nivel de confianza(95,0%) | 1838,73854 |
Tabla de frecuencias Enero \[ \left[ \begin{array}{ll} & A & B & C & L & W \\A & 10189 & 5996 & 0 & 4004 & 0 \\ B & 0 & 3930 & 4504 & 1492 & 0 \\C & 0 & 0 & 1915 & 2874 & 1630\\L & 0 & 0 & 0 & 8370 & 0 \\W & 0 & 0 & 0 & 0 & 1630\end{array} \right] \]
Análisis descriptivo enero
| ENE | |
|---|---|
| Media | 3044,5 |
| Error típico | 857,732083 |
| Mediana | 2394,5 |
| Moda | 0 |
| Desviación estándar | 2971,27109 |
| Varianza de la muestra | 8828451,91 |
| Curtosis | 1,9439696 |
| Coeficiente de asimetría | 1,25762341 |
| Rango | 10189 |
| Mínimo | 0 |
| Máximo | 10189 |
| Suma | 36534 |
| Cuenta | 12 |
| Mayor (1) | 10189 |
| Nivel de confianza(95,0%) | 1887,85559 |
Teniendo presente la información de las tablas 1, 2 y 3 (Matrices de frecuencias correspondientes para cada uno de los meses Noviembre, diciembre y enero respectivamente) se evidenció que el comportamiento de cada una de ellas era muy similar entre sí y por ende se observa que en su proceder su comportamiento tiene relación y según el texto informativo de la empresa y lo explicado en el primer punto (cadena de Markov de primer orden) lo cual al examinar más a profundidad observamos:
En general lo que se puede observar de la matriz es que no se puede llegar al estado 1 (A) de ningún otro estado porque ninguno conduce a 1, concluyendo que el estado A es un estado transitorio teniendo presente que de igual manera este cuenta con un bucle haciendo que se pueda repetir el procesos cuántas veces lo necesite pero una vez salido de esto no se puede retornar a A , teniendo presente que esto sucede también en las etapas B y C las cuales cuentan con su respectivo bucle pero como sucede en el estado A una vez salen de este no pueden regresar, convirtiéndolos igualmente que el estado A en estados transitorios
Considerando que los estados A, B y C son transitorios podemos observar que los estados 4 y 5 (L y W respectivamente) son estados absorbentes puesto que se demuestra que a partir de estos ya no se puede ir a ningún otro estado y finaliza el proceso, una observación pertinente es que desde cualquier estado se puede ir al estado L, pero para poder ir al estado W tuvo que haber pasado obligatoriamente por el estado C.
Considerando lo anterior y que si cumple con el objetivo del proceso que nos narra la empresa haciendo que en los estados L y W sean los correspondientes a la finalización de este observamos también que es importante realizar un análisis estadístico del cual examinamos:
Las frecuencias de enero en general son mayores que las de noviembre, sin embargo, para llegar al estado L el mes de noviembre tiene más frecuencias a comparación de enero
El mayor error de variación entre datos (pasar un estado a otro) realizando una comparación entre todos los meses es de un 7% el cual es el estado de ir de C a W noviembre en relación de ir de C a W enero o de W a W.
Utilizando el programa RStudio para determinar la cadena de Markov de orden 1 nos da el siguiente resultado.
Tabla de Probabilidades de transición para el mes de noviembre
\[ \left[ \begin{array}{ll} & A & B
& C & L & W \\A & 0,5 & 0,3 & 0 & 0,2 &
0 \\ B & 0 & 0,4 & 0,45 & 0,15 & 0 \\C & 0 &
0 & 0,3 & 0,46 & 0,24\\L & 0 & 0 & 0 & 1
& 0 \\W & 0 & 0 & 0 & 0 & 1\end{array} \right]
\] ___
Tabla de Probabilidades de transición para el mes de diciembre \[ \left[ \begin{array}{ll} & A & B & C & L & W \\A & 0,49 & 0,31 & 0 & 0,2 & 0 \\ B & 0 & 0,41 & 0,45 & 0,14 & 0 \\C & 0 & 0 & 0,3 & 0,46 & 0,24\\L & 0 & 0 & 0 & 1 & 0 \\W & 0 & 0 & 0 & 0 & 1\end{array} \right] \] ___
Tabla de Probabilidades de transición para el mes de enero \[ \left[ \begin{array}{ll} & A & B & C & L & W \\A & 0,5 & 0,3 & 0 & 0,2 & 0 \\ B & 0 & 0,4 & 0,45 & 0,15 & 0 \\C & 0 & 0 & 0,3 & 0,45 & 0,25\\L & 0 & 0 & 0 & 1 & 0 \\W & 0 & 0 & 0 & 0 & 1\end{array} \right] \]
Grafico de estados para el mes de Noviembre:
Grafico de estado para el mes de Diciembre:
Grafico de estado para el mes de enero:
Dado que para probar que modelación de los datos sea una aproximación de CMTD se dan las siguientes pruebas de hipótesis
\[
\left\{
\begin{array}{ll}
H_{0}: & Independencia\\
H_{1}: & No \ independencia \ (Variables \ relacionadas)
\end{array}
\right.
\] Con formula de chi cuadrado:
Como los errores frecuentes por el concepto de p-value son menores que 0,05 esto quiere decir que los resultados obtenidos por la prueba son fiables y si se puede modelar los datos como una cadena de Markov de tiempo discreto (CMTD) como se muestra en este ejemplo del mes de noviembre el cual comparten los otros 2 meses (diciembre y enero) es decir el p-value cumple para toda la condición de ser menor al valor pre-establecido (0,05):
Gracias a que se cuenta con las frecuencias observadas, la tabla siguiente muestra la comparación entre transiciones de un estado a otro según mes
| Trans | NOV | DIC | ENE |
|---|---|---|---|
| AA | 9984 | 9779 | 10142 |
| AB | 5976 | 5996 | 5957 |
| AC | 0 | 0 | 0 |
| AL | 4024 | 3990 | 3985 |
| AW | 0 | 0 | 0 |
| BB | 3917 | 4087 | 3897 |
| BC | 4478 | 4494 | 4478 |
| BL | 1498 | 1501 | 1479 |
| BW | 0 | 0 | 0 |
| CC | 1906 | 1935 | 1903 |
| CL | 2960 | 2956 | 2860 |
| CW | 1518 | 1538 | 1618 |
Partiendo de la información de la tabla anterior, a continuación, podemos ver de manera gráfica la homogeneidad de los datos por medio de un diagrama de cajas y bigotes:
Del diagrama podemos analizar que las medias de los datos se encuentran
muy cercanas las desviaciones y las medias entre cada muestra mensual,
así como los datos atípicos.
Por otro lado, se aplicó la prueba de Levene la cual corresponde al análisis de las varianzas y demostrar si los datos son homogéneos entre sí.
Dado que la significancia es menor a 0,05 con un valor de 0,0002 podemos proceder a agrupar los datos de los distintos meses (noviembre, diciembre y enero).
Matriz de frecuencias de todos los meses
\[ \left[ \begin{array}{ll} & A & B & C & L & W \\A & 29969 & 17976 & 0 & 12024 & 0 \\ B & 0 & 11938 & 13481 & 4495 & 0 \\C & 0 & 0 & 5758 & 8792 & 4689\\L & 0 & 0 & 0 & 25311 & 0 \\W & 0 & 0 & 0 & 0 & 4689\end{array} \right] \]
Matriz agregada de todos los meses \[ \left[ \begin{array}{ll} & A & B & C & L & W \\A & 0,5 & 0,3 & 0 & 0,2 & 0 \\ B & 0 & 0,4 & 0,45 & 0,15 & 0 \\C & 0 & 0 & 0,3 & 0,46 & 0,24\\L & 0 & 0 & 0 & 1 & 0 \\W & 0 & 0 & 0 & 0 & 1\end{array} \right] \]
De la matriz agregada elaborada a partir de la agrupación de todos los meses se observa que no existe una distinción relevante entre probabilidades de transición, teniendo está más similitud con los valores del mes de enero.
Teniendo presente los p-value y analizando los supuestos de una cadena
de Markov en este casi si existe una estacionariedad temporal, esto se
evalúa al elevar la matriz a valores pares e impares, según el programa
Rstudio los valores de las resultantes no son similares, Por lo tanto,
se identifica que a corto plazo no se estabiliza, es decir, p no existe
esto implica que no se puede identificar lo que valga p a largo plazo,
un ejemplo es:
\(P_{A,A}^{50} \neq\
P_{A,A}^{51}\)
\(8.655103e^{-16} \neq\
4.325314e^{-16}\)
\(P(X_{1}=A,X_{2}=A,X_{3}=B,X_{8}=W)=
?\)
\(P(X_{1}=A,X_{2}=A,X_{3}=B,X_{8}=W)=
0,0368626\)
\(P(X_3=W/X_0=A)= ?\) \(P(X_3=W/X_0=A)= 0,0329239\)
\(P^{3}\):
\(P^{4}\):
\(P^{5}\):
\(P^{6}\):
\(P^{7}\):
\(P^{8}\):
\(P^{9}\):
\(P^{10}\):
de los diagramas podemos analizar que a medida que pasa el tiempo las probabilidades de transición de los estados A, B y C va disminuyendo tendiendo a 0. haciendo que el estado recurrente a largo plazo sea el estado L por encima del W.
\[ \left[ \begin{array}{ll} & L & W\\A & 0,84 & 0,16 \\ B & 0,74 & 0,26 \\C & 0,65 & 0,34\end{array} \right] \]
Así como se evidenció que las probabilidades de estar de un estado a otro fueron disminuyendo significativamente a lo largo del tiempo y aumentando la estadía en otros estados el L sigue siendo el estado absorbente con más probabilidad de caer en el en esta cadena de Markov.
La solución del apartado 5.d es: 0,652177
\[ \left[ \begin{array}{ll} A & B & C\\3,64 & 2,73 & 1,43 \end{array} \right] \]
Como se puede evidenciar en la tabla anteriormente mostrada para el estado A retoma 3,64 transiciones en promedio para caer en un estado absorbente, para el estado B 2,73 y para el estado C 1,43, lo que implicaría que independientemente de si se decide seguir o desistir del proceso es más probable que si el cliente se encuentra en el estado C termine más rápido el proceso que estando en el estado A.
\(a = [50000 \ 30000 \ 15000 \ 0\
0]\)
\(P=\) \[
\left[ \begin{array}{ll} & A & B & C & L & W \\A
& 0,5 & 0,3 & 0 & 0,2 & 0 \\ B & 0 & 0,4
& 0,45 & 0,15 & 0 \\C & 0 & 0 & 0,3 & 0,46
& 0,24\\L & 0 & 0 & 0 & 1 & 0 \\W & 0 &
0 & 0 & 0 & 1\end{array} \right] \]
\(Pronostico_{\ ventas}=
[(P_{A,W}^{estable})*(a_{A})+(P_{B,W}^{estable})(a_{B})
+(P_{C,W}^{estable})*(a_{C})]*60\ USD\)
\(Pronostico_{\ ventas}= 1'251.466,6 \ USD\)