1 En este caso, la variable aleatoria (cuantitativa) de estudio X es el costo que asume la compañía cuando paga la cobertura del siniestro. ¿La variable X es discreta o continua? ¿Cuál es la escala de medición?
Los costos de una empresa son una variable cuantitativa en tanto su representación es numérica, continua por cuanto puede tomar un valor entre dos consecutivos y se evalua por medio de una de escala de razón dado que además de tener una jerarquía, un orden y una distancia determinada entre sus valores, permite determinar que 0 es ausencia de costo.
2 Completar las siguiente tabla:
| Variables | Costo |
|---|---|
| Min. | 1.000007 |
| Max. | 60.710640 |
| Media | 1.498823 |
| Mediana | 1.260180 |
| CV | 0.5828978 |
3 Hacer un histograma de la variable costos:
Nota: Hacer el histograma en R con feq= FALSO y nclass= 50
La distribución de Pareto en todas sus variedades ha sido ampliamente estudiada en la literatura económica y actuarial debido a su aplicabilidad. La distribución de Pareto converge a cero más lentamente que otras alternativas (e.g., distribución Gamma, distribución log-Normal), y por lo tanto resulta mucho más seguro utilizarla para determinar las primas de grandes siniestros. Esta distribución no está limitada al estudio de costos, también se utiliza frecuentemente en otras áreas para estudiar riqueza, ingresos, retornos, perdidas, etc.
Se dice que una variable aleatoria X tiene distribución de Pareto con parametros θ y η si la función de densidad de probabilidad de X esta dada por
\[f\left(x\right) =\frac{θη^θ}{x^θ+1}, \text{para x>η}\]
donde η > 0 y θ > 0. En esta distribución, η se conoce como parámetro de localización ( location), mientras 0 se denomina parámetro de forma ( shape).
En este caso, los analistas de la compañía de seguros aseguran que, para este tipo de siniestro en particular, X tiene distribución de Pareto con parámetros η=1 y 0=3, esto es, la función de densidad de probabilidad de X es
\[f(x)=\left\{\begin{array}{ll}\frac{3}{x^4}, & \mbox{si } x > 1\\0, & \mbox{en otro caso. } \end{array}\right.\]
Abreviadamente, esto se escribe X ∼ Pareto( η=1, 0=3), donde el símbolo “∼” se lee “tiene distribución”. Observe que el rango de la variable aleatoria X es (1,∞)= {x ∈R : x > 1}.
1 Hacer nuevamente el histograma de los datos, y sobre este, graficar la función de densidad de X. Visualmente, ¿esta función de densidad parece representar bien a los datos?
Nota: Una alternativa en R para graficar la función de densidad sobre el histograma consiste en usar la función curve con el argumento add= TRUE
En principio, se puede determinar que esta (3/x^4) si parece representar bien los datos en tanto nos demuestra como estos tienden a concentrarse en valores cercanos a cero (en millones de pesos) donde, evidentemente, se encuentra su media (1.498823) y mediana (1.260180).
Así mismo, permite visibilizar que no existen valores inferiores a cero debido a que no puede haber un costo negativo y devela que hay pocos datos superiores a 5 (en millones de pesos), como el máximo que equivale a 60.710640.
Adicionalmente, por medio de esta gráfica, es posible observar que la distribución es sesgada, presentando una asimetría positiva.
2 Calcular e interpretar Pr[X ≥ 1.5].
1-pPareto(1.5,1,3)
## [1] 0.2962963
La probabilidad de obtener un costo mayor o igual a 1.5 es equivalente a 0.2962963, lo que significa que es poco probable obtener este tipo de resultados y que es más probable obtener valores menores a este. Esto también se puede ver demostrado en el histograma y la gráfica de densidad anteriormente presentadas, donde se observa que la mayoría de datos se condensan más cerca del cero.
3 Calcular e interpretar el percentil x_0.95
qPareto(0.95,1,3)
## [1] 2.714418
Una forma de comprobar el resultado es por medio de la siguiente ecuación perteneciente a la distribución de pareto:
\[X\left(p\right) =η(1-p)^\frac{-1}{θ}\]
Si se remplazan los varlores, se obtiene el siguiente valor:
\[X\left(0.95\right) =1(1-0.95)^\frac{-1}{3}= 2.714417617\]
La interpretación que se puede obtener de este resultado es que el 95% de los costos son inferiores a 2.714418 y tan solo un 5% resultan mayores a este. Por lo tanto, se puede inferir que los datos que se concentran en un intervalo de 0 a 2.714418 son mayoría.
4 Calcular e interpretar el valor esperado de X. Comparar este valor esperado con el promedio empiríco. ¿Existe una diferencia sustancial entre estos valores?
\[E\left(x\right) =\frac{θη}{θ-1} \]
Por lo tanto el valor esperado es igual a:
## [1] 1.5
Entonces, si el valor esperado de X es igual a 1.5 y la media vale 1.498823, es plausible observar que no existe una diferencia sustancial entre los valores, pues son realmente cercanos sin omitir que si difieren por un poco más de unas cifras (0.001177= diferencia entre los valores)
5 Calcular e interpretar el coeficiente de variación de X. Comparar este coeficiente de variación con el coeficiente de variación empírico. ¿Existe una diferencia sustancial entre estos valores?
Coeficiente de variación:
\[CV\left(x\right) =\frac{\sqrt{V(x)}}{E(x)} \]
Varianza:
\[V\left(x\right) =(\frac{η}{θ-1})^2 * (\frac{θ}{θ-2}) \] Valor esperado o esperanza: 1.5
Por lo tanto, el coeficiente de variación es igual a:
## [1] 0.5773503
De acuerdo con lo anterior si el coeficiente de variación es igual a 0.5773503 y el obtenido de manera empiríca es igual a 0.5828978, es posible interpretar que, de la misma forma que en el punto anterior, no existe una diferencia sustancial entre los valores, pues son realmente cercanos sin omitir que si difieren por un poco más de unas cifras (0.0055475 = diferencia entre los valores).
Complete la siguiente tabla:
| Cantidad | Valor |
|---|---|
| P(X ≥ 1.5) | 0.2962963 |
| Percentíl 95 de X | 2.714418 |
| Valor esperado | 1.5 |
| CV | 0.5773503 |
RDocumentation(s.f.). Pareto. Recuperado de: https://www.rdocumentation.org/packages/EnvStats/versions/2.3.1/topics/Pareto
Grupo de Investigación TeLoYDisRen(s.f.). Distribución de Pareto. Recuperado de: https://carleos.epv.uniovi.es/~carleos/docencia/teloydisren/descriptiva+probabilidad/l_edyp/lib_edyp_html/node60.html