#ESTUDIO DE CASO N.3

Costo de un siniestro El archivo seguros.txt contiene los costos (en millones de pesos) en los cuales ha incurrido una compañia de seguros en relación a un siniestro determinado.

Estadística descriptiva

Importación base de datos

library(readr)
seguros <- read_delim("seguros.txt", delim = ";", 
                      escape_double = FALSE, trim_ws = TRUE)
## Rows: 51253 Columns: 1
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ";"
## dbl (1): 1.166058
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
attach(seguros)
names(seguros) = c("costos")
names(seguros)
## [1] "costos"
  1. En este caso, la variable aleatoria (cuantitativa) de estudio X es el costo que asume la compañía cuando paga la cobertura del siniestro. ¿La variable X es discreta o continua? ¿Cúal es la escala de medición?

La variable X en este caso los costos son continuos y su escala de medición es de razón, ya que en este caso el 0 indica ausencia de costos.

  1. Completar la siguiente tabla e interpretar:
summary(seguros)
##      costos      
##  Min.   : 1.000  
##  1st Qu.: 1.101  
##  Median : 1.260  
##  Mean   : 1.499  
##  3rd Qu.: 1.587  
##  Max.   :60.711
CV <- round(sd(seguros$costos)/median(seguros$costos),3)
Variable Mín. Máx. Media Mediana CV
Costo 1.000 60.711 1.499 1.260 0.693

Como se puede observar, sus costos mínimos son de 1.000, sus costos máximos son de 60.711 y su media 1.499. En este caso, la media de dispersión es de 0,693, esto quiere decir que existen casos pocos frecuentes en los que la compañia asume costos elevados,ya que hay poca variabilidad en los datos y la muestra que se tiene es muy compacta.

  1. Calcular e interpretar el coeficiente de simetría y de curtosis.
install.packages("moments")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(moments)
skewness(seguros)
##   costos 
## 14.82202

Al calcular la asimetría se obtiene un valor de 14,8, esto es la simetría con respecto a la media. Esta asimetría es positiva, esto quiere decir que los datos tienden hacia valores menores que la media y que la distribución se encuentra sesgada hacia la izquierda.

kurtosis(seguros$costos)
## [1] 626.3192

El valor que determina el grado de concentración (la curtosis) tiene una medida de 626,31, este número significa los valores que toma la variable alrededor de la zona central de la distribución de frecuencias. En este caso se puede observar que la variable tiene una medida de apuntamiento muy alto.

  1. Realizar e interpretar diagrama de Box-Plot.
boxplot(seguros$costos, horizontal = TRUE, border="#27408B", col="#A8A8A8", xlab = "costos en millones de pesos", main = "Diagrama de caja")

En este caso, el diagrama de boxplot es útil para representar nuestra variable de costos. Podemos visualizar como es la distribución a través de los cuartiles, su asimetría y observar cómo los costos de la compañía están acumulados entre 0 y 10 millones de pesos, y que hay muy pocos costo que se salen dentro de ese rango.

  1. Hacer un histograma de la variable costos.
hist(seguros$costos, main = "Histograma de costos", xlab = ""
     , ylab = "Frecuencia", col = "lightcyan", freq = FALSE, nclass = 50, xlim = c(1,10))

MODELO PROBABILISTICO

La distribución de Pareto en todas sus variedades ha sido ampliamente estudiada en la literatura económica y actuarial debido a su aplicabilidad. La distribución de Pareto converge a cero más lentamente que otras alternativas (e.g., distribución Gamma, distribución log-Normal), y por lo tanto resulta mucho más seguro utilizarla para determinar las primas de grandes siniestros. Esta distribución no está limitada al estudio de costos, también se utiliza frecuentemente en otras áreas para estudiar riqueza, ingresos, retornos, perdidas, etc. Se dice que una variable aleatoria X tiene distribución de Pareto con parámetros θ y η si la función de densidad de probabilidad de X está dada por:

f(x)= (θ*(ηθ))/x(θ+1) para x > θ

donde η > 0 y θ > 0. En esta distribución, η se conoce como parámetro de localización (location), mientras que θ se denomina parámetro de forma (shape). En este caso, los analistas de la compañía de seguros aseguran que, para este tipo de siniestro en particular, X tiene distribución de Pareto con parámetros η = 1 y θ = 3, esto es, la función de densidad de probabilidad de X es:

f(x)= 3/x^4 si x > 1 o f(x) = 0 en otro caso

Abreviadamente, esto se escribe X ∼ Pareto(η = 1, θ = 3), donde el símbolo “∼” se lee “tiene distribución”. Observe que el rango de la variable aleatoria X es (1, ∞) = {x ∈ R : x > 1}.

# x: costo que asume la compañia cuando paga la cobertura del siniestro.
  1. Hacer nuevamente el histograma de los datos, y sobre este, graficar la función de densidad de X.Visualmente ¿esta función de densidad parece representar bien a los datos?
hist(seguros$costos, main = "Histograma de costos vs funcion de densidad" , xlab = "",  ylab = "Frecuencia", col = "lightcyan", freq = FALSE, nclass = 50, xlim = c(1, 10), ylim = c(0, 1.2))

lines(density(seguros$costos), col = "purple", lwd = 2)

legend("topright",col=c("purple"),legend =c("Densidad normal estimada"),
       lwd=2, bty = "n")

La función de densidad si representa bien los datos, ya que sigue la secuencia de estos.Entre 0 y 10 millones los costos están acumulados y después de este valor la cantidad de costos es decreciente hasta llegar a 60 millones.

Distribución de Pareto

install.packages("PtProcess")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(PtProcess)
  1. Calcular e interpretar Pr [X ≤ 1.2].
round(ppareto(q = 1.2, lambda = 3, a = 1),3)
## [1] 0.421

La probabilidad de que la compañía asuma un costo menor o igual a 1.2 es de 0.421, lo que indica que es más probable que la compañía asuma costos mayores a estos.

  1. Calcular e interpretar Pr [X ≥ 1.5].
round(ppareto(q = 1.5, lambda = 3, a = 1, lower.tail = FALSE),3)
## [1] 0.296

La probabilidad de que los costos sean mayores o iguales a 1.5 es de 0.296, lo que indica que es poco probable tener estos costos.

  1. Calcular e interpretar Pr [1.0 ≤ X ≤ 1.7].
round(ppareto(q = 1.7, lambda = 3, a = 1)-ppareto(q = 1.0, lambda = 3, a = 1),3)
## [1] 0.796

La probabilidad de que los costos estén entre 1.0 y 1.7 es de 0.796, lo que indica que es muy probable tener estos costos en la compañía, y es en donde más se acumulan los costos, esto se debe mas a que el rango en el que se esta calculando esta probabilidad abarca a la media y a la mediana.

  1. Calcular e interpretar el percentil x0.95.
round(quantile(seguros$costos, c(0.95)),3)
##   95% 
## 2.707

En este caso podemos observar que el 95% de los costos son inferiores a 2.707, lo que indica que los costos que se concentran entre 0 y 2.707 son mayoría.

  1. Calcular e interpretar el percentil x0.75.
round(quantile(seguros$costos, c(0.75)),3)
##   75% 
## 1.587

En este punto observamos que el 75% de los datos se concentran en un intervalo entre 0 y 1.58. Se puede concluir que solo el 25% de los costos son mayores a 1.58y y que la media esta ubicada en el tercer cuartil.

  1. Calcular e interpretar el valor esperado de X. Comparar este valor esperado con el promedio empírico. ¿Existe una diferencia sustancial entre estos valores?
#Valor esperado de x
P <- function(x){x*(3/x^4)}
VE <- integrate(f = P, lower = 1, upper = Inf)$value 
VE
## [1] 1.5
#Promedio Empírico 
round(mean(seguros$costos),2)
## [1] 1.5

Observamos que la diferencia que hay entre el valor esperado y el promedio empirico no existe asi que no hay una diferencia sustancial entre estos valores.

  1. Calcular e interpretar el coeficiente de variación de X. Comparar este coeficiente de variación con el coeficiente de variación empírico. ¿Existe una diferencia sustancial entre estos valores?
#Coeficiente de Variación de x
M <- function(x){x^2*(3/x^4)}
VE2 <- integrate(f = M, lower = 1, upper = Inf)$value
VA <- VE2-(VE)^2
VAR <- round((sqrt(VA)/VE),2)
VAR
## [1] 0.58
#Coeficiente de Variacion empirico 
CV
## [1] 0.693

Se puede observar que se presenta una diferencia entre estos dos valores, y que en este caso es mas notoria que la comparacion del punto anterior.

  1. CONSOLIDACION DE LOS RESULTADOS DEL MODELOS

Complete la siguiente tabla:

L <- function(X){X^3*(3/X^4)}
E <- mean(seguros$costos)
D <- sd(seguros$costos)

#Sesgo <- (L-3*(E)*(D)^2-(E))/(D)^3
#DIVERGE 

Al hallar el sesgo de la variable X se realiza la integral entre 1 que es su valor minimo e infinito, sin embargo esta integral diverge, por lo cual sus limites no existen o son infinitos.

Cantidad Valor
Probabilidad de x=>1.5 0.296
Percentíl 95 de x 2.707
Valor esperado de x 1.5
Coeficiente de variación de x 0.58
Sesgo de x Div.

Elaborado por: Paula Medina y Sara Morales