#ESTUDIO DE CASO N.3
Costo de un siniestro El archivo seguros.txt contiene los costos (en millones de pesos) en los cuales ha incurrido una compañia de seguros en relación a un siniestro determinado.
Estadística descriptiva
Importación base de datos
library(readr)
seguros <- read_delim("seguros.txt", delim = ";",
escape_double = FALSE, trim_ws = TRUE)
## Rows: 51253 Columns: 1
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ";"
## dbl (1): 1.166058
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
attach(seguros)
names(seguros) = c("costos")
names(seguros)
## [1] "costos"
La variable X en este caso los costos son continuos y su escala de medición es de razón, ya que en este caso el 0 indica ausencia de costos.
summary(seguros)
## costos
## Min. : 1.000
## 1st Qu.: 1.101
## Median : 1.260
## Mean : 1.499
## 3rd Qu.: 1.587
## Max. :60.711
CV <- round(sd(seguros$costos)/median(seguros$costos),3)
| Variable | Mín. | Máx. | Media | Mediana | CV |
|---|---|---|---|---|---|
| Costo | 1.000 | 60.711 | 1.499 | 1.260 | 0.693 |
Como se puede observar, sus costos mínimos son de 1.000, sus costos máximos son de 60.711 y su media 1.499. En este caso, la media de dispersión es de 0,693, esto quiere decir que existen casos pocos frecuentes en los que la compañia asume costos elevados,ya que hay poca variabilidad en los datos y la muestra que se tiene es muy compacta.
install.packages("moments")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(moments)
skewness(seguros)
## costos
## 14.82202
Al calcular la asimetría se obtiene un valor de 14,8, esto es la simetría con respecto a la media. Esta asimetría es positiva, esto quiere decir que los datos tienden hacia valores menores que la media y que la distribución se encuentra sesgada hacia la izquierda.
kurtosis(seguros$costos)
## [1] 626.3192
El valor que determina el grado de concentración (la curtosis) tiene una medida de 626,31, este número significa los valores que toma la variable alrededor de la zona central de la distribución de frecuencias. En este caso se puede observar que la variable tiene una medida de apuntamiento muy alto.
boxplot(seguros$costos, horizontal = TRUE, border="#27408B", col="#A8A8A8", xlab = "costos en millones de pesos", main = "Diagrama de caja")
En este caso, el diagrama de boxplot es útil para representar nuestra variable de costos. Podemos visualizar como es la distribución a través de los cuartiles, su asimetría y observar cómo los costos de la compañía están acumulados entre 0 y 10 millones de pesos, y que hay muy pocos costo que se salen dentro de ese rango.
hist(seguros$costos, main = "Histograma de costos", xlab = ""
, ylab = "Frecuencia", col = "lightcyan", freq = FALSE, nclass = 50, xlim = c(1,10))
MODELO PROBABILISTICO
La distribución de Pareto en todas sus variedades ha sido ampliamente estudiada en la literatura económica y actuarial debido a su aplicabilidad. La distribución de Pareto converge a cero más lentamente que otras alternativas (e.g., distribución Gamma, distribución log-Normal), y por lo tanto resulta mucho más seguro utilizarla para determinar las primas de grandes siniestros. Esta distribución no está limitada al estudio de costos, también se utiliza frecuentemente en otras áreas para estudiar riqueza, ingresos, retornos, perdidas, etc. Se dice que una variable aleatoria X tiene distribución de Pareto con parámetros θ y η si la función de densidad de probabilidad de X está dada por:
f(x)= (θ*(ηθ))/x(θ+1) para x > θ
donde η > 0 y θ > 0. En esta distribución, η se conoce como parámetro de localización (location), mientras que θ se denomina parámetro de forma (shape). En este caso, los analistas de la compañía de seguros aseguran que, para este tipo de siniestro en particular, X tiene distribución de Pareto con parámetros η = 1 y θ = 3, esto es, la función de densidad de probabilidad de X es:
f(x)= 3/x^4 si x > 1 o f(x) = 0 en otro caso
Abreviadamente, esto se escribe X ∼ Pareto(η = 1, θ = 3), donde el símbolo “∼” se lee “tiene distribución”. Observe que el rango de la variable aleatoria X es (1, ∞) = {x ∈ R : x > 1}.
# x: costo que asume la compañia cuando paga la cobertura del siniestro.
hist(seguros$costos, main = "Histograma de costos vs funcion de densidad" , xlab = "", ylab = "Frecuencia", col = "lightcyan", freq = FALSE, nclass = 50, xlim = c(1, 10), ylim = c(0, 1.2))
lines(density(seguros$costos), col = "purple", lwd = 2)
legend("topright",col=c("purple"),legend =c("Densidad normal estimada"),
lwd=2, bty = "n")
La función de densidad si representa bien los datos, ya que sigue la secuencia de estos.Entre 0 y 10 millones los costos están acumulados y después de este valor la cantidad de costos es decreciente hasta llegar a 60 millones.
Distribución de Pareto
install.packages("PtProcess")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(PtProcess)
round(ppareto(q = 1.2, lambda = 3, a = 1),3)
## [1] 0.421
La probabilidad de que la compañía asuma un costo menor o igual a 1.2 es de 0.421, lo que indica que es más probable que la compañía asuma costos mayores a estos.
round(ppareto(q = 1.5, lambda = 3, a = 1, lower.tail = FALSE),3)
## [1] 0.296
La probabilidad de que los costos sean mayores o iguales a 1.5 es de 0.296, lo que indica que es poco probable tener estos costos.
round(ppareto(q = 1.7, lambda = 3, a = 1)-ppareto(q = 1.0, lambda = 3, a = 1),3)
## [1] 0.796
La probabilidad de que los costos estén entre 1.0 y 1.7 es de 0.796, lo que indica que es muy probable tener estos costos en la compañía, y es en donde más se acumulan los costos, esto se debe mas a que el rango en el que se esta calculando esta probabilidad abarca a la media y a la mediana.
round(quantile(seguros$costos, c(0.95)),3)
## 95%
## 2.707
En este caso podemos observar que el 95% de los costos son inferiores a 2.707, lo que indica que los costos que se concentran entre 0 y 2.707 son mayoría.
round(quantile(seguros$costos, c(0.75)),3)
## 75%
## 1.587
En este punto observamos que el 75% de los datos se concentran en un intervalo entre 0 y 1.58. Se puede concluir que solo el 25% de los costos son mayores a 1.58y y que la media esta ubicada en el tercer cuartil.
#Valor esperado de x
P <- function(x){x*(3/x^4)}
VE <- integrate(f = P, lower = 1, upper = Inf)$value
VE
## [1] 1.5
#Promedio Empírico
round(mean(seguros$costos),2)
## [1] 1.5
Observamos que la diferencia que hay entre el valor esperado y el promedio empirico no existe asi que no hay una diferencia sustancial entre estos valores.
#Coeficiente de Variación de x
M <- function(x){x^2*(3/x^4)}
VE2 <- integrate(f = M, lower = 1, upper = Inf)$value
VA <- VE2-(VE)^2
VAR <- round((sqrt(VA)/VE),2)
VAR
## [1] 0.58
#Coeficiente de Variacion empirico
CV
## [1] 0.693
Se puede observar que se presenta una diferencia entre estos dos valores, y que en este caso es mas notoria que la comparacion del punto anterior.
Complete la siguiente tabla:
L <- function(X){X^3*(3/X^4)}
E <- mean(seguros$costos)
D <- sd(seguros$costos)
#Sesgo <- (L-3*(E)*(D)^2-(E))/(D)^3
#DIVERGE
Al hallar el sesgo de la variable X se realiza la integral entre 1 que es su valor minimo e infinito, sin embargo esta integral diverge, por lo cual sus limites no existen o son infinitos.
| Cantidad | Valor |
|---|---|
| Probabilidad de x=>1.5 | 0.296 |
| Percentíl 95 de x | 2.707 |
| Valor esperado de x | 1.5 |
| Coeficiente de variación de x | 0.58 |
| Sesgo de x | Div. |
Elaborado por: Paula Medina y Sara Morales