#ESTUDIO DE CASO N.3

Costo de un siniestro El archivo seguros.txt contiene los costos (en millones de pesos) en los cuales ha incurrido una compañia de seguros en relación a un siniestro determinado.

Estadística descriptiva

Importación base de datos

library(readr)
seguros <- read_delim("seguros.txt", delim = ";", 
                      escape_double = FALSE, trim_ws = TRUE)
## Rows: 51253 Columns: 1
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ";"
## dbl (1): 1.166058
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
attach(seguros)
names(seguros) = c("costos")
names(seguros)
## [1] "costos"
  1. En este caso, la variable aleatoria (cuantitativa) de estudio X es el costo que asume la compañía cuando paga la cobertura del siniestro. ¿La variable X es discreta o continua? ¿Cúal es la escala de medición? ##La variable X en este caso los costos son continuos y su escala de medición es de razón, ya que en este caso el 0 indica ausencia de costos.

  2. Completar la siguiente tabla e interpretar:

summary(seguros)
##      costos      
##  Min.   : 1.000  
##  1st Qu.: 1.101  
##  Median : 1.260  
##  Mean   : 1.499  
##  3rd Qu.: 1.587  
##  Max.   :60.711
CV <- round(sd(seguros$costos)/median(seguros$costos),3)
Variable Mín. Máx. Media Mediana CV
Costo 1.000 60.711 1.499 1.260 0.693

##Como vemos en la tabla el costo mínimo de los datos es de 1.000, el promedio de costos del total de datos es de 1499, la variación de datos en esta compañia de seguros es muy pequeña, ya que como veremos más adelante la mayoría de los costos está entre 0 y 10 millones de pesos.

  1. Calcular e interpretar el coeficiente de simetría y de curtosis.
install.packages("moments")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(moments)
skewness(seguros)
##   costos 
## 14.82202

##En este caso el coefiente de simetria es positiva, lo que nos representa que la cola de la distribución se alarga hacia la derecha con respecto a su media, por ende en este caso quiere decir que la mayoría de los datos están ubicados entre 0 y 10 millones.

kurtosis(seguros$costos)
## [1] 626.3192

##En este caso podemos ver que la curva de distribución tiene un gran valor, lo cual indica que tiene un grado de concentración muy alto.

  1. Realizar e interpretar diagrama de Box-Plot.
boxplot(seguros$costos, horizontal = TRUE, border="#27408B", col="#A8A8A8")

##En este diagrama de caja vemos que los costos están acumulados entre 0 y 10 millones de pesos, son muy pocos los datos que están fuera de ese rango. Para la compañia de seguros indica que los costos están concentrados en ciertos valores y son muy pocos los costos que se salen de este rango.

  1. Hacer un histograma de la variable costos. Nota: Hacer el histograma en R con freq = FALSE y nclass = 50.
hist(seguros$costos, main = "Histograma de costos", xlab = ""
     , ylab = "Frecuencia", col = "lightcyan", freq = FALSE, nclass = 50, xlim = c(1,10))

Modelo probabilístico

# x: costo que asume la compañia cuando paga la cobertura del siniestro.
  1. Hacer nuevamente el histograma de los datos, y sobre este, graficar la función de densidad de X. Visualmente ¿esta función de densidad parece representar bien a los datos? Nota: Una alternativa en R para graficar la funci´on de densidad sobre el histograma consiste en usar la funci´on curve con el argumento add = TRUE.
hist(seguros$costos, main = "Histograma de costos", xlab = ""
     , ylab = "Frecuencia", col = "lightcyan", freq = FALSE, nclass = 50,
     xlim = c(1, 10), ylim = c(0, 1.2))

lines(density(seguros$costos), col = "purple", lwd = 2)

legend("topright",col=c("purple"),legend =c("Densidad normal estimada"),
       lwd=2, bty = "n")

##La función de densidad si representa bien los datos, ya que sigue la secuencia de estos, entre 0 y 10 millones los costos están acumulados y después de este valor la cantidad de costos es decreciente hasta llegar a 60 millones.

Distribución de Pareto

install.packages("PtProcess")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(PtProcess)
  1. Calcular e interpretar Pr [X ≤ 1.2].
round(ppareto(q = 1.2, lambda = 3, a = 1),3)
## [1] 0.421

##La probabilidad de que la compañía asuma un costo menor o igual a 1.2 es de 0.421, lo que indica que es más probable que la compañía asuma costos mayores a estos.

  1. Calcular e interpretar Pr [X ≥ 1.5].
round(ppareto(q = 1.5, lambda = 3, a = 1, lower.tail = FALSE),3)
## [1] 0.296

##La probabilidad de que los costos sean mayores o iguales a 1.5 es de 0.296, lo que indica que es poco probable tener estos costos.

  1. Calcular e interpretar Pr [1.0 ≤ X ≤ 1.7].
round(ppareto(q = 1.7, lambda = 3, a = 1)-ppareto(q = 1.0, lambda = 3, a = 1),3)
## [1] 0.796

##La probabilidad de que los costos estén entre 1.0 y 1.7 es de 0.796, lo que indica que es muy probable tener estos costos en la compañía, y es en donde más se acumulan los costos.

  1. Calcular e interpretar el percentil x0.95.
round(quantile(seguros$costos, c(0.95)),3)
##   95% 
## 2.707

##En este caso podemos observar que el 95% de los costos son inferiores a 2.707, lo que indica que los costos se concentran entre 0 y 2.707 son mayoría.

  1. Calcular e interpretar el percentil x0.75.
round(quantile(seguros$costos, c(0.75)),3)
##   75% 
## 1.587

##En este punto observamos que el 75% de los datos se concentran en un intervalo entre 0 y 1.587.

  1. Calcular e interpretar el valor esperado de X. Comparar este valor esperado con el promedio empírico. ¿Existe una diferencia sustancial entre estos valores?
#Valor esperado de x
P <- function(x){x*(3/x^4)}
VE <- integrate(f = P, lower = 1, upper = Inf)$value 
VE
## [1] 1.5
#Promedio Empírico 
round(mean(seguros$costos),2)
## [1] 1.5

##Observamos que la diferencia que hay entre el valor esperado y el promedio empirico es mínima, no existe una diferencia sustancial en estos valores.

  1. Calcular e interpretar el coeficiente de variación de X. Comparar este coeficiente de variación con el coeficiente de variación empírico. ¿Existe una diferencia sustancial entre estos valores?
#Coeficiente de Variación de x
CV
## [1] 0.693
M <- function(x){x^2*(3/x^4)}
VE2 <- integrate(f = M, lower = 1, upper = Inf)$value
VA <- VE2-(VE)^2
VAR <- round((sqrt(VA)/VE),2)
VAR
## [1] 0.58

##Podemos observar que la diferencia entre estos dos valores es mínima, aunque ya es un poco mas notoria que en el anterior caso.

#Coeficiente de Variacion empirico 
CV
## [1] 0.693
L <- function(X){X^3*(3/X^4)}
E <- mean(seguros$costos)
D <- sd(seguros$costos)

#Sesgo <- (L-3*(E)*(D)^2-(E))/(D)^3
#DIVERGE 
Cantidad Valor
Probabilidad de x=>1.5 0.296
Percentíl 95 de x 2.707
Valor esperado de x 1.5
Coeficiente de variación de x 0.58
Sesgo de x Div.