Costo de un siniestro

En el siguiente análisis observarémos el comportamiento de la variable costos en función de determinado accidente.

datos <- read.delim2("seguros.txt")
colnames(datos)=c("costos")
attach(datos)
costos.real=as.numeric(costos)

Estadística descriptiva

  1. En este caso, la variable aleatoria (cuantitativa) de estudio X es el costo que asume la compañía cuando paga la cobertura del siniestro. ¿La variable X es discreta o continua? ¿Cuál es la escala de medición?

La base de datos a trabajar es “seguros.txt”, allí se encuentra una variable X que es el costo que asume la compañía cuando paga la cobertura del siniestro que. En este estudio, el conjunto de datos pertenece a una variable de tipo continua, con una escala de medición de razón, ya que se identifica un cero absoluto y no relativo, lo que implica que el 0 equivale a ausencia de costos.

  1. Completar la siguiente tabla e interpretar:
summary(costos.real)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   1.101   1.260   1.499   1.587  60.711
sd(costos.real)/ mean( costos.real)
## [1] 0.5829002
Variable Mínimo Máximo Media Mediana CV
Costos 1.000 60.710 1.498 1.260 0.5828

Tabla 1. Datos estadísticos del caso de estudio

Al realizar un análisis descriptivo de los datos se encuentra que los costos se distribuyen entre 1 y 60, siendo este último el máximo. Desde un primer momento se destaca una concentración de los datos a la derecha, cerca de 1, pues el centro de gravedad es 1.2 y la media es 1.49, esto quiere decir que normalmente los costos que paga la compañía cuando paga la cobertura del seguro son muy bajos. No obstante, también existen algunos casos, atípicos, en el que costo es elevado, esto explica el hecho de que la compañía presente un coeficiente de variación significativo.

  1. Calcular e interpretar el coeficiente de simetría y de curtosis.
library(e1071)
round(skewness(costos.real),3)
## [1] 14.822
round(kurtosis(costos.real),3)
## [1] 623.295

Otras mediciones importantes que se deben tener en cuenta a la hora de analizar la variable es el coeficiente de asimetría y de curtosis. Por un lado, el coeficiente de asimetría mide el grado de asimetría, valga la redundancia, con respecto a la distribución. En este caso el coeficiente de Fisher es de 14.822, es decir, es mayor a 0 lo que implica que la distribución tiene una asimetría positiva pues la media es mayor que la moda y la mediana (la mitad de los datos). Por otro lado, el coeficiente de curtosis determina el grado de concentración que presentan los datos. En este caso, el coeficiente de curtosis toma un valor positivo (623.29) lo que implica que la distribución es leptocúrtica y la mayoría de los datos se encuentran muy cerca de la media.

  1. Realizar e interpretar diagrama de Box-Plot
G.1=boxplot(costos.real, horizontal = T, border="#27408B", col="#A8A8A8", main= "Diagrama de caja: dispersión de los datos", xlab="Costos(millones de pesos")

Gráfica 1. Diagrama de caja de los costos de la firma

Un diagrama de caja es una representación gráfica de la distribución de los datos, en este se muestra cómo gran parte de los datos se encuentran concentrados en un intervalo de 1 a 10, lo que implica unos costos muy bajos y lo atípico que puede llegar a ser encontrar costos superiores a 30. Tanto el diagrama de caja mostrado en la gráfica 1 como el análisis descriptivo concluyen que los datos presentan una asimetría positiva y una concentración, en la parte derecha, de los datos.

  1. Hacer un histograma de la variable costos.
G.2 =hist(x=costos.real, col =("#27408B"), nclass=50, xlab= "costos", density=80, mean="Histograma de costos",  ylab="Frecuencia")
## Warning in plot.window(xlim, ylim, "", ...): "mean" is not a graphical parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "mean"
## is not a graphical parameter
## Warning in axis(1, ...): "mean" is not a graphical parameter
## Warning in axis(2, at = yt, ...): "mean" is not a graphical parameter

Gráfica 2. Histograma del costo total

Por su parte, la gráfica 2 también muestra una concentración de los datos, pero a diferencia del análisis y el diagrama de caja esta gráfica permite reducir el rango en el que se da está concentración. En el histograma se muestra como los datos se ubican en su mayoría entre 1 y 5, siendo el intervalo entre 1 y 2 el que mayor frecuencia presenta.

Modelo probabilístico

La distribución de Pareto en todas sus variedades ha sido ampliamente estudiada en la literatura económica y actuarial debido a su aplicabilidad. La distribución de Pareto converge a cero más lentamente que otras alternativas (e.g., distribución Gamma, distribución log-Normal), y por lo tanto resulta mucho más seguro utilizarla para determinar las primas de grandes siniestros. Esta distribución no está limitada al estudio de costos, también se utiliza frecuentemente en otras áreas para estudiar riqueza, ingresos, retornos, perdidas, etc. Se dice que una variable aleatoria X tiene distribución de Pareto con parámetros θ y η si la función de densidad de probabilidad de X está dada por:

f(x)= (θ*(ηθ))/x(θ+1) para x > θ

donde η > 0 y θ > 0. En esta distribución, η se conoce como parámetro de localización (location), mientras que θ se denomina parámetro de forma (shape). En este caso, los analistas de la compañía de seguros aseguran que, para este tipo de siniestro en particular, X tiene distribución de Pareto con parámetros η = 1 y θ = 3, esto es, la función de densidad de probabilidad de X es:

f(x)= 3/x^4 si x > 1 o f(x) = 0 en otro caso

Abreviadamente, esto se escribe X ∼ Pareto(η = 1, θ = 3), donde el símbolo “∼” se lee “tiene distribución”. Observe que el rango de la variable aleatoria X es (1, ∞) = {x ∈ R : x > 1}.

n=1
t=3
F.1=function(x){3/x^4}
  1. Hacer nuevamente el histograma de los datos, y sobre este, graficar la función de densidad de X. Visualmente, ¿esta función de densidad parece representar bien a los datos?
G.2=hist(costos.real, freq = FALSE, nclass = 50,col =("#27408B"), density=80, main = "Histograma vs distribución de datos", ylab="Densidad", xlab="Costo (millones de pesos)")
curve(expr = (3/x^4), from = 60, to = 0, add = TRUE)

Gráfica 3. Histograma del costo total vs la función de desnsidad de los datos.

En la gráfica 3 se observa, visualmente, como el histograma y la función de distribución de datos tienen un mismo comportamiento. Aquí se observa que la mayoría están concentrados cerca a la media en (1.4 aproximadamente en millones de pesos), además, se visibiliza lo atípicos que son los valores superiores a 4 millones de pesos; de esta manera se reafirma la concentración de los datos que se ha plateado en los puntos anteriores.

  1. Calcular e interpretar Pr [X ≤ 1.2].
library(PtProcess)
round(ppareto(1.2,t,n),3)
## [1] 0.421

La probabilidad de que los costos sean menores a 1.2 millones es de 0.421, una probabilidad significativa pero que, a su vez, indica que es más probable obtener costos superiores a 1.2. De igual forma, se muestra como a pesar de este ser un dato cerca a la mediana (1.26) no llega a tener una probabilidad del 0.5, la principal razón de este suceso es la concentración de los datos pues entre 1.2 y uno 1.26 hay un número representativos de datos que afectan la probabilidad.

  1. Calcular e interpretar Pr [X ≥ 1.5].
round(ppareto(1.5,t,n, lower.tail = F),3)
## [1] 0.296

Cerca del 30% de los costos son superiores a 1,5 millones, por lo que es más probable obtener valores un costo mayor, una razón para esta probabilidad relativamente baja es la concentración de los datos y los datos atípicos. Si bien el promedio empírico de los datos es cercano a 1.5, la mediana es menor, por lo que ya se parte del hecho de que al menos el 50% de los datos va a ser menor a 1.5. Esto quiere decir, que el valor de la media no implica una probabilidad alta dado que en muchas ocasiones el promedio se ve afectado por datos atípicos que son muy altos o muy bajos.

  1. Calcular e interpretar Pr [1.0 ≤ X ≤ 1.7].
round(ppareto(1.7,t,n)-ppareto(1.0,t,n),3)
## [1] 0.796

El 80% de los costos suele ser mayor a 1 millón de pesos y menor a 1.7 millones de pesos, este dato es muy alto pues represente 3/4 del total de los costos. Es importante tener en cuenta que el rango en el que se está calculando la probabilidad contiene a la media y a la mediana, que empieza en el valor mínimo y que dada a la asimetría positiva gran parte de lis valores se concentran en esta parte, por lo que razonable una probabilidad tan alta.

  1. Calcular e interpretar el percentil x0.95.
round(qpareto(0.95,t,n),3)
## [1] 2.714

El cálculo anterior consiste en encontrar en que dato se encuentra el percentil 95%, que valores menores a este costo me van a representar el 95% de la población. El resultado obtenido es 2.7 va de la mano con la concentración de los datos, su asimetría positiva, pues solo el 5% de los datos suelen ser superiores a 2.7. De igual forma, se esperaba que este dato fuera por lo menos mayor a la mediana y que tuviera un valor mayor que 2 y menor a 5 dado que los datos mayores a 5 son muy pocos.

  1. Interpretar el percentil x0.75.
round(qpareto(0.75,t,n),3)
## [1] 1.587

En este caso se encontró que los tres primeros cuartiles presentan costos inferiores a 1.58 millones, un valor que obviamente debía ser superior a la mediana, pero que, inesperadamente, se encuentra muy cerca de la media. De este cálculo se puede afirmar que la media se encuentra en el 3 cuartil ya que esta es mayor a la mediana y menor 1.58. Los datos que se encuentran en los extremos explican este fenómeno, el hecho de que en algunos casos se llegue a pagar hasta 60 millones hace que a el promedio sea mayor que la el dato que se encuentra en la mitas y que, en este caso, se encuentre n el tercer cuartil.

  1. Calcular e interpretar el valor esperado de X. Comparar este valor esperado con el promedio empírico. Existe una diferencia sustancial entre estos valores?
Prom.emp = round(mean(costos.real),3)
print(Prom.emp)
## [1] 1.499
# E(x)= (θ*η)/(θ-1)
E.x = 3/(3-1)
print(E.x)
## [1] 1.5
#E(x)= integral de 1 a inf de x*f(x)
integrate (f = function(x){3/x^3}, lower = 1,upper = Inf)
## 1.5 with absolute error < 1.7e-14

En este caso se habla del promedio empírico y del valor esperado de X. Cuando se refiere al promedio empírico se habla del promedio ponderado, calculado en este caso con la función “mean”, mientras que cuando se habal del valor esperado se tiene en cuenta la distribución de los datos. Este último dato se puede calcular de dos formas, la primera es reemplazando en la fórmula E(x)= (θ*η)/(θ-1), ecuación que se puede utilizar al saber que los datos presentan una distribución de Parto. La segunda forma es a través de una integral, se sabe que X es una variable aleatoria continua y que la esperanza es la integral entre 1, que es el valor mínimo que X puede tomar, e infinito de X por f(x).

Al calcular ambos promedios se observó que no existe una diferencia sustancial entre estos valores, ya que la media empírica es de 1.49 aproximadamente y la esperanza 1.5. No obstante, se observa un margen de error más pequeño en el valor esperado, por lo que este es más confiable que el promedio empírico

  1. Calcular e interpretar el coeficiente de variación de X. Comparar este coeficiente de variación con el coeficiente de variación empírico. ¿Existe una diferencia sustancial entre estos valores?
Var.emp=var(costos.real)
CV.emp=  round(sqrt(Var.emp)/mean(costos.real),3)
print(CV.emp)
## [1] 0.583
#Var= [(η/(θ-1))^2]* [θ/(θ-2)]

Var=(1/(3-1))^2*(3/(3-2))
#CV= sqrt(Var)/E(x)
CV= sqrt(Var)/E.x
print(CV)
## [1] 0.5773503
#E(x^2)= integral de 1 a inf de x^2 * f(x)
A=integrate (f = function(x){3/x^2}, lower = 1,upper = Inf)

#Var=E(x^2)-[E(x)]^2
v=3-(1.5^2)
#CV= sqrt(Var)/E(x)
sqrt(v)/1.5
## [1] 0.5773503

Así como se tiene valor esperado de X y valor esperado empírico, también se encuentra el coeficiente de variación de X y el empírico. Al igual que, en el punto anterior, el coeficiente empírico se calcula desde el análisis descriptivo de los datos, en este punto se calcula la varianza, se le saca la raíz cuadrada y se divide sobre la media. En cambio cuando se calcula el coeficiente de variación de X según su distribución, se usa la formula [(η/(θ-1))^2]* [θ/(θ-2)] para calcular la varianza y con esta el CV. Otra forma de obtener este coeficiente es calcular la varianza a través de la fórmula Var=E(x2)-[E(x)]2, en dónde para obtener el primer dato se halla la integral de 1 a infinito de x^2 * f(x)

Al comparar los datos obtenidos no se encuentra una diferencia sustancial, por un lado, el CV empírico es tan solo de 0.58, mientras que el CV de la variable X es de 0.577. Este es un margen de error muy bajo, lo que demuestra que los dos métodos son válidos cuando se tiene una variable aleatoria continua con una distribución de Pareto.

  1. El tercer y cuarto momento (alrededor de la media) también miden características interesantes (pero más sutiles) de una distribución probabilística. El tercer momento mide el sesgo o la asimetría (skewness), mientras que el cuarto momento mide la curtosis (kurtosis), una medida del decaimiento (anchura) de las colas de la función de densidad. Las medidas numéricas reales de estas características se estandarizan para eliminar las unidades f´ısicas, dividiendo por una potencia adecuada de la desviación estándar. Considere el sesgo, por ejemplo. El sesgo de X se define como el tercer momento (alrededor de la media) de la variable estandarizada, esto es:

Sesgo (X)= E[((x-µ)/σ)^3] (2)

donde µ = E [X] es el valor esperado de X y σ = p Var [X] es la desviación estándar de X. Se puede demostrar (¡no tiene que hacerlo!) que la Ecuación del sesgo dada en (2) es equivalente a:

Sesgo (x) = (E[X^3] − 3µ*σ^2 − µ3)/σ3 (3)

Utilizar la Ecuación (3) para calcular e interpretar el sesgo de X

# integrate (f = function(x){x^3*(3/x^4)}, lower = 1,upper = Inf)

No se puede hallar el sesgo de X dado que al hacer la intergral par hallar E(x^3) esta diverge e imposibilida realizar calculo alguno. Para hallar E(x^3) se realiza la integral entre 1, el valor mínimo que puede tomar X, e infinito de x^3*f(x), en este caso es:

Int (1- inf) 3/x dx = 3 ln /x/ evaluado entre inf y 1 = Lim t-> inf [ln inf^3 - ln 1] = Inf -> por lo que la integral diverge

Compilación de los datos

Compelte la siguente tabla:

Cantidad Valor
Probabilidad de X ≥ 1.5 0.2962
Percentil 95 de X 2.7144
Valor esperado de X 1.5
Coeficiente de variación de X 0.5773
Sesgo de X No Existe