En el siguiente análisis observarémos el comportamiento de la variable costos en función de determinado accidente.
datos <- read.delim2("seguros.txt")
colnames(datos)=c("costos")
attach(datos)
costos.real=as.numeric(costos)La base de datos a trabajar es “seguros.txt”, allí se encuentra una variable X que es el costo que asume la compañía cuando paga la cobertura del siniestro que. En este estudio, el conjunto de datos pertenece a una variable de tipo continua, con una escala de medición de razón, ya que se identifica un cero absoluto y no relativo, lo que implica que el 0 equivale a ausencia de costos.
summary(costos.real)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.101 1.260 1.499 1.587 60.711
sd(costos.real)/ mean( costos.real)## [1] 0.5829002
| Variable | Mínimo | Máximo | Media | Mediana | CV |
|---|---|---|---|---|---|
| Costos | 1.000 | 60.710 | 1.498 | 1.260 | 0.5828 |
Tabla 1. Datos estadísticos del caso de estudio
Al realizar un análisis descriptivo de los datos se encuentra que los costos se distribuyen entre 1 y 60, siendo este último el máximo. Desde un primer momento se destaca una concentración de los datos a la derecha, cerca de 1, pues el centro de gravedad es 1.2 y la media es 1.49, esto quiere decir que normalmente los costos que paga la compañía cuando paga la cobertura del seguro son muy bajos. No obstante, también existen algunos casos, atípicos, en el que costo es elevado, esto explica el hecho de que la compañía presente un coeficiente de variación significativo.
library(e1071)
round(skewness(costos.real),3)## [1] 14.822
round(kurtosis(costos.real),3)## [1] 623.295
Otras mediciones importantes que se deben tener en cuenta a la hora de analizar la variable es el coeficiente de asimetría y de curtosis. Por un lado, el coeficiente de asimetría mide el grado de asimetría, valga la redundancia, con respecto a la distribución. En este caso el coeficiente de Fisher es de 14.822, es decir, es mayor a 0 lo que implica que la distribución tiene una asimetría positiva pues la media es mayor que la moda y la mediana (la mitad de los datos). Por otro lado, el coeficiente de curtosis determina el grado de concentración que presentan los datos. En este caso, el coeficiente de curtosis toma un valor positivo (623.29) lo que implica que la distribución es leptocúrtica y la mayoría de los datos se encuentran muy cerca de la media.
G.1=boxplot(costos.real, horizontal = T, border="#27408B", col="#A8A8A8", main= "Diagrama de caja: dispersión de los datos", xlab="Costos(millones de pesos")Gráfica 1. Diagrama de caja de los costos de la firma
Un diagrama de caja es una representación gráfica de la distribución de los datos, en este se muestra cómo gran parte de los datos se encuentran concentrados en un intervalo de 1 a 10, lo que implica unos costos muy bajos y lo atípico que puede llegar a ser encontrar costos superiores a 30. Tanto el diagrama de caja mostrado en la gráfica 1 como el análisis descriptivo concluyen que los datos presentan una asimetría positiva y una concentración, en la parte derecha, de los datos.
G.2 =hist(x=costos.real, col =("#27408B"), nclass=50, xlab= "costos", density=80, mean="Histograma de costos", ylab="Frecuencia")## Warning in plot.window(xlim, ylim, "", ...): "mean" is not a graphical parameter
## Warning in title(main = main, sub = sub, xlab = xlab, ylab = ylab, ...): "mean"
## is not a graphical parameter
## Warning in axis(1, ...): "mean" is not a graphical parameter
## Warning in axis(2, at = yt, ...): "mean" is not a graphical parameter
Gráfica 2. Histograma del costo total
Por su parte, la gráfica 2 también muestra una concentración de los datos, pero a diferencia del análisis y el diagrama de caja esta gráfica permite reducir el rango en el que se da está concentración. En el histograma se muestra como los datos se ubican en su mayoría entre 1 y 5, siendo el intervalo entre 1 y 2 el que mayor frecuencia presenta.
La distribución de Pareto en todas sus variedades ha sido ampliamente estudiada en la literatura económica y actuarial debido a su aplicabilidad. La distribución de Pareto converge a cero más lentamente que otras alternativas (e.g., distribución Gamma, distribución log-Normal), y por lo tanto resulta mucho más seguro utilizarla para determinar las primas de grandes siniestros. Esta distribución no está limitada al estudio de costos, también se utiliza frecuentemente en otras áreas para estudiar riqueza, ingresos, retornos, perdidas, etc. Se dice que una variable aleatoria X tiene distribución de Pareto con parámetros θ y η si la función de densidad de probabilidad de X está dada por:
f(x)= (θ*(ηθ))/x(θ+1) para x > θ
donde η > 0 y θ > 0. En esta distribución, η se conoce como parámetro de localización (location), mientras que θ se denomina parámetro de forma (shape). En este caso, los analistas de la compañía de seguros aseguran que, para este tipo de siniestro en particular, X tiene distribución de Pareto con parámetros η = 1 y θ = 3, esto es, la función de densidad de probabilidad de X es:
f(x)= 3/x^4 si x > 1 o f(x) = 0 en otro caso
Abreviadamente, esto se escribe X ∼ Pareto(η = 1, θ = 3), donde el símbolo “∼” se lee “tiene distribución”. Observe que el rango de la variable aleatoria X es (1, ∞) = {x ∈ R : x > 1}.
n=1
t=3
F.1=function(x){3/x^4}G.2=hist(costos.real, freq = FALSE, nclass = 50,col =("#27408B"), density=80, main = "Histograma vs distribución de datos", ylab="Densidad", xlab="Costo (millones de pesos)")
curve(expr = (3/x^4), from = 60, to = 0, add = TRUE)
Gráfica 3. Histograma del costo total vs la función de
desnsidad de los datos.
En la gráfica 3 se observa, visualmente, como el histograma y la función de distribución de datos tienen un mismo comportamiento. Aquí se observa que la mayoría están concentrados cerca a la media en (1.4 aproximadamente en millones de pesos), además, se visibiliza lo atípicos que son los valores superiores a 4 millones de pesos; de esta manera se reafirma la concentración de los datos que se ha plateado en los puntos anteriores.
library(PtProcess)
round(ppareto(1.2,t,n),3)## [1] 0.421
La probabilidad de que los costos sean menores a 1.2 millones es de 0.421, una probabilidad significativa pero que, a su vez, indica que es más probable obtener costos superiores a 1.2. De igual forma, se muestra como a pesar de este ser un dato cerca a la mediana (1.26) no llega a tener una probabilidad del 0.5, la principal razón de este suceso es la concentración de los datos pues entre 1.2 y uno 1.26 hay un número representativos de datos que afectan la probabilidad.
round(ppareto(1.5,t,n, lower.tail = F),3)## [1] 0.296
Cerca del 30% de los costos son superiores a 1,5 millones, por lo que es más probable obtener valores un costo mayor, una razón para esta probabilidad relativamente baja es la concentración de los datos y los datos atípicos. Si bien el promedio empírico de los datos es cercano a 1.5, la mediana es menor, por lo que ya se parte del hecho de que al menos el 50% de los datos va a ser menor a 1.5. Esto quiere decir, que el valor de la media no implica una probabilidad alta dado que en muchas ocasiones el promedio se ve afectado por datos atípicos que son muy altos o muy bajos.
round(ppareto(1.7,t,n)-ppareto(1.0,t,n),3)## [1] 0.796
El 80% de los costos suele ser mayor a 1 millón de pesos y menor a 1.7 millones de pesos, este dato es muy alto pues represente 3/4 del total de los costos. Es importante tener en cuenta que el rango en el que se está calculando la probabilidad contiene a la media y a la mediana, que empieza en el valor mínimo y que dada a la asimetría positiva gran parte de lis valores se concentran en esta parte, por lo que razonable una probabilidad tan alta.
round(qpareto(0.95,t,n),3)## [1] 2.714
El cálculo anterior consiste en encontrar en que dato se encuentra el percentil 95%, que valores menores a este costo me van a representar el 95% de la población. El resultado obtenido es 2.7 va de la mano con la concentración de los datos, su asimetría positiva, pues solo el 5% de los datos suelen ser superiores a 2.7. De igual forma, se esperaba que este dato fuera por lo menos mayor a la mediana y que tuviera un valor mayor que 2 y menor a 5 dado que los datos mayores a 5 son muy pocos.
round(qpareto(0.75,t,n),3)## [1] 1.587
En este caso se encontró que los tres primeros cuartiles presentan costos inferiores a 1.58 millones, un valor que obviamente debía ser superior a la mediana, pero que, inesperadamente, se encuentra muy cerca de la media. De este cálculo se puede afirmar que la media se encuentra en el 3 cuartil ya que esta es mayor a la mediana y menor 1.58. Los datos que se encuentran en los extremos explican este fenómeno, el hecho de que en algunos casos se llegue a pagar hasta 60 millones hace que a el promedio sea mayor que la el dato que se encuentra en la mitas y que, en este caso, se encuentre n el tercer cuartil.
Prom.emp = round(mean(costos.real),3)
print(Prom.emp)## [1] 1.499
# E(x)= (θ*η)/(θ-1)
E.x = 3/(3-1)
print(E.x)## [1] 1.5
#E(x)= integral de 1 a inf de x*f(x)
integrate (f = function(x){3/x^3}, lower = 1,upper = Inf)## 1.5 with absolute error < 1.7e-14
En este caso se habla del promedio empírico y del valor esperado de X. Cuando se refiere al promedio empírico se habla del promedio ponderado, calculado en este caso con la función “mean”, mientras que cuando se habal del valor esperado se tiene en cuenta la distribución de los datos. Este último dato se puede calcular de dos formas, la primera es reemplazando en la fórmula E(x)= (θ*η)/(θ-1), ecuación que se puede utilizar al saber que los datos presentan una distribución de Parto. La segunda forma es a través de una integral, se sabe que X es una variable aleatoria continua y que la esperanza es la integral entre 1, que es el valor mínimo que X puede tomar, e infinito de X por f(x).
Al calcular ambos promedios se observó que no existe una diferencia sustancial entre estos valores, ya que la media empírica es de 1.49 aproximadamente y la esperanza 1.5. No obstante, se observa un margen de error más pequeño en el valor esperado, por lo que este es más confiable que el promedio empírico
Var.emp=var(costos.real)
CV.emp= round(sqrt(Var.emp)/mean(costos.real),3)
print(CV.emp)## [1] 0.583
#Var= [(η/(θ-1))^2]* [θ/(θ-2)]
Var=(1/(3-1))^2*(3/(3-2))
#CV= sqrt(Var)/E(x)
CV= sqrt(Var)/E.x
print(CV)## [1] 0.5773503
#E(x^2)= integral de 1 a inf de x^2 * f(x)
A=integrate (f = function(x){3/x^2}, lower = 1,upper = Inf)
#Var=E(x^2)-[E(x)]^2
v=3-(1.5^2)
#CV= sqrt(Var)/E(x)
sqrt(v)/1.5## [1] 0.5773503
Así como se tiene valor esperado de X y valor esperado empírico, también se encuentra el coeficiente de variación de X y el empírico. Al igual que, en el punto anterior, el coeficiente empírico se calcula desde el análisis descriptivo de los datos, en este punto se calcula la varianza, se le saca la raíz cuadrada y se divide sobre la media. En cambio cuando se calcula el coeficiente de variación de X según su distribución, se usa la formula [(η/(θ-1))^2]* [θ/(θ-2)] para calcular la varianza y con esta el CV. Otra forma de obtener este coeficiente es calcular la varianza a través de la fórmula Var=E(x2)-[E(x)]2, en dónde para obtener el primer dato se halla la integral de 1 a infinito de x^2 * f(x)
Al comparar los datos obtenidos no se encuentra una diferencia sustancial, por un lado, el CV empírico es tan solo de 0.58, mientras que el CV de la variable X es de 0.577. Este es un margen de error muy bajo, lo que demuestra que los dos métodos son válidos cuando se tiene una variable aleatoria continua con una distribución de Pareto.
Sesgo (X)= E[((x-µ)/σ)^3] (2)
donde µ = E [X] es el valor esperado de X y σ = p Var [X] es la desviación estándar de X. Se puede demostrar (¡no tiene que hacerlo!) que la Ecuación del sesgo dada en (2) es equivalente a:
Sesgo (x) = (E[X^3] − 3µ*σ^2 − µ3)/σ3 (3)
Utilizar la Ecuación (3) para calcular e interpretar el sesgo de X
# integrate (f = function(x){x^3*(3/x^4)}, lower = 1,upper = Inf)No se puede hallar el sesgo de X dado que al hacer la intergral par hallar E(x^3) esta diverge e imposibilida realizar calculo alguno. Para hallar E(x^3) se realiza la integral entre 1, el valor mínimo que puede tomar X, e infinito de x^3*f(x), en este caso es:
Int (1- inf) 3/x dx = 3 ln /x/ evaluado entre inf y 1 = Lim t-> inf [ln inf^3 - ln 1] = Inf -> por lo que la integral diverge
Compelte la siguente tabla:
| Cantidad | Valor |
|---|---|
| Probabilidad de X ≥ 1.5 | 0.2962 |
| Percentil 95 de X | 2.7144 |
| Valor esperado de X | 1.5 |
| Coeficiente de variación de X | 0.5773 |
| Sesgo de X | No Existe |