Importacion Base de Datos

library(readr)
seguros <- read_delim("seguros.txt", delim = "\t", escape_double = FALSE, col_names=FALSE, trim_ws = TRUE)
## Rows: 51254 Columns: 1
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: "\t"
## dbl (1): X1
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
attach(seguros)
n<- nrow(seguros)
p<- ncol(seguros)
s<- data.frame(seguros)
S<- s$X1
summary(S)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   1.101   1.260   1.499   1.587  60.711
transform(1,Minimo=min(S),Maximo=max(S),Media=mean(S),Mediana=median(S),CV=(sd(S)/mean(S)))
##   X_data   Minimo   Maximo    Media Mediana        CV
## 1      1 1.000007 60.71064 1.498823 1.26018 0.5828978

Costo de un siniestro

Parte 1: Estadıstica descriptiva

1) Nuestra Variable son los costos de una empresa, por ende es cuantitativa. Ademas tambien serian Continuas debido a que pueden tomar cualquier valor real. Esta tambien es medida por una escala de razon siendo el 0 la ausencia absoluta “en otras palabras, que no tiene valores negativos, y se parte desde el 0 para arriba”.
2) Completar la siguiente tabla e interpretar:
VARIABLE MINIMO MAXIMO MEDIA MEDIANA CV
COSTO 1.000007 60.71064 1.498823 1.26018 0.5828978
Teniendo en cuenta que los siguientes valores, podriamos deducir que el Boxplot tendra una pocos datos atipicos como lo podria ser el casoo del maximo.
3) Calcular e interpretar el coeficiente de simetrıa y de curtosis:
library(psych)
skew(S,type=3) 
## [1] 14.82169
kurtosi(S,type=1)
## [1] 623.3284
library(moments)
skewness(S)
## [1] 14.82212
kurtosis(S)
## [1] 626.3284
Gracias a la curtosis y la simetria, nos dan una idea de como serian los graficos a continuacion. Intuiriamos de que serian muy dispersos ya que nos dan valores un poco alejados del 0 “la curtosis mas que todo”.
4) Realizar e interpretar diagrama de Box-Plot:
boxplot(S)

Efectivamente, los puntos del Boxplot están en su mayoría entre 0 y 1 y en su caso algunos llegan a 20, pero hay datos atípicos, por ejemplo el del maximo 60.711.
5) Hacer un histograma de la variable costos.
Nota: Hacer el histograma en R con freq = FALSE y nclass = 50.
hist(S, freq = F,nclass = 50)

Parte 2: Modelo probabilıstico

install.packages('EnvStats')
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.1'
## (as 'lib' is unspecified)
library(EnvStats)
## 
## Attaching package: 'EnvStats'
## The following objects are masked from 'package:moments':
## 
##     kurtosis, skewness
## The following objects are masked from 'package:stats':
## 
##     predict, predict.lm
## The following object is masked from 'package:base':
## 
##     print.default
1) Hacer nuevamente el histograma de los datos, y sobre este, graficar la funcion de densidad de X. Visualmente, ¿esta funcion de densidad parece representar bien a los datos?
Nota: Una alternativa en R para graficar la funcion de densidad sobre el histograma consiste en usar la funcion curve con el argumento add = TRUE.
hist(S, freq = F,nclass = 50)
curve((3/x^4),to = 0, from = 60, add = TRUE)

Claramente, el histograma de la funcion (3/x^4) representa bien los datos gracias a que no representa valores negativos, demuestra que hay pocos valores que superen los 5 millones, y representa bien la media y mediana, 1.498823 y 1.26018 respectivamente. Ademas en el punto de la curtosis y la asimetria, se cumple nuestra intuicion gracias a que daban numeros un poco alejados de 0, lo que implica una mayor desviacion en los datos “como se puede ver en la grafica, hay muchos datos que tienden a 0, pero hay otros que llegan hasta 60”
2) Calcular e interpretar Pr [X ≤ 1.2]:
####P(X<=1.2)
ppareto(1.2,1,3)
## [1] 0.4212963
Aqui gracias a esta funcion, hallamos la probabilidad de obtener un costo menor o igual a 1.2 es de 0.4212963. tener en cuenta que si se le resta a 1, solo se hallaria la probabilidad de obtener un costo mayor o igual a 1.2
3) Calcular e interpretar Pr [X ≥ 1.5]:
####P(X>=1.5)
1-ppareto(1.5,1,3)
## [1] 0.2962963
Aqui gracias a esta funcion, hallamos la probabilidad de obtener un costo mayor o igual a 1.5 es de 0.2962963. tener en cuenta que si no se le resta a 1, solo se hallaria la probabilidad de obtener un costo menor o igual a 1.5
4) Calcular e interpretar Pr [1.0 ≤ X ≤ 1.7]:
####Pr[1.0 ≤ X ≤ 1.7]
ppareto(1.7,1,3)-ppareto(1,1,3)
## [1] 0.7964584
Este analisis es un cpoco mas complejor, ya que gracias a la funcion, podemos hallar la probabilidad de que un costo sea mayor o igual a 1 pero mnor o igual a 1.7, por lo que se deben restar las probabilidades, solo que aqui debemos tener en cuenta el orden en que se restan, similar al ejercicio anterior. Por ende, a la probabilidad de que sea menor o igau a 1.7, se le resta la de mayor o igual a uno, lo que nos da un resultado de 0.7964584.
5) Calcular e interpretar el percentil X0.95:
####Percentil X0.95
quantile(S,0.95)
##      95% 
## 2.707389
Lo que nos dice este percentil es que el 95% de los costos de nuestra base de datos, se encuentran por debajo de los 2.707389 millones.
6) Calcular e interpretar el percentil X0.75:
####Percentil X0.75
quantile(S,0.75)
##      75% 
## 1.586692
Similar al punto anterior, este percentil nos muestra que el 75% de los costos de nuestra base de datos se encuentran por debajo de los 1.586692 millones.
7) Calcular e interpretar el valor esperado de X. Comparar este valor esperado con el promedio empırico. ¿Existe una diferencia sustancial entre estos valores?
####punto 7
S = function(x) {3/(x^3)}
integrate(S, lower = 1, upper = Inf)
## 1.5 with absolute error < 1.7e-14
8) Calcular e interpretar el coeficiente de variacion de X. Comparar este coeficiente de variacion con el coeficiente de variacion empırico. ¿Existe una diferencia sustancial entre estos valores?
#### punto 8

A=1
B=3

Varianza = ((A^2)*B)/(((B-1)^2)*(B-2))

sqrt(Varianza)/1.5
## [1] 0.5773503
Como lo podemos apreciar en los puntos anteriores, el coeficiente de variacion de manera empirica es igual a 0.5828978, y el coeficiente de variacion es de 0.5773503. Que se concluye con esto? que se puede omitir la diferencia ya que no existe una diferencia notoria “usando la palabra notoria como valores enteros o apenas en el primer decimal”
9) En este punto el sesgo no se puede calcular, dado que la esperanza “Sesgo(X)=E((X−µ)3/(σ)3)”tiende a infinito.
CANTIDAD VALOR
PROBABILIDAD DE X ≥ 1,5 0.2962963
PERCENTIL 95 DE X 2.707389
VALOR ESPERADO DE X 1.5
COEFICIENTE DE VARIACION DE X 0.5773503