Parcial 3 final

Paula Guzman, Carlos Galvis, Alison gamba

library(readr)
seguros <- read_csv("seguros.txt")
## Rows: 51253 Columns: 1
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## dbl (1): 1.166058
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
colnames(seguros) = c("costos")
attach(seguros)

1. En este caso, la variable aleatoria (cuantitativa) de estudio X es el costo que asume la compañía cuando paga la cobertura del siniestro. ¿La variable X es discreta o continua? ¿Cuál es la escala de medición?

La variables x es cuantitativa continua ya que sus valores estan en terminos finitos y su escala de medicion es de razon.

2. Completar la siguiente tabla e interpretar:

min(costos)
## [1] 1.000007
max(costos)  
## [1] 60.71064
mean(costos)
## [1] 1.498829
median(costos)
## [1] 1.260183
(sd(costos) / mean(costos))
## [1] 0.5829002
Variable Mín. Máx. Media Mediana CV
Costo 1.000007 60.710637 1.498829 1.260183 0.582900

En la tabla podemos ver que el valor más pequeño de toda la base de datos es 1,000007 y por el contrario el valor más grande es 60,710637. También podemos ver que el promedio de la base de datos es 1,498829 y el valor de en medio es 1.260183 y por último el coeficiente de variación es 0,582900 este nos sirve para ver qué tan dispersos están los datos entre sí.

3. Calcular e interpretar el coeficiente de simetría y de curtosis.

Curtosís

install.packages("moments")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(moments) 
round(kurtosis(costos), 2) 
## [1] 626.32

Coeficiente de asimetria

round(skewness(costos), 2)
## [1] 14.82

La concentración de los valores alrededor de la zona central o media de los datos con respecto a los seguros de 626.32 y la simetría de los datos separados de el valor de la media da un valor positivo de 14.82

4. Realizar e interpretar diagrama de Box-Plot.

boxplot(costos, horizontal = TRUE, boxwex = 0.9, cex = 0.9, border = "red", col = "orange",
        main = "Diagrama de caja seguros.", xlab = "Costos", ylab = "Frecuencia")

Se interpreta una globalización de la variable cuantitativa de los costos, esto con una interpretación en su frecuencia absoluta. Debido a los datos proporcionados en el punto 2 se puede visualizar claramente los mínimos (1.000007), los máximos (60.71064) y los cuartiles como un conjunto de datos que reconoce los extremos de manera eficaz.

5. Hacer un histograma de la variable costos.

Nota: Hacer el histograma en R con freq = FALSE y nclass = 50.

hist(costos, freq = FALSE, nclass = 50, border = "firebrick", col = "firebrick1",   xlab = "Costos", ylab = "Frecuencia", main = "Histograma Seguros")

Modelo probabilistico.

Distribución de pareto.

install.packages("EnvStats")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library("EnvStats")
## 
## Attaching package: 'EnvStats'
## The following objects are masked from 'package:moments':
## 
##     kurtosis, skewness
## The following objects are masked from 'package:stats':
## 
##     predict, predict.lm
## The following object is masked from 'package:base':
## 
##     print.default
t = 3
n = 1
g = function(x){
  (t*n^t/x^(t+1))
}

1. Hacer nuevamente el histograma de los datos, y sobre este, graficar la función de densidad de X. Visualmente, ¿esta función de densidad parece representar bien a los datos?

Nota: Una alternativa en R para graficar la función de densidad sobre el histograma consiste en usar la función curve con el argumento add = TRUE.

hist(costos, freq = FALSE, nclass = 50, border = "firebrick", col = "firebrick1",   xlab = "Costos", ylab = "Densidad", main = "Histograma Seguros")
curve(expr = (3/x^4), from = 0, to = 60, add = TRUE)

La función de densidad de X permite ver bien datos con tendencia mayor a cero resaltando así que es un valor positivo la simetría en la distribución. Ademas el histograma muestra que no hay valores por encima por encima de 6 millones lo que conglomera los datos en un rango de 0 - 5 en representando en millones de pesos.

2. Calcular e interpretar Pr [X ≤ 1.2]

integrate(f = g, lower = 1, upper = 1.2)$value
## [1] 0.4212963
ppareto(1.2, 1, 3)
## [1] 0.4212963

La probabilidad de tener un costo menor o igual a 1.2 es 0.4212963, por ende podemos ver que es un poco baja la probabilidad de obtener un resultado menor a este.

3. Calcular e interpretar Pr [X≥1.5]

integrate(f = g, lower = 1.5, upper = Inf)$value
## [1] 0.2962963
1-ppareto(1.5,1,3)
## [1] 0.2962963

La probabilidad de obtener un costo mayor o igual a 1.5 es igual a 0.2962963, lo cual permite interpretar la baja probabilidad de generar un costo mayor o igual a 1.5, todo esto se puede evidenciar en el histograma de densidad presentado anteriormente.

4. Calcular e interpretar Pr [1.0≤X≤1.7].

integrate(f = g, lower = 1.0, upper = 1.7)$value
## [1] 0.7964584
ppareto(1.7,1,3)-ppareto(1.0,1,3)
## [1] 0.7964584

La probabilidad de tener un datos mayor a 1 pero menor a 1.7 es de 0.7964584, indicando que hay mas de la mitad de las posibilidades de que algún valor se encuentre entre este intervalo, ademas la mayoría de datos se podrían encontrar dentro de este intervalo determinado.

5. Calcular e interpretarel percentil x0.95.

qpareto(0.95, 1, 3)
## [1] 2.714418

Lo que podemos decir al respecto de este punto es que la probabilidad de obtener el 95% es inferior a 2,714418.

6. Calcular e interpretarel percentilx0.75.

qpareto(0.75,1,3)
## [1] 1.587401

Para calcular el cuartil de 0.75 se hace uso de la distribución de Pareto que genera un valor equivalente a 1.587401, esto quiere decir que el 25% de los costos es mayor al valor de resultado.

7. Calcular e interpretar el valor esperado de X. Comparar este valor esperado con el promedio empírico. ¿Existe una diferencia sustancial entre estos valores?

t2 = 3
n2 = 1
g2 = function(x){
  x*((t2*n2^t2/x^(t2+1)))
}
Valor esperado.
V = integrate(g2, 1, Inf)$value
integrate(g2, 1, Inf)$value
## [1] 1.5
Promedio empírico.
mean(costos)
## [1] 1.498829

Comparando el valor esperado obtenido con el método empírico con la interpretación del valor esperado de X se puede decir que la diferencia sustancial mínima que se limite a decimales de diferencia , que llegándose a aproximar daría el mismo valor lo que implicaría que en efecto no hay una diferencia entre resultados.

8. Calcular e interpretar el coeficiente de variación de X. Comparar este coeficiente de variación con el coeficiente de variación empírico. ¿Existe una diferencia sustancial entre estos valores?

Coeficiente de variacion empirico

(sd(costos) / mean(costos))
## [1] 0.5829002

Coeficiente de variación de X

g3 = function(x){
  x^2*((t2*n2^t2/x^(t2+1)))
}
V2 = integrate(g3, 1, Inf)$value
e =V2-V^2
sqrt(e)/V
## [1] 0.5773503

Dado que el coeficiente de variación es igual a 0.5773503 y el obtenido de manera empírica es igual a 0.5828978, hay una muestra clara de que la diferencial (0.00554277) que hay entre los dos resultados no es extensa y por lo tanto la diferencia no afecta de sobremanera en el coeficiente de variación.

9. El tercer y cuarto momento (al rededor de la media) también miden características interesantes (pero más sutiles) de una distribución probabilística. El tercer momento mide el sesgo o la asimetría (skewness), mientras que el cuarto momento mide la curtosis (kurtosis), una medida del decaimiento (anchura) de las colas de la función de densidad. Las medidas numéricas reales de estas características se estandarizan para eliminar las unidades físicas, dividiendo por una potencia adecuada de la desviación estándar. Considere el sesgo, por ejemplo. El sesgo de X se define como el tercer momento (al rededor de la media) de la variable estan darizada, esto es: Sesgo(X) =E”X−μσ3#,(2) donde μ=E[X] es el valor esperado de X y σ=pVar [X] es la desviación estándar de X. Se puede demostrar (¡no tiene que hacerlo!) que la Ecuación del sesgo dada en (2) es equivalente a:Sesgo(X) =E[X3]−3μσ2−μ3σ3.(3) Utilizar la Ecuación (3) para calcular e interpretar el sesgo de X

u = V

o = sqrt(e)

g4 = function(x){

x3((t2n2t2/x^(t2+1)))

}

va = integrate(g4, 1, Inf)

Sesgo = V3-3uo2-u3/o3

Consolidación de los resultados del modelo

Cantidad Valor
Probabilidad de X≥1.5 0.2962963
Percentíl 95 de X 2.714418
Valor esperado de X 1.5
Coeficiente de variación de X 0.5773503
Sesgo de X NA

Cuando realizamos el proceso y corremos los códigos en R podemos ver que la integral nos lanza un error, esto no es porque este mal, es porque en cierto aspecto la integral diverge, por ende no podemos completar el proceso para analizar el sesgo en sí.