Parcial 3 final
Paula Guzman, Carlos Galvis, Alison gamba
library(readr)
seguros <- read_csv("seguros.txt")
## Rows: 51253 Columns: 1
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## dbl (1): 1.166058
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
colnames(seguros) = c("costos")
attach(seguros)
1. En este caso, la variable aleatoria (cuantitativa) de estudio X
es el costo que asume la compañía cuando paga la cobertura del
siniestro. ¿La variable X es discreta o continua? ¿Cuál es la escala de
medición?
La variables x es cuantitativa continua ya que sus valores estan en
terminos finitos y su escala de medicion es de razon.
2. Completar la siguiente tabla e interpretar:
min(costos)
## [1] 1.000007
max(costos)
## [1] 60.71064
mean(costos)
## [1] 1.498829
median(costos)
## [1] 1.260183
(sd(costos) / mean(costos))
## [1] 0.5829002
| Costo |
1.000007 |
60.710637 |
1.498829 |
1.260183 |
0.582900 |
En la tabla podemos ver que el valor más pequeño de toda la base de
datos es 1,000007 y por el contrario el valor más grande es 60,710637.
También podemos ver que el promedio de la base de datos es 1,498829 y el
valor de en medio es 1.260183 y por último el coeficiente de variación
es 0,582900 este nos sirve para ver qué tan dispersos están los datos
entre sí.
3. Calcular e interpretar el coeficiente de simetría y de
curtosis.
Curtosís
install.packages("moments")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(moments)
round(kurtosis(costos), 2)
## [1] 626.32
Coeficiente de asimetria
round(skewness(costos), 2)
## [1] 14.82
La concentración de los valores alrededor de la zona central o media
de los datos con respecto a los seguros de 626.32 y la simetría de los
datos separados de el valor de la media da un valor positivo de
14.82
4. Realizar e interpretar diagrama de Box-Plot.
boxplot(costos, horizontal = TRUE, boxwex = 0.9, cex = 0.9, border = "red", col = "orange",
main = "Diagrama de caja seguros.", xlab = "Costos", ylab = "Frecuencia")

Se interpreta una globalización de la variable cuantitativa de los
costos, esto con una interpretación en su frecuencia absoluta. Debido a
los datos proporcionados en el punto 2 se puede visualizar claramente
los mínimos (1.000007), los máximos (60.71064) y los cuartiles como un
conjunto de datos que reconoce los extremos de manera eficaz.
5. Hacer un histograma de la variable costos.
Nota: Hacer el histograma en R con freq = FALSE y nclass = 50.
hist(costos, freq = FALSE, nclass = 50, border = "firebrick", col = "firebrick1", xlab = "Costos", ylab = "Frecuencia", main = "Histograma Seguros")

Modelo probabilistico.
Distribución de pareto.
install.packages("EnvStats")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library("EnvStats")
##
## Attaching package: 'EnvStats'
## The following objects are masked from 'package:moments':
##
## kurtosis, skewness
## The following objects are masked from 'package:stats':
##
## predict, predict.lm
## The following object is masked from 'package:base':
##
## print.default
t = 3
n = 1
g = function(x){
(t*n^t/x^(t+1))
}
1. Hacer nuevamente el histograma de los datos, y sobre este,
graficar la función de densidad de X. Visualmente, ¿esta función de
densidad parece representar bien a los datos?
Nota: Una alternativa en R para graficar la función de densidad
sobre el histograma consiste en usar la función curve con el argumento
add = TRUE.
hist(costos, freq = FALSE, nclass = 50, border = "firebrick", col = "firebrick1", xlab = "Costos", ylab = "Densidad", main = "Histograma Seguros")
curve(expr = (3/x^4), from = 0, to = 60, add = TRUE)

La función de densidad de X permite ver bien datos con tendencia
mayor a cero resaltando así que es un valor positivo la simetría en la
distribución. Ademas el histograma muestra que no hay valores por encima
por encima de 6 millones lo que conglomera los datos en un rango de 0 -
5 en representando en millones de pesos.
2. Calcular e interpretar Pr [X ≤ 1.2]
integrate(f = g, lower = 1, upper = 1.2)$value
## [1] 0.4212963
ppareto(1.2, 1, 3)
## [1] 0.4212963
La probabilidad de tener un costo menor o igual a 1.2 es 0.4212963,
por ende podemos ver que es un poco baja la probabilidad de obtener un
resultado menor a este.
3. Calcular e interpretar Pr [X≥1.5]
integrate(f = g, lower = 1.5, upper = Inf)$value
## [1] 0.2962963
1-ppareto(1.5,1,3)
## [1] 0.2962963
La probabilidad de obtener un costo mayor o igual a 1.5 es igual a
0.2962963, lo cual permite interpretar la baja probabilidad de generar
un costo mayor o igual a 1.5, todo esto se puede evidenciar en el
histograma de densidad presentado anteriormente.
4. Calcular e interpretar Pr [1.0≤X≤1.7].
integrate(f = g, lower = 1.0, upper = 1.7)$value
## [1] 0.7964584
ppareto(1.7,1,3)-ppareto(1.0,1,3)
## [1] 0.7964584
La probabilidad de tener un datos mayor a 1 pero menor a 1.7 es de
0.7964584, indicando que hay mas de la mitad de las posibilidades de que
algún valor se encuentre entre este intervalo, ademas la mayoría de
datos se podrían encontrar dentro de este intervalo determinado.
5. Calcular e interpretarel percentil x0.95.
qpareto(0.95, 1, 3)
## [1] 2.714418
Lo que podemos decir al respecto de este punto es que la
probabilidad de obtener el 95% es inferior a 2,714418.
6. Calcular e interpretarel percentilx0.75.
qpareto(0.75,1,3)
## [1] 1.587401
Para calcular el cuartil de 0.75 se hace uso de la distribución de
Pareto que genera un valor equivalente a 1.587401, esto quiere decir que
el 25% de los costos es mayor al valor de resultado.
7. Calcular e interpretar el valor esperado de X. Comparar este
valor esperado con el promedio empírico. ¿Existe una diferencia
sustancial entre estos valores?
t2 = 3
n2 = 1
g2 = function(x){
x*((t2*n2^t2/x^(t2+1)))
}
Valor esperado.
V = integrate(g2, 1, Inf)$value
integrate(g2, 1, Inf)$value
## [1] 1.5
Promedio empírico.
mean(costos)
## [1] 1.498829
Comparando el valor esperado obtenido con el método empírico con la
interpretación del valor esperado de X se puede decir que la diferencia
sustancial mínima que se limite a decimales de diferencia , que
llegándose a aproximar daría el mismo valor lo que implicaría que en
efecto no hay una diferencia entre resultados.
8. Calcular e interpretar el coeficiente de variación de X. Comparar
este coeficiente de variación con el coeficiente de variación empírico.
¿Existe una diferencia sustancial entre estos valores?
Coeficiente de variacion empirico
(sd(costos) / mean(costos))
## [1] 0.5829002
Coeficiente de variación de X
g3 = function(x){
x^2*((t2*n2^t2/x^(t2+1)))
}
V2 = integrate(g3, 1, Inf)$value
e =V2-V^2
sqrt(e)/V
## [1] 0.5773503
Dado que el coeficiente de variación es igual a 0.5773503 y el
obtenido de manera empírica es igual a 0.5828978, hay una muestra clara
de que la diferencial (0.00554277) que hay entre los dos resultados no
es extensa y por lo tanto la diferencia no afecta de sobremanera en el
coeficiente de variación.
9. El tercer y cuarto momento (al rededor de la media) también miden
características interesantes (pero más sutiles) de una distribución
probabilística. El tercer momento mide el sesgo o la asimetría
(skewness), mientras que el cuarto momento mide la curtosis (kurtosis),
una medida del decaimiento (anchura) de las colas de la función de
densidad. Las medidas numéricas reales de estas características se
estandarizan para eliminar las unidades físicas, dividiendo por una
potencia adecuada de la desviación estándar. Considere el sesgo, por
ejemplo. El sesgo de X se define como el tercer momento (al rededor de
la media) de la variable estan darizada, esto es: Sesgo(X)
=E”X−μσ3#,(2) donde μ=E[X] es el valor esperado de X y σ=pVar [X] es
la desviación estándar de X. Se puede demostrar (¡no tiene que hacerlo!)
que la Ecuación del sesgo dada en (2) es equivalente a:Sesgo(X)
=E[X3]−3μσ2−μ3σ3.(3) Utilizar la Ecuación (3) para calcular e
interpretar el sesgo de X
u = V
o = sqrt(e)
g4 = function(x){
x3((t2n2t2/x^(t2+1)))
}
va = integrate(g4, 1, Inf)
Sesgo = V3-3uo2-u3/o3
Consolidación de los resultados del modelo
| Probabilidad de X≥1.5 |
0.2962963 |
| Percentíl 95 de X |
2.714418 |
| Valor esperado de X |
1.5 |
| Coeficiente de variación de X |
0.5773503 |
| Sesgo de X |
NA |
Cuando realizamos el proceso y corremos los códigos en R podemos ver
que la integral nos lanza un error, esto no es porque este mal, es
porque en cierto aspecto la integral diverge, por ende no podemos
completar el proceso para analizar el sesgo en sí.