Importacion Base de Datos
library(readr)
seguros <- read_delim("seguros.txt", delim = "\t", escape_double = FALSE, col_names=FALSE, trim_ws = TRUE)
## Rows: 51254 Columns: 1
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: "\t"
## dbl (1): X1
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
attach(seguros)
n<- nrow(seguros)
p<- ncol(seguros)
s<- data.frame(seguros)
S<- s$X1
summary(S)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.101 1.260 1.499 1.587 60.711
transform(1,Minimo=min(S),Maximo=max(S),Media=mean(S),Mediana=median(S),CV=(sd(S)/mean(S)))
## X_data Minimo Maximo Media Mediana CV
## 1 1 1.000007 60.71064 1.498823 1.26018 0.5828978
Parte 1: Estadıstica descriptiva
1) Nuestra Variable son los costos de una empresa, por ende es
cuantitativa. Ademas tambien serian Continuas debido a que pueden tomar
cualquier valor real. Esta tambien es medida por una escala de razon
siendo el 0 la ausencia absoluta “en otras palabras, que no tiene
valores negativos, y se parte desde el 0 para arriba”.
2) Completar la siguiente tabla e interpretar:
COSTO |
1.000007 |
60.71064 |
1.498823 |
1.26018 |
0.5828978 |
Teniendo en cuenta que los siguientes valores, podriamos deducir que
el Boxplot tendra una pocos datos atipicos como lo podria ser el casoo
del maximo.
3) Calcular e interpretar el coeficiente de simetrıa y de
curtosis:
library(psych)
skew(S,type=3)
## [1] 14.82169
kurtosi(S,type=1)
## [1] 623.3284
library(moments)
skewness(S)
## [1] 14.82212
kurtosis(S)
## [1] 626.3284
Gracias a la curtosis y la simetria, nos dan una idea de como serian
los graficos a continuacion. Intuiriamos de que serian muy dispersos ya
que nos dan valores un poco alejados del 0 “la curtosis mas que
todo”.
4) Realizar e interpretar diagrama de Box-Plot:
boxplot(S)

Efectivamente, los puntos del Boxplot están en su mayoría entre 0 y
1 y en su caso algunos llegan a 20, pero hay datos atípicos, por ejemplo
el del maximo 60.711.
5) Hacer un histograma de la variable costos.
Nota: Hacer el histograma en R con freq = FALSE y nclass = 50.
hist(S, freq = F,nclass = 50)

Parte 2: Modelo probabilıstico
install.packages('EnvStats')
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.1'
## (as 'lib' is unspecified)
library(EnvStats)
##
## Attaching package: 'EnvStats'
## The following objects are masked from 'package:moments':
##
## kurtosis, skewness
## The following objects are masked from 'package:stats':
##
## predict, predict.lm
## The following object is masked from 'package:base':
##
## print.default
1) Hacer nuevamente el histograma de los datos, y sobre este,
graficar la funcion de densidad de X. Visualmente, ¿esta funcion de
densidad parece representar bien a los datos?
Nota: Una alternativa en R para graficar la funcion de densidad
sobre el histograma consiste en usar la funcion curve con el argumento
add = TRUE.
hist(S, freq = F,nclass = 50)
curve((3/x^4),to = 0, from = 60, add = TRUE)

Claramente, el histograma de la funcion (3/x^4) representa bien los
datos gracias a que no representa valores negativos, demuestra que hay
pocos valores que superen los 5 millones, y representa bien la media y
mediana, 1.498823 y 1.26018 respectivamente. Ademas en el punto de la
curtosis y la asimetria, se cumple nuestra intuicion gracias a que daban
numeros un poco alejados de 0, lo que implica una mayor desviacion en
los datos “como se puede ver en la grafica, hay muchos datos que tienden
a 0, pero hay otros que llegan hasta 60”
2) Calcular e interpretar Pr [X ≤ 1.2]:
####P(X<=1.2)
ppareto(1.2,1,3)
## [1] 0.4212963
Aqui gracias a esta funcion, hallamos la probabilidad de obtener un
costo menor o igual a 1.2 es de 0.4212963. tener en cuenta que si se le
resta a 1, solo se hallaria la probabilidad de obtener un costo mayor o
igual a 1.2
3) Calcular e interpretar Pr [X ≥ 1.5]:
####P(X>=1.5)
1-ppareto(1.5,1,3)
## [1] 0.2962963
Aqui gracias a esta funcion, hallamos la probabilidad de obtener un
costo mayor o igual a 1.5 es de 0.2962963. tener en cuenta que si no se
le resta a 1, solo se hallaria la probabilidad de obtener un costo menor
o igual a 1.5
4) Calcular e interpretar Pr [1.0 ≤ X ≤ 1.7]:
####Pr[1.0 ≤ X ≤ 1.7]
ppareto(1.7,1,3)-ppareto(1,1,3)
## [1] 0.7964584
Este analisis es un cpoco mas complejor, ya que gracias a la
funcion, podemos hallar la probabilidad de que un costo sea mayor o
igual a 1 pero mnor o igual a 1.7, por lo que se deben restar las
probabilidades, solo que aqui debemos tener en cuenta el orden en que se
restan, similar al ejercicio anterior. Por ende, a la probabilidad de
que sea menor o igau a 1.7, se le resta la de mayor o igual a uno, lo
que nos da un resultado de 0.7964584.
5) Calcular e interpretar el percentil X0.95:
####Percentil X0.95
quantile(S,0.95)
## 95%
## 2.707389
Lo que nos dice este percentil es que el 95% de los costos de
nuestra base de datos, se encuentran por debajo de los 2.707389
millones.
6) Calcular e interpretar el percentil X0.75:
####Percentil X0.75
quantile(S,0.75)
## 75%
## 1.586692
Similar al punto anterior, este percentil nos muestra que el 75% de
los costos de nuestra base de datos se encuentran por debajo de los
1.586692 millones.
7) Calcular e interpretar el valor esperado de X. Comparar este
valor esperado con el promedio empırico. ¿Existe una diferencia
sustancial entre estos valores?
####punto 7
S = function(x) {3/(x^3)}
integrate(S, lower = 1, upper = Inf)
## 1.5 with absolute error < 1.7e-14
8) Calcular e interpretar el coeficiente de variacion de X. Comparar
este coeficiente de variacion con el coeficiente de variacion empırico.
¿Existe una diferencia sustancial entre estos valores?
#### punto 8
A=1
B=3
Varianza = ((A^2)*B)/(((B-1)^2)*(B-2))
sqrt(Varianza)/1.5
## [1] 0.5773503
Como lo podemos apreciar en los puntos anteriores, el coeficiente de
variacion de manera empirica es igual a 0.5828978, y el coeficiente de
variacion es de 0.5773503. Que se concluye con esto? que se puede omitir
la diferencia ya que no existe una diferencia notoria “usando la palabra
notoria como valores enteros o apenas en el primer decimal”
9) En este punto el sesgo no se puede calcular, dado que la
esperanza “Sesgo(X)=E((X−µ)3/(σ)3)”tiende a infinito.
PROBABILIDAD DE X ≥ 1,5 |
0.2962963 |
PERCENTIL 95 DE X |
2.707389 |
VALOR ESPERADO DE X |
1.5 |
COEFICIENTE DE VARIACION DE X |
0.5773503 |