class: center, middle, inverse, title-slide .title[ # PARCIAL 3 ESTADÍSTICA ] .author[ ### MARIANA SUAZA, SANTIAGO RODRIGUEZ ] .date[ ### 2022-11-22 ] --- class: center, middle ## PRESENTACIÓN ```r library(tidyverse) ``` ``` ## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ── ## ✔ ggplot2 3.3.6 ✔ purrr 0.3.4 ## ✔ tibble 3.1.8 ✔ dplyr 1.0.10 ## ✔ tidyr 1.2.1 ✔ stringr 1.4.1 ## ✔ readr 2.1.3 ✔ forcats 0.5.2 ## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ── ## ✖ dplyr::filter() masks stats::filter() ## ✖ dplyr::lag() masks stats::lag() ``` ```r library(knitr) library(readr) library(dplyr) library(moments) library(PtProcess) library(EnvStats) ``` ``` ## ## Attaching package: 'EnvStats' ## ## The following objects are masked from 'package:PtProcess': ## ## dpareto, ppareto, qpareto, rpareto ## ## The following objects are masked from 'package:moments': ## ## kurtosis, skewness ## ## The following objects are masked from 'package:stats': ## ## predict, predict.lm ## ## The following object is masked from 'package:base': ## ## print.default ``` --- class: center, middle ## Primera base de Datos ```r library(readr) reclamaciones <- read_csv("~/Parcial 3 estadística/reclamaciones.txt") View(reclamaciones) ``` --- class: center, middle ## Número de reclamaciones ##### 1. En este caso, la variable aleatoria (cuantitativa) de estudio X es el número de reclamaciones (por cliente). ¿La variable X es discreta o continua? ¿Cuál es la escala de medición? ¿Cúales son las unidades de medición? - Es una variable discreta, ya que no se podría tomar en consideración una reclamación como incompleta, es decir, como fracción o decimales, por lo que mantiene valores enteros mayores a 0. Esta variable toma en cuenta cada reclamación por cliente manteniendo así una escala nominal. --- class: center, middle ##### 2. Hallar la función de masa y la función de distribución acumulada de X por medio del enfoque frecuentista de probabilidad (frecuencias relativas). Presentar los resultados en una tabla con tres columnas: x, f(x), y F(x). ```r table(reclamaciones$x)-> A round(prop.table(A), 3)-> A1 rango = 0:6 data.frame(A1)->A2 A2[,2]->A3 A4<-cumsum(A3) A5<-data.frame(rango, A3, A4) colnames(A5)<-c("x", "f(x)", "F(x)") kable(A5) ``` | x| f(x)| F(x)| |--:|-----:|-----:| | 0| 0.123| 0.123| | 1| 0.349| 0.472| | 2| 0.207| 0.679| | 3| 0.160| 0.839| | 4| 0.092| 0.931| | 5| 0.050| 0.981| | 6| 0.021| 1.002| --- class: center, middle ####3. Graficar la función de densidad y la función de distribución acumulada de X. Grafico de la función de masa. ```r rango = A5$x; fx = A5$`f(x)`; k = length(rango) ``` --- class: center, middle ## Funcion de Masa ```r plot(rango, fx, type = "h", col = "#FA8072", lwd = 2, main = "Función de masa", xlab = "x", ylab = "f(x)") points(rango, fx, col = "#CD7054", pch = 16) ``` <!-- --> --- class: center, middle ###Función de distribución acumulada ```r plot(c(0, rango), c(0, A5$`F(x)`), type = "s", xlab = "x", ylab = "Fx", col="#FA8072", main = "Funcion de distribucion acumulada", lwd = 2) points(rango, A4, col = "#CD7054", pch = 16) grid() ``` <!-- --> --- class: center, middle ### 4. Calcular e interpretar el valor esperado. ```r sum(A5$x*A5$`f(x)`)-> E E ``` ``` ## [1] 1.987 ``` --- class: center, middle ### 5. Calcular e interpretar el coeficiente de variación. ```r sum(((A5$x-E)^2)*A5$`f(x)`)->V sqrt(V)/E -> Cv Cv ``` ``` ## [1] 0.7387514 ``` --- class: center, middle ### 6. Usando la tabla del numeral 2., calcular e interpretar las siguientes probabilidades: **Pr[X=0]=0.123** ```r A5[1,2] ``` ``` ## [1] 0.123 ``` **Pr[X≤2]=0.679** ```r A5[3,3] ``` ``` ## [1] 0.679 ``` **Pr[X>3]=0.163** ```r A5[7,3]-A5[4,3] ``` ``` ## [1] 0.163 ``` **Pr[1≤X≤3]=0.716** ```r A5[4,3]-A5[1,3] ``` ``` ## [1] 0.716 ``` --- class: center, middle ###7. Calcular a interpretar la probabilidad de los siguientes eventos:|X−μ|<kσ,para k=1,2,3, donde μ=E[X] y σ=Var[X]−−−−−−√. Hacer los cálculos de forma exacta usando la tabla del numeral 2. ```r sqrt(V) -> O ``` --- class: center, middle **P(1≤ x ≤ 3) K=1** ```r (E-O) ``` ``` ## [1] 0.519101 ``` ```r (E+O) ``` ``` ## [1] 3.454899 ``` ```r A5[4, 3] - A5[2, 3] ``` ``` ## [1] 0.367 ``` --- class: center, middle **P(O ≤ X ≤ 4) K= 2** ```r (E-2*O) ``` ``` ## [1] -0.9487979 ``` ```r (E+2*O) ``` ``` ## [1] 4.922798 ``` ```r A5[5,3] - A5[1,3] ``` ``` ## [1] 0.808 ``` --- class: center, middle **P(O ≤ X ≤ 6) K= 3** ```r (E-3*O) ``` ``` ## [1] -2.416697 ``` ```r (E+3*O) ``` ``` ## [1] 6.390697 ``` ```r A5[7,3] ``` ``` ## [1] 1.002 ``` --- class: center, middle ##Segunda base de datos ```r library(readr) seguros <- read_csv("~/Parcial 3 estadística/seguros.txt") View(seguros) ``` --- class: center, middle ## COSTO DE UN SINIESTRO ```r attach(seguros) ``` #### 1) En este caso, la variable aleatoria (cuantitativa) de estudio X es el costo que asume la compañía cuando paga la cobertura del siniestro. ¿La variable X es discreta o continua? ¿Cuál es la escala de medición? - Es una variable continua, ya que los costos que pueda conllevar un siniestro no siempre serán enteros, pueden incluir fracciones de millones de pesos, los cuales es la escala en que encontramos esta variable, es decir, nominal. --- class: center, middle ####2) Completar la siguiente tabla ```r c("Costo")->B0 min(seguros$x)->B1 max(seguros$x)->B2 mean(seguros$x)->B3 median(seguros$x)->B4 sd(seguros$x)/mean(seguros$x)->B5 data.frame(B0, B1, B2, B3, B4, B5)->B6 colnames(B6)<-c("Variable","Mínimo", "Máximo", "Media", "Mediana", "CV") View(B6) ``` | **Variable** | **Mínimo ** | **Máximo** | **Media** | **Mediana** | **CV** | |:------------: |------------- |------------ |----------- |------------- |-------- | | Costo | 1.000 | 60.711 | 1.499 | 1.260 | 0.583 | --- class: center, middle #### 3) Calcular e interpretar el coeficiente de simetría y de curtosis. ```r round(skewness(seguros$x), 3) ``` ``` ## [1] 14.823 ``` ```r round(kurtosis(seguros$x), 3) ``` ``` ## [1] 623.389 ``` --- class: center, middle #### 4) Realizar e interpretar diagrama de Box-Plot. ```r boxplot(seguros$x, main = "Boxplot de seguros", col = "#FF82AB" ) ``` <!-- --> --- class: center, middle #### 5) Hacer un histograma de la variable costos. Nota: Hacer el histograma en R con freq = FALSE y nclass = 50. ```r hist(seguros$x, freq = F, nclass = 50, main = "Histograma costos", ylim = c(0,1), xlim = c(0,15), density = 80, col = c("#EE799F")) ``` <!-- --> --- class: center, middle ## MODELO PROBABILISTICO ```r M = function(x){ 3/x^4 } ``` --- class: center, middle #### 1. Hacer nuevamente el histograma de los datos, y sobre este, graficar la función de densidad de X. Visualmente, ¿esta función de densidad parece representar bien a los datos? ```r hist(seguros$x, freq = F, nclass = 50, main = "Histograma costos y funcion de densidad", ylim = c(0,1), xlim = c(0,15), density = (80), col = "#CD2990") curve(expr = (3/x^4), from = 60, to = 0, add = TRUE, col = "#2F4F4F") ``` <!-- --> --- class: center, middle #### 2. Calcular e interpretar Pr{X≤1.2}. ```r fun = integrate(f = M, lower = 1 , upper = 1.2) fun$value ``` ``` ## [1] 0.4212963 ``` --- class: center, middle #### 3. Calcular e Pr{X≥1.5} ```r fun = integrate(f = M, lower = 1.5 , upper = Inf) fun$value ``` ``` ## [1] 0.2962963 ``` --- class: center, middle #### 4. Calcular e interpretar Pr [1.0 ≤ X ≤ 1.7]. ```r fun = integrate(f = M, lower = 1.0 , upper = 1.7) fun$value ``` ``` ## [1] 0.7964584 ``` --- class: center, middle #### 5. Calcular e interpretar el percentil x0.95. ```r quantile(seguros$x, 0.95) ``` ``` ## 95% ## 2.707389 ``` --- class: center, middle #### 6. Calcular e interpretar el percentil x0.75. ```r quantile(seguros$x, 0.75) ``` ``` ## 75% ## 1.586692 ``` --- class: center, middle ####7. Calcular e interpretar el valor esperado de X. Comparar este valor esperado con el promedio empírico. ¿Existe una diferencia sustancial entre estos valores? ###### **Pr{X≤1.2}** ```r ppareto( 1.2, 1, 3) ``` ``` ## [1] 0.4212963 ``` ###### **Pr{X≥1.5}** ```r 1-ppareto(1.5 , 1 , 3) ``` ``` ## [1] 0.2962963 ``` ###### **Pr{1.0≤X≤1.7}** ```r ppareto(1.7 , 1 , 3) - ppareto(1 , 1, 3) ``` ``` ## [1] 0.7964584 ``` ###### **Percentilx0.95** ```r qpareto(0.95 , 1 , 3) ``` ``` ## [1] 2.714418 ``` ###### **Percentil x0.75** ```r qpareto(0.75, 1, 3) ``` ``` ## [1] 1.587401 ``` --- class: center, middle #### 8. Calcular e interpretar el valor esperado de X.Comparar este valor esperado con el promedio empírico. ¿Existe una diferencia sustancial entre estos valores? ```r Prom = function(x){3/x^3} Prome = integrate(f = Prom, lower = 1, upper = Inf) Esp = Prome$value ``` --- class: center, middle #### 9. Calcular e interpretar el coeficiente de variación de X. Comparar este coeficiente de variación con el coeficiente de variación empírico. ¿Existe una diferencia sustancial entre estos valores? ```r Vaa = function(x){((x - Esp)^2)*(3/(x^4))} Vari = integrate(f = Vaa, lower = 1, upper = Inf) var(seguros$x) ``` ``` ## [1] 0.7632828 ``` --- class: center, middle #### 10. Suponga que el costo del siniestro aumenta 5%, y además sufre un incremento constante de $750,000. Sea Y el costo transformado de acuerdo con este aumento **A. Observe que Y=aX+b. ¿Cuál es el valor de a y b?** `$$x=1.05\\y=750000\\y=1.05x+750000$$` **B. Encontrar la función de densidad de Y .** `$$y=1.05x+750.000$$` `$$y^-1(x)=\dfrac{y-750000}{1.05}=X -> y^-1 = \dfrac{x-750000}{1.05}\\f(g^-1x)=3(\dfrac{1.05}{x-750000})^4=\dfrac{3.65}{(x-750000)^4}\\ fx(g^-1x)=\dfrac{3.64}{(x-750000)^4}*(\dfrac{1}{1.05}=\dfrac{3.48}{(x-750000)^4})\\ \dfrac{dx}{dy}=\dfrac{1}{1.05}$$` --- class: center, middle **c. Calcular el valor esperado y el coeficiente de variación del costo transformado.** `$$Teorema 1 \\ E[ax+b]=aE[x]+b\\ 1.499[1.05x+750000=1.57+750000\\=750001.57$$` `$$Teorema 2 \\Var[ax+b]=a^2Var[x]\\0.763[1.05x+750000]=0.841$$` **D. Sobreponer sobre una misma gráfica las funciones de densidad de X y Y . ¿Hay diferencias importantes entre las dos funciones?**