16 de septiembre de 2016

Métodos de la Estadística Central

  • La desigualda de Chebyshev

  • Sea \(X\) una variable aleatoria con media \(\mu\) y con varianza \(\sigma ^2\). Entonces, para todo \(\varepsilon\) > 0, \[{{\mathbb{P}}_{}\left[| X - \mu | \ge \varepsilon\right]} \le \frac{\sigma^2}{\varepsilon^2}\]

  • Si \(\varepsilon = \sqrt{k} \sigma\), qué queda?

  • Qué \(\varepsilon\) para acotar por \(1 / 100\) ?

Chebyshev en la práctica

  • Con ello podemos asegurar que con probabilidad 0.99, la variable \(X\) estará en el intervalo \[ ( \mu - 10\sigma, \mu + 10\sigma ) \]

  • Puede ser un intervalo demasiado conservador y de poca utilidad

  • Consideremos un ejemplo: Los datos de las velocidades máximas diarias del viento en Zavantem, Bélgica

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.50   26.00   35.00   39.39   50.00  139.00

Chebyshev en la práctica II

  • En este caso el intervalo sería (-134.99, 213.76)… absurdo. El rango de la muestra es, como vimos (0.5, 139).
  • En general Chebyshev es demasiado conservador..

  • Además, da un intervalo simétrico y bilateral, cuando puede interesarnos sólo una de las colas de la distribución

Veamos los datos

Y el histograma

Otra Herramienta

  • Como el mejor predictor del valor de \(X\) es su media, podemos usar la LGFN junto con el TCL para dar intervalos de confianza de cualquier nivel
  • En principio estos intervalos son equivalentes a un contraste de hipótesis…

  • En nuestro ejemplo, el intervalo del 99% confianza para \(\mu\), obtenido mediante regresión lineal sobre una constante es (38.59, 40.18)

  • Pero, la proporción de observaciones por encima del límite superior de este intervalo es el 41 %.
  • Se queda muy lejos… es central

Más posibilidades

  • Una aplicación particular de la LFGN aplica a las variables \[Y = { 1\!\!1\left(X \le x\right)} =\begin{cases} 1, & X\le x\\ 0, & \text{en otro caso.}\end{cases}\]
  • Son variables i.i.d. con \({{\mathbb{E}}_{}\left[Y\right]} = {{\mathbb{P}}_{}\left[X \le x\right]}\)
  • Entonces \[\lim_{n\to\infty} \frac{\sum_{i=1} ^ n Y_i}{n} = {{\mathbb{P}}_{}\left[X\le x\right]}\]

Glivenko - Cantelli

  • La suma muestral se conoce como función de distribución empírica y suele denotarse por \(\hat{F}_n(x)\).
  • El Teorema de Glivenko - Cantelli asegura que la convergencia es uniforme en x queriendo decir que \[\lim_{n\to\infty}\sup_x | \hat{F}_n(x) - F(x) | = 0\]
  • Por ello, \(\hat{F}_n\) es una posibilidad para estimar las probabilidades de valores altos usando \[{{\mathbb{P}}_{}\left[X > y\right]} \sim 1 - \hat{F}_n(y)\]

Cuantiles

  • Pero usualmente no nos interesamos en el valor \(y\), sino en la probabilidad de exceso \(p\).
  • La función cuantil \(Q(p)\) con argumento una probabilidad se define como \[ Q(p) = F^{-1} (p)\] donde \(F\) es la función de distribución de la variable \(X\).
  • El cuantil del 99% es el valor Q(0.99) e indica
  • Para conocer su contraparte muestral necesitamos un objeto más…

Estadísticos de Orden

  • Dada una muestra aleatoria \((X_1, X_2, \dotsc, X_n)\) definimos los estadísticos de orden \((X_{(1)}, X_{(2)}, \dotsc, X_{(n)})\) recursivamente como \[ \begin{align} X_{(1)} =& \min (\{X_i, i = 1,\dotsc, n\})\\ X_{(2)} =& \min (\{X_i, X_i > X_{(1)}\})\\ \dots & \dots\\ X_{(n)} =& \max (\{X_i, i =1, \dotsc, n\}) \end{align} \]

  • Con estos estadísticos, cuánto vale la función de distribución empírica ?

La distribución empírica de nuevo

  • Podemos calcularla como \[ \hat{F}_n(x) = \begin{cases} 0, & x\le X_{(1)},\\ i/n, & X_{(i)} \le x < X_{(i+1)}, 1< i < n\\ 1, & x \ge X_{(n)}. \end{cases} \]
  • La función cuantil empírica se define como la inversa de esta función, aunque no es invertible !

  • Utilizamos la inversa generalizada dada por \[ F^{(-1)}(p) = \inf\{x : F(x) \ge p\} \]

Cuantiles empíricos

  • Con esta inversa, el cuantil empírico \(\hat{Q}(p)\) queda
  • \(\hat{Q}( p ) = X_{(i)},\) para \(\frac{i-1}{n} < p \le \frac{i}{n}\)
  • Cuál es la interpretación frecuentista de este número?
  • En el caso de los vientos el cuantil del 99 % estimado por este método es 93
  • Este método depende del tamaño de muestra, pues no puede calcular cuantiles muy altos \(\hat{Q}(1-p)\) para \(p< 1/n\)
  • Además, mientras más alto el cuantil, menos datos se utilizan para calcularlo.

Métodos Gráficos

  • Nos concentraremos en las colas de la distribución, es decir, en analizar valores de la muestra cuando son superiores a un cierto umbral

  • Vamos a estudiar un métdo muy útil el plot de cuantiles (QQ - Plot)

  • La idea básica es utilizar el QQ - plot como medio para evaluar la bondad de ajuste de un modelo paramétrico \(\{P_\theta, \theta\in\Omega\}\)

  • El método funciona para familias de distribuciones en las que los cuantiles \(Q_\theta(p)\) están linealmente relacionados con los cuantiles de una distribución de referencia en la misma familia.

QQ- Plot

  • La relación lineal puede examinarse fácilmente de modo visual y puede contastarse estadísicamente con regresión

  • Históricamente, los modelos Normales con \(\theta = (\mu, \sigma^2)\) son los más empleados en este terreno, pero para el estudio de las colas el modelo exponencial será de mucha mayor utilidad.

  • Una variable aleatoria \(X\) tiene la distribución exponencial con parámetro \(\lambda >0\) si su función de densidad es \[ f_X (x) = \lambda e^{-\lambda x},\quad x>0\]

  • Cuál es su distribución y cuál su función cuantil?

QQ plot exponencial

  • Por ello, la relación lineal es evidente \[Q_\lambda(p) = \frac{1}{\lambda} Q_1(p)\]

  • Para evaluar la bondad de ajuste no podemos contar con el valor de \(\lambda\), ni siquiera estimado. En principio es un parámetro estorbo (nuisance)

  • Gráficamente, poniendo Q_1(p) en el eje horizontal y los cuantiles muestrales \(\hat{Q}(p)\) en el vertical, deberíamos ver una recta (si el modelo exponencial es adecuado)

  • El QQ-Plot exponencial es la gráfica de \[( -log(1-p), \hat{Q}(p) )\]

QQ plot exponencial

  • En caso que la linealidad se verifique, podemos utilizar MCO para tener un estimado del parámetro \(\lambda ^ {-1}\)

  • Podemos también juzgar la bondad del ajuste lineal por medio del \(R^2\) de la regresión.

  • A diferencia de usar sólo la función cuantil empírica en un valor, este método utiliza todos los datos para estimar un modelo para la función cuantil

  • Con ello, podemos estimar cualquier cuantil, sin importar lo alto que sea el valor de referencia (estimar lo nunca visto)

QQ plot exponencial

  • El juego de valores para \(p\) más intutivo en este diseño es \[ \left(\frac 1n, \frac 2n,\dotsc, \frac{n-1}{n}, 1\right) \]

  • No obstante, siendo que estamos aproximando una función continua \(Q(p)\) con una discreta \(\hat{Q}(p)\), es más apropiado establecer alguna corrección por continuidad

  • Una es elegir \[ \left(\frac{1-0.5}{n}, \frac{2-0.5}{n}, \dotsc, \frac{n-0.5}{n}\right)\]

QQ plot exponencial

  • Otra es elegir \[\left(\frac{1}{n+1},\frac{2}{n+1},\dotsc,\frac{n}{n+1}\right)\]

  • Hay más sugerencias en la literatura

  • Esta segunda forma es la que vamos a utilizar

  • El QQ plot exponencial tiene una interpretación interesante puesto que el gráfico es una aproximación de la función \[g(x) = -log(1-F(x))\]

QQ plot exponencial

  • Esta es la función que hace que \(g(X)\) tenga la distribución exponencial estandar (\(\lambda = 1\)).
  • En efecto, \[ \begin{align} {{\mathbb{P}}_{}\left[-log(1-F(X)) \le x\right]} &= {{\mathbb{P}}_{}\left[1-F(X) \ge e^{-x}\right]}\\ &= {{\mathbb{P}}_{}\left[F(X) \le 1 - e^{-x}\right]}\\ &= {{\mathbb{P}}_{}\left[X \le F^{-1} (1-e^{-x})\right]}\\ &= F(F^{-1}(1-e^{-x})) \\ &= 1-e^{-x} \end{align} \]

QQ plot exponencial

  • Muchas veces los datos sólo están disponibles sobre un umbral dado, \(t\), y en ese caso la disribución de la observación es la condicional dado que \(X > t\).

  • En el caso de la distribución exponencial, si \(x > t\) \[ \begin{align} {{\mathbb{P}}_{}\left[X > x \vert X > t\right]} &=\frac{{{\mathbb{P}}_{}\left[X>x, X> t\right]}}{{{\mathbb{P}}_{}\left[X > t\right]}}\\ &= \frac{{{\mathbb{P}}_{}\left[X>x\right]}}{{{\mathbb{P}}_{}\left[X>t\right]}}\\ &= \exp\left(-\lambda(x-t)\right) \end{align} \]

  • Observa que esto es exactamente igual a \({{\mathbb{P}}_{}\left[X = x- t\right]}\), es decir que el condicional \(X>t\) no tiene efecto en la cola

QQ plot exponencial

  • Esta propiedad se conoce como pérdida de memoria y caracteriza a la distribución exponencial entre todas las distribuciones continuas para variables positivas

  • La función cuantil correspondiente a los datos condicionados es \[Q(p) = t- \frac{1}{\lambda} log(1-p)\]

  • De este modo, sigue habiendo una relación lineal con los cuantiles de la exponencial estándar, añadiéndose un intercepto con valor \(t\)

QQ plot exponencial para Zavantem

QQ plot exponencial

Los coeficientes del ajuste son

##             Estimate Std. Error   t value      Pr(>|t|)
## (Intercept) 80.85688  0.2772167 291.67393 2.239028e-112
## Teoricos    13.59252  0.2085614  65.17278  9.198457e-66
  • El coeficiente \(R^2\) es de 0.98 dando una medida global del ajuste

  • Con este estimado, podemos calcular los cuantiles extremos para los vientos con el modelo \[\hat{Q}(p) = t - \frac{1}{\hat{\lambda}}log(1-p)\]

QQ plot exponencial

  • El estimador \(\hat{\lambda}\) puede ser el de MCO obtenido en el QQ plot o puede ser el EMV.

  • Utilizando el estimador MCO, el cuantil del 99% es 143.45, en vez de 134.62 que es el estimador muestral

  • La ventaja del estimador muestral es que no es paramétrico, pero puede subestimar el cuantil y las consecuencias pueden ser costosas

  • La ventaja del QQ plot es que permite estimar cuantiles con más precisión, incluso sobre datos nunca vistos. Tomar en cuenta que el máximo observado en los vientos es 139

Resumen del método QQ plot

  • Elegir una familia paramétrica en la cual se pueda establecer una relación lineal entre los cuantiles de \(F_\theta\) y los cuantiles de una distribución de referencia en la familia

  • Sustituir los cuantiles teóricos \(Q(p)\) por los empíricos \(\hat{Q}(p)\) para los valores apropiados de \(p\)

  • Graficar los cuantiles empíricos contra los correspondientes cuantiles teóricos de la distribución de referencia

  • Evaluar la linealidad de la relación

Otra distribución importante

  • Tal como la distribución logNormal surge de tomar la exponencial de una distribución Normal, la Pareto surge de exponenciar una variable exponencial

  • Si \(X\sim exp(\lambda)\) entonces \(Y = \exp(X) \sim P(\lambda)\)

  • Su distribución es, para \(x>1\) y \(\lambda >0\) \[ \begin{align} {{\mathbb{P}}_{}\left[Y \le x\right]} & = {{\mathbb{P}}_{}\left[X \le \log(x)\right]}\\ & = 1-\exp(-\lambda\log(x))\\ & = 1- x^{-\lambda} \end{align} \]

La distribución Pareto

  • A diferencia de la logNormal, la Pareto puede tener colas muy pesadas \[ {{\mathbb{E}}_{}\left[X\right]} = \int_1^\infty \lambda x^{-\lambda} dx = \begin{cases} \infty, & \lambda \le 1,\\ \frac{\lambda}{\lambda -1},& \lambda > 1 \end{cases} \]

  • También \[ \mbox{Var}(X) = \begin{cases} \infty,& \lambda\in (1,2],\\ \frac{\lambda}{(\lambda-1)^2(\lambda-2)}, & \lambda > 2 \end{cases} \]

  • Es, de hecho, la distribución prototipo para las colas pesadas

QQ plot Pareto

  • Sabiendo que \(X\sim P(\lambda)\) si y s'olo si \(\log(X)\sim \mbox{Exp}(\lambda)\), podemos construir el QQ plot de pareto con el de la exponencial

  • En efecto, basta tomar logaritmos de los datos!

  • Como ejemplo, volvamos a los datos de la aseguradora (Noruega) viendo las reclamaciones por incendios

  • Son datos del monto de reclamación (x1000 Krone) por incendio, con un truncamiento inferior en 500K

Aseguradora Noruega

El año 1976

Las colas

Las colas

Limitaciones

  • El método del QQ plot se basa en la relación lineal entre cuantiles y no necesita la estimación del parámetro

  • De hecho, estimar el parámetro puede ser un resultado del análisis por QQ

  • Esto es cierto para las distribuciones que vimos y, en general, para familias de localización y escala es decir donde \[f_X(x) = f\left(\frac{x-\theta_1}{\theta_2}\right)\]

  • En la expresión \(f_X\) es la densidad de \(X\) y \(f\) es una densidad fija. Los parámetros \(\theta_1\) y \(\theta_2\) son los de localización y escala respectivamente.

Alternativa

  • Cuando la familia \(\{F_\theta\}\) no admita esta relación lineal, se puede usar el QQ plot en dos etapas

  • Primero estimamos \(\hat{\theta}\) con la muestra
  • Después graficamos el QQ plot con la aproximación muestral \[(\hat{Q}(p_i), X_{(i)})\]
  • Otra alternativa es usar PP plots (P de probabilidad) \[ \begin{align} ( \hat{F}(X_{(i)}) &, p_i )\\ ( 1- \hat{F}(X_{(i)}) &, 1-p_i ) \end{align} \]

Alternativas

  • La lógica detrás del PP plot es que si \(X\sim F_\theta\) entonces \(F_\theta(X) \sim U(0,1)\)

  • En el caso del modelo exponencial esto implica transformar primeor los datos a la exponencial estándar y luego evaluar la bondad de ajuste

  • Como vimos antes, esto implica graficar \[ (-log(1-p_i), -log(1-F_{\hat{\theta}}(X_{(i)}) )\]

  • En ocasiones encontrarás este gráfico referido como W plot.

Gráfico de excesos

  • El concepto probabilístico de condicionar al evento \(X > t\) es de suma importancia en la práctica. En particular para las reaseguradoras y para la regulación del riesgo bancario

  • En el primer caso, la reaseguradora admite pagar la pérdida si esta supera un umbral. En el segundo, las reservas de capital se exceden tras una pérdida (por inversión riesgosa) superior a un cierto nivel

  • La pregunta forzada en ambos casos es la magnitud del exceso y, dada la exposición recurrente, se busca el exceso medio (Mean Excess)

  • También se conoce como "pérdida en exceso" (Excess Loss), dado lo que suele modelar

Exceso Medio

  • El Exceso Medio se define como \[ e(t) = {{\mathbb{E}}_{}\left[X - t \vert X > t\right]} \]

  • Esto supone, claro, que la media es finita.

  • En la práctica, el estimador muestral es \[ \hat{e_n}(t) = \frac{\sum_{i=1}^n X_i { 1\!\!1\left(X_i > t\right)}}{\sum_{i=1}^n { 1\!\!1\left(X_i > t\right)}} - t \]

  • Los valores que elegimos para \(t\) en términos prácticos son los estadísticos de orden \(X_{(n-k)}\) para \(k = 1, \dotsc, n-1\)

Exceso Medio

  • Observa que tenemos \(t = X_{(n-1)}, \dotsc, X_{(2)}\), que conforman una sucesión decreciente. El estadístico \(X_{(n-k)}\) es el \(k+1\)–ésimo más grande de la muestra.

  • Con esta elección, las observaciones que aparecen en el numerador comienzan en \(X_{(n+k-1)}\) y terminan en \(X_{(n)}\) y son exactamente \(k\)

  • En términos formales, el estimador del EM es \[ e_{k,n} = \hat{e}_n (X_{(n-k)}) = \frac 1k\sum_{j=1}^k X_{n+1-j} - X_{(n-k)}\]

Exceso Medio

  • Para poder utlizar el Exceso Medio como herramienta estadística, es necesario conocerlo en forma teórica. Esto nos dará las formas básicas que el estimador podría o debería reproducir.

  • Dado que \(X\sim F\), es fácil comprobar que \[e(t) = \frac{\int_t ^\infty (1-F(u))du}{1-F(t)}\]

  • En particular, si \(X\sim Exp(\lambda)\), la distribución condional de \(X-t\) dado que \(X > t\) es la misma que la de \(X\), por la pérdida de memoria

  • Esto implica que en el caso exponencial \(e(t) = \frac{1}{\lambda}\)

Exceso Medio

  • También puede comprobarse la relación \[ \frac{1-F(t)}{1-F(0)} = \frac{e(0)}{e(t)}\exp\left( -\int_0 ^t \frac{1}{e(s)} ds\right) \]

  • Esto implica que la función \(e(t)\) determina a la función \(F(t)\), de forma que se puede utilizar como método de bondad de ajuste

  • De ahí que conocer más formas sea importante.

Figuras clásicas

Clasificación de colas

  • La conducta asintótica de \(e(t)\) sirve como clasificador de colas comparando con la exponencial

  • Si \(e(t)\) tiende a \(\infty\) con \(t\), diremos que la distribución tiene colas pesadas (más pesadas que la exponencial HTE)

  • Si \(e(t)\) decrece cuando \(t\) tiende a \(\infty\), diremos que la distribución tiene colas ligeras (más ligeras que la exponencial LTE)

  • El caso exponencial se verifica si \(e(t)\) parece aproximarse a alguna constante.

  • Esto aplica sólo a distribuciones que no estén acotadas por la derecha

Clasificación empírica de Colas

  • En la práctica, el gráfico de la función de exceso se puede hacer de dos maneras: contra \(k\) o contra \(X_{(n-k)}\)

  • Se busca descifrar la conducta del estimado \(\hat{e}_{n,k}\) para valores decrecientes en \(k\) o crecientes en \(X_{(n-k)}\)

Ejemplo 1: Simulación Exponencial contra k

Ejemplo 1.bis Exp contra datos (t)

Ejemplo 2 Pareto contra k

Ejemplo 2.bis Pareto contra datos

Viento contra los datos

Viento contra k

Fuego contra datos (1976)

Fuego contra t (1976)