Octubre 2016

Bienvenida

Horario

Inicio Fin Actividad
8:15 am 9:50 am Bloque I
9:50 am 10:10 am Receso I
10:10 am 12:00 am Bloque II
12:00 am 1:15 pm Almuerzo
1:15 pm 3:15 pm Bloque III

Contenido

Definiciones Básicas

  • Probabilidad
    * Población.
    * Variables aleatorias, (continuas, discretas).
    * Distribución de Probabilidad. 
    * Caracterización Probabilística de Variables.
  • Estadística
    * Muestras.
    * Estadísticas de la Muestra.
    * Estadística descriptiva.
    

De la muestra a la población

  • Distribución teórica vs. Distribución muestral.
    * Test de Bondad de Ajuste.
    * Opinión de Expertos.

Simulación

  • Operaciones con variables Random.
  • Estudio de la Simulación de Montecarlo.

Probabilidad

Pensamiento estadístico

Axioma: No hay dos cosas idénticas

Sin embargo, podemos realizar actividades y fabricar cosas cuyas diferencias (variación) son pequeñas.

  • ¿A qué se deben las diferencias?
    * causas asignables
    * causas aleatorias

Variabilidad e incertidumbre van de la mano

Lo que diferencia los tiempos modernos de los antiguos es la conquista del riesgo. (Berstein, Against the gods).

ALEATORIO: Procede del latín, "alea" que significa suerte.

ESTOCÁSTICO: Procede del griego: "στοχαστικές", que significa hábil en conjeturar.

Para obtener información útil para la toma de decisiones sobre el proceso / sistema que se analiza, hace falta entender las relaciones entre los componentes y planificar para hacer seguimiento y medición de las fuentes percibidas de variabilidad.

En las organizaciones de la era del conocimiento las decisiones deben tener base en los hechos/datos

  • Los datos deben ser:

    - Relevantes
    
    - Representativos
    
    - Contextuales
    
    - Suficientes, confiables y creibles

EJERCICIO:

  1. En un papel, describa al menos dos bases de datos o fuentes de información interna/externa que usted utiliza en su trabajo diario.

  2. Entregue el papel al compañero que se ubica a su izquierda (o delante).

  3. Siga las instrucciones del facilitador.

  • "No hay confiabilidad operacional sin adecuada recolección de datos"

Modelo

(Del it. modello).

1. m. Arquetipo o punto de referencia para imitarlo o reproducirlo. 2. m. En las obras de ingenio y en las acciones morales, ejemplar que por su perfección se debe seguir e imitar. 3. m. Representación en pequeño de alguna cosa.

4. m. Esquema teórico, generalmente en forma matemática, de un sistema o de una realidad compleja, como la evolución económica de un país, que se elabora para facilitar su comprensión y el estudio de su comportamiento.

5. m. Objeto, aparato, construcción, etc., o conjunto de ellos realizados con arreglo a un mismo diseño. Auto modelo 1976. Lavadora último modelo. 6. m. Vestido con características únicas, …

Modelos de Probabilidad

Tres aproximaciones en la historia que llevan al mismo esquema teórico:

  • A través de los juegos de azar
  • A través de la observación de fenómenos naturales y medición de variables de interés
  • A través de la síntesis (en la red neuronal personal) de la valoración de la verosimilitud de ocurrencia de eventos futuros.

La probabilidad de un evento simple \(P(E)\) es una medida de la verosimilitud de que el evento ocurra, una vez que el experimento se haya realizado. Esto se puede interpretar de dos formas:

  • Frecuentistamente: Repetir el experimento un número grande de veces y observar la proporción de veces que ocurre el evento. Cuando el número de repeticiones es grande, la proporción tiende a \(P(E)\).
  • Subjetivamente: \(P(E)\) es la cantidad que estamos dispuestos a apostar a favor de que \(E\) ocurra, en un juego en el cual ganamos una unidad si \(E\) ocurre.

Cualquiera de las dos interpretaciones lleva a:

\(0 \leq P(E) \leq 1\)

\(\sum P(E_i ) = 1\)

Esta última ecuación vale cuando los eventos son disjuntos

Probabilidad de eventos discretos

(finito)

Si \(A\) es un evento, se calcula la probabilidad como la suma de los eventos simples que lo componen. En caso que los eventos simples sean equiprobables, entonces la probabilidad se puede calcular como:

\(P(A)= \frac{\mbox{# Eventos simples en }A}{\mbox{# Eventos simples en la población}}\)

Esta es la fórmula que se usa para calcular la probabilidad de resultados en juegos de azar tipo dados, ruleta o cartas.

Reglas básicas de probabilidad

Cálculo:

\[P(A \cup B) = P(A) + P(B) - P(A \cap B)\]

\[ P(A \cup A^c) = P(A)+P(A^c) = 1 \]

Ejercicio: Suponga que \(\Omega = A \cup B\) y que \(P(A \cap B)=0.2\). Encuentre \(P(A^c)\) sabiendo que \(P(B) =0.7\)

Probabilidad condicional

Cuando se tiene información extra, la verosimilitud de ocurrencia de un evento (puede) cambia:

\[P(A | B) = \frac{P(A \cap B)}{P(B)}\]

Se lee: La probabilidad de A dado B.

Se dice que dos eventos son Independientes cuando conocer uno, no cambia la probabilidad

\[ P(A| B) = P(A) \iff P(A \cup B)= P(A)P(B) \]

Variables aleatorias

  • Variables críticas para la calidad
Pureza Color #Pruebas aprobadas Prob
Aprob Aprob 2 0.64
No Aprob Aprob 1 0.16
Aprob No Aprob 1 0.16
No Aprob No Aprob 0 0.04

Para hablar de la variabilidad es suficiente conocer la función de probabilidad

Simulemos el lanzamiento de un dado de 6 caras en R

caras<-c(1,2,3,4,5,6)

lanzamientos<- sample(caras,size=100,replace=T)

barplot(table(lanzamientos),col="green")

Lo mismo, pero con mas valores

caras<-c(1,2,3,4,5,6)

lanzamientos<- sample(caras,size=10000,replace=T)

barplot(table(lanzamientos),col="green")

Variables continuas

  • Tiempos de falla
  • Tiempo de reparación
  • Estatura de hombres mayores de 21 años
  • Cantidad de precipitación en un lugar durante un tiempo determinado

Asignación de probabilidad

  • Soporte de la variable: Valores que puede tomar la variable aleatoria
  • Probabilidad de que la variable tome un valor (exactamente)

    -  Hay que hablar de intervalos !
    -  Hay que **medir**
  • Función de distribución de probabilidad acumulad \[ F(t)= \mbox{Prob}\{T \leq t\}\]

    * Medida de la verosimilitud que ocurran eventos que permitan que $T$ 
      sea mayor que $t$

Asignación de probabilidad

Si \(F\) es una función bien portada (continua, diferenciable en el soporte), entonces se puede pensar que su la función derivada representa la contribución de la "masa de un punto" en la probabilidad acumulada.

\[ f(t) = \frac{d F}{dt}(t) \approx \frac{F(t+\Delta t)}{\Delta t}\]

y a esta función se le llama densidad de probabilidad

Función de Confiabilidad

\[R(t)=\mbox{Prob\{T > t\}}\]

Tasa de peligro (que ocurra un falla) (Hazard rate)

\[ h(t) = \frac{f(t)}{R(t)}\] \[\approx \mbox{Prob}\{T \in [t, t + \Delta t] | T > t \}\]

Estadística

Muestra vs. Población

La población es el universo de posibles resultados que puede tener un "experimento" (teórico o real).

No se puede observar así que se "muestrea"

Usualmente cuando se habla de una muestra, se está diciendo que los datos fueron obtenidoso de "unidades similares", en "condiciones similares" y de manera "independiente".

En los libros a eso se lo llama una muestra independiente, identicamente distribuida

  • Misma población que se "extrae al azar"
  • Misma variable que se mide en cada unidad muestral

La gran pregunta

Como de los datos obtengo información sobre la población en cuanto a:

  • Su localización o valor central (media, mediana, moda(s))
  • Su dispersión (variancia, rango intercuartil)
  • Su asimetría con respecto al valor central (Skewness, tercer momento centrado)
  • Sus "colas" (curtosis)

Lo que ser resume en proponer una distribución de probabilidad apropiada para los datos observados

library(fitdistrplus, quietly=T)
## Warning: package 'fitdistrplus' was built under R version 3.2.5
data("groundbeef")
plotdist(groundbeef$serving, hist=TRUE,demp=TRUE)

descdist(groundbeef$serving,boot=1000)

## summary statistics
## ------
## min:  10   max:  200 
## median:  79 
## mean:  73.64567 
## estimated sd:  35.88487 
## estimated skewness:  0.7352745 
## estimated kurtosis:  3.551384

fitweibull<-fitdist(groundbeef$serving,"weibull")
fitgamma<-fitdist(groundbeef$serving,"gamma")
fitlognorm<-fitdist(groundbeef$serving,"lnorm")
summary(fitweibull)
## Fitting of the distribution ' weibull ' by maximum likelihood 
## Parameters : 
##        estimate Std. Error
## shape  2.185885  0.1045755
## scale 83.347679  2.5268626
## Loglikelihood:  -1255.225   AIC:  2514.449   BIC:  2521.524 
## Correlation matrix:
##          shape    scale
## shape 1.000000 0.321821
## scale 0.321821 1.000000

par(mfrow=c(2,2))
plot.legend<-c("Weibull","lognormal","gamma")
denscomp(list(fitweibull,fitlognorm,fitgamma), legendtext=plot.legend)
qqcomp(list(fitweibull,fitlognorm,fitgamma), legendtext=plot.legend)
cdfcomp(list(fitweibull,fitlognorm,fitgamma), legendtext=plot.legend)
ppcomp(list(fitweibull,fitlognorm,fitgamma), legendtext=plot.legend)

Otro ejemplo

  • Datos censurados
data("salinity")
str(salinity)
## 'data.frame':    108 obs. of  2 variables:
##  $ left : num  20 20 20 20 20 21.5 15 20 23.7 25 ...
##  $ right: num  NA NA NA NA NA 21.5 30 25 23.7 NA ...

plotdistcens(salinity, Turnbull=FALSE)

  • Ajuste de distribuciones
library(FAdist)
## Warning: package 'FAdist' was built under R version 3.2.5
fsal.ln<-fitdistcens(salinity,'lnorm')
fsal.w<-fitdistcens(salinity, 'weibull')
summary(fsal.ln)
## Fitting of the distribution ' lnorm ' By maximum likelihood on censored data 
## Parameters
##          estimate Std. Error
## meanlog 3.3854230 0.06486627
## sdlog   0.4961333 0.05455091
## Fixed parameters:
## data frame with 0 columns and 0 rows
## Loglikelihood:  -139.055   AIC:  282.1099   BIC:  287.4742 
## Correlation matrix:
##           meanlog     sdlog
## meanlog 1.0000000 0.2938412
## sdlog   0.2938412 1.0000000

cdfcompcens(list(fsal.ln,fsal.w),legendtext=c("lognormal", "weibull"))

Distribución para variable discreta

data("toxocara")
str(toxocara)
## 'data.frame':    53 obs. of  1 variable:
##  $ number: int  0 0 0 0 0 0 0 0 0 0 ...

Ajuste

ftoxo.P<- fitdist(toxocara$number,"pois")
ftoxo.NB<-fitdist(toxocara$number, "nbinom")

summary(ftoxo.P)
## Fitting of the distribution ' pois ' by maximum likelihood 
## Parameters : 
##        estimate Std. Error
## lambda 8.679245  0.4046719
## Loglikelihood:  -507.5334   AIC:  1017.067   BIC:  1019.037

plot(ftoxo.P)

plot(ftoxo.NB)

Modelos de simulación

Dos aproximaciones

  • Monte Carlo Generación de números pseudo aleatorios con distribuciones conocidas.
  • Simulación de eventos discretos

Ejemplo sencillo

Consideremos un sistema con tres componentes idénticos y en paralelo, con una distribución de \(T\) Weibull con párametro de forma \(\gamma = 2\) y de escala \(\beta=100 horas\)

aux<-rweibull(3000,shape=2,scale=100)
datos<-matrix(aux,ncol=3)
names(datos)=c("C1","C2","C3")
simulacion<-apply(datos,1,max)

plot(1:1000,simulacion, type='p')

hist(simulacion)

Eventos discretos

llatas@usb.ve