Octubre 2016
Inicio | Fin | Actividad |
---|---|---|
8:15 am | 9:50 am | Bloque I |
9:50 am | 10:10 am | Receso I |
10:10 am | 12:00 am | Bloque II |
12:00 am | 1:15 pm | Almuerzo |
1:15 pm | 3:15 pm | Bloque III |
* Población. * Variables aleatorias, (continuas, discretas). * Distribución de Probabilidad. * Caracterización Probabilística de Variables.
* Muestras. * Estadísticas de la Muestra. * Estadística descriptiva.
* Test de Bondad de Ajuste. * Opinión de Expertos.
Axioma: No hay dos cosas idénticas
Sin embargo, podemos realizar actividades y fabricar cosas cuyas diferencias (variación) son pequeñas.
* causas asignables * causas aleatorias
Lo que diferencia los tiempos modernos de los antiguos es la conquista del riesgo. (Berstein, Against the gods).
ALEATORIO: Procede del latín, "alea" que significa suerte.
ESTOCÁSTICO: Procede del griego: "στοχαστικές", que significa hábil en conjeturar.
Para obtener información útil para la toma de decisiones sobre el proceso / sistema que se analiza, hace falta entender las relaciones entre los componentes y planificar para hacer seguimiento y medición de las fuentes percibidas de variabilidad.
En las organizaciones de la era del conocimiento las decisiones deben tener base en los hechos/datos
Los datos deben ser:
- Relevantes - Representativos - Contextuales - Suficientes, confiables y creibles
EJERCICIO:
En un papel, describa al menos dos bases de datos o fuentes de información interna/externa que usted utiliza en su trabajo diario.
Entregue el papel al compañero que se ubica a su izquierda (o delante).
Siga las instrucciones del facilitador.
(Del it. modello).
1. m. Arquetipo o punto de referencia para imitarlo o reproducirlo. 2. m. En las obras de ingenio y en las acciones morales, ejemplar que por su perfección se debe seguir e imitar. 3. m. Representación en pequeño de alguna cosa.
4. m. Esquema teórico, generalmente en forma matemática, de un sistema o de una realidad compleja, como la evolución económica de un país, que se elabora para facilitar su comprensión y el estudio de su comportamiento.
5. m. Objeto, aparato, construcción, etc., o conjunto de ellos realizados con arreglo a un mismo diseño. Auto modelo 1976. Lavadora último modelo. 6. m. Vestido con características únicas, …
Tres aproximaciones en la historia que llevan al mismo esquema teórico:
La probabilidad de un evento simple \(P(E)\) es una medida de la verosimilitud de que el evento ocurra, una vez que el experimento se haya realizado. Esto se puede interpretar de dos formas:
Cualquiera de las dos interpretaciones lleva a:
\(0 \leq P(E) \leq 1\)
\(\sum P(E_i ) = 1\)
Esta última ecuación vale cuando los eventos son disjuntos
Si \(A\) es un evento, se calcula la probabilidad como la suma de los eventos simples que lo componen. En caso que los eventos simples sean equiprobables, entonces la probabilidad se puede calcular como:
\(P(A)= \frac{\mbox{# Eventos simples en }A}{\mbox{# Eventos simples en la población}}\)
Esta es la fórmula que se usa para calcular la probabilidad de resultados en juegos de azar tipo dados, ruleta o cartas.
Cálculo:
\[P(A \cup B) = P(A) + P(B) - P(A \cap B)\]
\[ P(A \cup A^c) = P(A)+P(A^c) = 1 \]
Ejercicio: Suponga que \(\Omega = A \cup B\) y que \(P(A \cap B)=0.2\). Encuentre \(P(A^c)\) sabiendo que \(P(B) =0.7\)
Cuando se tiene información extra, la verosimilitud de ocurrencia de un evento (puede) cambia:
\[P(A | B) = \frac{P(A \cap B)}{P(B)}\]
Se lee: La probabilidad de A dado B.
Se dice que dos eventos son Independientes cuando conocer uno, no cambia la probabilidad
\[ P(A| B) = P(A) \iff P(A \cup B)= P(A)P(B) \]
Pureza | Color | #Pruebas aprobadas | Prob |
---|---|---|---|
Aprob | Aprob | 2 | 0.64 |
No Aprob | Aprob | 1 | 0.16 |
Aprob | No Aprob | 1 | 0.16 |
No Aprob | No Aprob | 0 | 0.04 |
Para hablar de la variabilidad es suficiente conocer la función de probabilidad
Simulemos el lanzamiento de un dado de 6 caras en R
caras<-c(1,2,3,4,5,6) lanzamientos<- sample(caras,size=100,replace=T) barplot(table(lanzamientos),col="green")
Lo mismo, pero con mas valores
caras<-c(1,2,3,4,5,6) lanzamientos<- sample(caras,size=10000,replace=T) barplot(table(lanzamientos),col="green")
Probabilidad de que la variable tome un valor (exactamente)
- Hay que hablar de intervalos ! - Hay que **medir**
Función de distribución de probabilidad acumulad \[ F(t)= \mbox{Prob}\{T \leq t\}\]
* Medida de la verosimilitud que ocurran eventos que permitan que $T$ sea mayor que $t$
Si \(F\) es una función bien portada (continua, diferenciable en el soporte), entonces se puede pensar que su la función derivada representa la contribución de la "masa de un punto" en la probabilidad acumulada.
\[ f(t) = \frac{d F}{dt}(t) \approx \frac{F(t+\Delta t)}{\Delta t}\]
y a esta función se le llama densidad de probabilidad
Función de Confiabilidad
\[R(t)=\mbox{Prob\{T > t\}}\]
Tasa de peligro (que ocurra un falla) (Hazard rate)
\[ h(t) = \frac{f(t)}{R(t)}\] \[\approx \mbox{Prob}\{T \in [t, t + \Delta t] | T > t \}\]
La población es el universo de posibles resultados que puede tener un "experimento" (teórico o real).
No se puede observar así que se "muestrea"
Usualmente cuando se habla de una muestra, se está diciendo que los datos fueron obtenidoso de "unidades similares", en "condiciones similares" y de manera "independiente".
En los libros a eso se lo llama una muestra independiente, identicamente distribuida
Como de los datos obtengo información sobre la población en cuanto a:
Lo que ser resume en proponer una distribución de probabilidad apropiada para los datos observados
library(fitdistrplus, quietly=T)
## Warning: package 'fitdistrplus' was built under R version 3.2.5
data("groundbeef") plotdist(groundbeef$serving, hist=TRUE,demp=TRUE)
descdist(groundbeef$serving,boot=1000)
## summary statistics ## ------ ## min: 10 max: 200 ## median: 79 ## mean: 73.64567 ## estimated sd: 35.88487 ## estimated skewness: 0.7352745 ## estimated kurtosis: 3.551384
Los ejemplos que se muestran en estas láminas son directamente tomados de https://cran.r-project.org/web/packages/fitdistrplus/vignettes/paper2JSS.pdf
descdist(groundbeef$serving, boot = 1000)
## summary statistics ## ------ ## min: 10 max: 200 ## median: 79 ## mean: 73.64567 ## estimated sd: 35.88487 ## estimated skewness: 0.7352745 ## estimated kurtosis: 3.551384
fitweibull<-fitdist(groundbeef$serving,"weibull") fitgamma<-fitdist(groundbeef$serving,"gamma") fitlognorm<-fitdist(groundbeef$serving,"lnorm") summary(fitweibull)
## Fitting of the distribution ' weibull ' by maximum likelihood ## Parameters : ## estimate Std. Error ## shape 2.185885 0.1045755 ## scale 83.347679 2.5268626 ## Loglikelihood: -1255.225 AIC: 2514.449 BIC: 2521.524 ## Correlation matrix: ## shape scale ## shape 1.000000 0.321821 ## scale 0.321821 1.000000
par(mfrow=c(2,2)) plot.legend<-c("Weibull","lognormal","gamma") denscomp(list(fitweibull,fitlognorm,fitgamma), legendtext=plot.legend) qqcomp(list(fitweibull,fitlognorm,fitgamma), legendtext=plot.legend) cdfcomp(list(fitweibull,fitlognorm,fitgamma), legendtext=plot.legend) ppcomp(list(fitweibull,fitlognorm,fitgamma), legendtext=plot.legend)
data("salinity") str(salinity)
## 'data.frame': 108 obs. of 2 variables: ## $ left : num 20 20 20 20 20 21.5 15 20 23.7 25 ... ## $ right: num NA NA NA NA NA 21.5 30 25 23.7 NA ...
plotdistcens(salinity, Turnbull=FALSE)
library(FAdist)
## Warning: package 'FAdist' was built under R version 3.2.5
fsal.ln<-fitdistcens(salinity,'lnorm') fsal.w<-fitdistcens(salinity, 'weibull') summary(fsal.ln)
## Fitting of the distribution ' lnorm ' By maximum likelihood on censored data ## Parameters ## estimate Std. Error ## meanlog 3.3854230 0.06486627 ## sdlog 0.4961333 0.05455091 ## Fixed parameters: ## data frame with 0 columns and 0 rows ## Loglikelihood: -139.055 AIC: 282.1099 BIC: 287.4742 ## Correlation matrix: ## meanlog sdlog ## meanlog 1.0000000 0.2938412 ## sdlog 0.2938412 1.0000000
cdfcompcens(list(fsal.ln,fsal.w),legendtext=c("lognormal", "weibull"))
data("toxocara") str(toxocara)
## 'data.frame': 53 obs. of 1 variable: ## $ number: int 0 0 0 0 0 0 0 0 0 0 ...
ftoxo.P<- fitdist(toxocara$number,"pois") ftoxo.NB<-fitdist(toxocara$number, "nbinom")
summary(ftoxo.P)
## Fitting of the distribution ' pois ' by maximum likelihood ## Parameters : ## estimate Std. Error ## lambda 8.679245 0.4046719 ## Loglikelihood: -507.5334 AIC: 1017.067 BIC: 1019.037
plot(ftoxo.P)
plot(ftoxo.NB)
Consideremos un sistema con tres componentes idénticos y en paralelo, con una distribución de \(T\) Weibull con párametro de forma \(\gamma = 2\) y de escala \(\beta=100 horas\)
aux<-rweibull(3000,shape=2,scale=100) datos<-matrix(aux,ncol=3) names(datos)=c("C1","C2","C3") simulacion<-apply(datos,1,max)
plot(1:1000,simulacion, type='p')
hist(simulacion)