probabilidad es el lenguaje matematico para cuantificar la insertidumbre -Wasserman
Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
Interpretación frecuentista de probabilidad.
Probabilidad condicional y su relación con independencia.
La regla de Bayes.
El espacio de resultados \(\Omega\) es el conjunto de posibles resultados de un experimento aleatorio. Ejemplo: Si lanzamos una moneda dos veces entonces:
\[\Omega = \{AA, AS, SA,SS \} \]
Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por letras mayúsculas. El evento: que el primer lanzamiento resulte águila.
\[A=\{AA,AS\} \]
La probabilidad se puede ver con una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Química hay: 300 estudiantes Hombres y 700 Mujeres. La proporción de hombres es:
\[ \frac{300}{300+700} = 0.3\] Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A divido entre el número de total de posibles resultados:
\[ P(A)=\frac{\#(A)} {\#(\Omega)}\]
Por lo que solo hace falta contar.
e.g. Combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] Y la función para calcular las combinaciones es choose (n, r)
choose (6, 3) * choose(9,2) / choose(15,5)
## [1] 0.2397602
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.
lanzamientos_10 <- sample(c("A","S"), 10, replace = TRUE)
lanzamientos_10
## [1] "S" "A" "A" "A" "A" "S" "S" "A" "A" "S"
Podemos calcular las secuencias de frecuencias relativas de águila:
cumsum(lanzamientos_10 == "A") # suma acumulada de águilas
## [1] 0 1 2 3 4 4 4 5 6 6
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
## [1] 0.00 0.50 0.67 0.75 0.80 0.67 0.57 0.62 0.67 0.60
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabiliades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]
Distribución exponencial
curve(dexp(x), from=0, to=10)
#representa la densidad de una exponencial de media 1 entre 0 y 10
Distribución binomial
x <- rbinom (20, 1, 0.5)
x
## [1] 0 0 1 1 0 0 1 1 1 1 1 1 0 0 1 0 0 1 0 1
# Genera 20 observaciones con distribución B(1,0.5)
Contando éxitos vs fracasos
table(x)
## x
## 0 1
## 9 11
** e.g. Distribución normal**
Si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5. La probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
qnorm(0.7)
## [1] 0.5244005
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor $ \(z_\alpha\) $ que aparece en muchas de las fórmulas para intervalos y constrastes, se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)
## [1] 1.959964
x <- rnorm(100, mean=10, sd=1)
x
## [1] 9.338157 8.279434 11.700449 9.706362 10.104718 9.920848 9.884880
## [8] 8.151156 11.296157 10.577716 10.297750 12.056991 8.521827 8.910177
## [15] 11.209000 11.058495 11.660606 10.236889 10.525225 9.516399 10.601741
## [22] 9.121306 10.374193 8.554661 11.438255 9.609742 9.914547 11.013776
## [29] 10.367199 10.197638 10.870553 7.774383 9.232755 9.843546 9.712838
## [36] 8.567660 10.220177 10.698039 9.870077 11.546692 9.018747 10.203036
## [43] 9.717999 9.564877 8.468416 9.744392 9.281565 11.084504 10.459247
## [50] 9.698028 10.610655 10.887659 12.937627 10.410069 11.520928 10.553020
## [57] 11.934060 9.707497 11.036377 9.782967 10.128388 11.147517 9.901291
## [64] 9.748042 10.311642 10.993587 11.451285 9.293138 8.909192 11.402729
## [71] 9.765682 9.783027 11.140716 11.100014 11.908845 11.049207 9.373079
## [78] 9.084633 10.922537 10.720920 10.048763 8.829667 9.494257 9.070146
## [85] 10.399813 9.803618 11.199612 9.250271 10.812802 11.171039 9.113142
## [92] 9.652904 9.502700 11.251315 10.109861 9.207146 10.307408 9.324943
## [99] 12.694636 9.377529
mean(x)
## [1] 10.17862
hist(x)
boxplot(x)
hist(x, freq=FALSE) # Freq=FALSE -> Para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)
pnorm(4.78, mean=0, sd=1) - pnorm(-2.34, mean=0, sd=1)
## [1] 0.9903573
x <- c(2, 4, 4, 6, 5, 8, 8, 7, 8, 9)
summary(x)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 4.25 6.50 6.10 8.00 9.00
x <- rnorm(10, mean=5, sd=1 )
x
## [1] 4.265373 3.681020 5.589204 4.005709 5.391277 4.989477 4.959215 4.388473
## [9] 4.091911 4.850732
x <- rnorm(10, mean=5, sd=1 )
x
## [1] 5.132642 5.373951 2.979769 4.680424 5.217777 3.683732 3.629761 6.426468
## [9] 6.411669 6.030872
x <- rnorm(10, mean=5, sd=1 )
x
## [1] 4.826242 3.809997 6.381194 6.794102 3.892715 4.656452 4.767214 3.113769
## [9] 5.651643 4.486974
A pesar de tener el mismo numero de datos, la misma media y la misma desviacion estandar se puede apreciar como genera datos distintos cada vez puesto que son numeros aleatorios los que son arrojados en cada evento.
Po <- rpois(1000, 1)
Po
## [1] 0 2 1 1 2 0 2 0 1 1 1 2 2 1 0 1 0 2 0 0 0 0 0 0 1 1 3 1 0 1 2 0 0 2 0 0 1
## [38] 2 1 0 0 3 0 2 2 1 0 1 1 0 1 0 1 0 2 0 1 0 0 2 1 1 2 3 0 0 1 1 2 0 0 3 0 1
## [75] 1 1 1 2 1 2 0 1 3 0 0 0 2 1 1 0 1 0 0 1 2 1 1 2 2 0 0 4 0 0 1 0 1 0 1 3 1
## [112] 1 3 2 2 3 1 1 1 2 0 1 1 0 0 2 1 1 2 2 1 0 2 0 0 6 1 2 1 3 1 1 0 2 0 1 0 0
## [149] 0 0 1 0 0 1 1 0 0 0 1 1 0 1 0 3 0 2 1 1 1 2 1 0 1 2 0 2 1 0 1 0 1 2 0 1 0
## [186] 1 1 2 1 0 2 0 2 2 1 3 0 0 0 0 3 0 1 1 0 1 2 0 0 1 2 1 2 1 2 1 2 2 1 0 1 2
## [223] 0 1 2 1 3 0 1 0 1 0 1 0 0 0 0 0 0 1 1 0 0 1 0 1 0 0 0 1 0 0 0 0 2 1 0 2 2
## [260] 1 1 1 1 2 0 1 1 1 0 2 1 1 1 0 2 1 0 2 0 2 1 0 3 0 2 0 4 2 2 1 2 2 1 0 1 2
## [297] 1 2 2 0 3 0 2 0 0 0 1 0 2 1 0 0 0 0 0 2 2 0 1 1 1 0 2 2 0 2 0 0 0 0 0 1 1
## [334] 1 0 3 2 1 0 1 3 0 0 1 0 1 5 2 0 1 1 1 3 2 1 2 2 0 0 0 1 0 1 2 3 1 0 0 0 1
## [371] 0 0 0 1 2 1 1 2 1 0 2 0 1 1 0 3 0 2 4 1 1 2 0 2 2 3 3 1 0 1 0 2 1 1 0 1 0
## [408] 0 0 0 1 1 5 1 1 5 1 0 3 1 1 1 3 1 1 0 1 0 0 0 3 2 0 1 0 1 2 1 2 1 1 0 0 2
## [445] 2 0 0 0 0 0 1 0 3 0 0 1 1 1 1 1 1 4 0 1 0 1 0 1 1 2 0 1 1 0 1 1 0 3 0 0 0
## [482] 0 0 2 2 1 1 1 1 0 3 1 0 0 0 0 0 0 1 1 3 0 2 0 1 1 1 1 0 1 2 1 0 0 2 0 1 0
## [519] 1 1 1 0 3 0 1 1 2 1 1 1 1 0 0 1 1 1 2 2 2 3 1 0 1 2 2 0 0 0 4 1 0 3 3 1 0
## [556] 2 2 2 2 1 0 1 0 2 1 1 1 1 1 0 2 2 1 1 2 1 1 2 1 1 1 1 2 0 0 1 4 2 1 0 1 0
## [593] 1 1 2 1 0 1 1 2 1 1 1 1 0 3 2 3 0 1 1 0 0 1 0 1 1 0 0 0 0 0 1 0 0 2 3 1 0
## [630] 1 3 0 1 1 1 3 1 1 0 1 1 2 1 4 4 1 3 1 2 1 2 0 2 1 0 2 3 1 0 2 1 3 2 0 2 1
## [667] 3 0 0 0 1 0 3 2 1 0 0 1 1 2 0 1 0 1 1 0 0 0 0 4 1 0 1 1 1 2 1 2 0 0 2 0 1
## [704] 1 0 1 0 1 0 1 0 1 0 0 1 0 3 0 0 0 1 2 1 2 2 1 0 1 1 1 0 1 1 3 0 0 0 0 1 1
## [741] 1 0 1 3 1 0 0 1 0 0 0 0 1 1 0 1 0 4 2 0 3 0 1 0 1 0 0 2 0 1 0 0 1 1 1 0 0
## [778] 1 2 2 0 0 1 2 2 0 1 1 1 2 0 0 0 1 4 4 0 1 1 1 2 1 0 0 0 2 0 2 0 1 1 2 3 1
## [815] 3 2 1 2 1 0 1 0 2 1 0 3 0 1 4 1 1 2 3 1 1 1 1 1 2 0 2 1 1 0 3 0 1 1 1 0 2
## [852] 0 0 0 0 1 1 2 1 1 2 0 3 0 2 0 0 1 1 2 0 0 1 0 1 0 0 3 1 1 0 0 1 3 1 1 1 1
## [889] 2 0 0 2 1 0 3 2 2 0 1 1 1 1 1 0 1 0 2 1 1 0 0 3 1 0 1 1 0 3 2 2 0 0 2 0 0
## [926] 0 2 1 0 0 4 0 2 2 1 0 0 0 0 2 1 1 1 1 1 0 3 1 1 0 0 2 2 1 1 1 1 0 2 0 2 1
## [963] 0 2 0 1 0 2 1 0 2 1 1 0 0 3 1 0 1 2 1 0 1 3 0 2 0 1 3 1 1 1 0 2 1 2 0 0 1
## [1000] 1
Para calcular el promedio de Po
mean(Po)
## [1] 0.997
Para estimar la varianza
var(Po)
## [1] 0.987979
Histograma de frecuencia
hist(Po, xlab = "Distribucion de Poisson", ylab = "Frecuencia", main = paste("Histograma de Poisson"), border = (color = "blue") )
Los datos teoricos obtenidos por Poisson no se parecen a los que estamos interpretando