library(prettydoc) #documentos con mejor formato
setwd("~/Estadistica aplicada/Asignacion 05")Introducción a la probabilidad
“Probabilidad” es el lenguaje matemático para cuantificar la incertidumbre. -Wasserman
- Terminología de probabilidad:
- Espacio de resutlados
- Eventos
- Funciones de probabilidad
- Etcétera.
- Interpretación frecuentista de la probabilidad.
- Probabilidad condicional y su relación con la independencia.
Espacio de resultados y eventos
El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. Si lanzamos una moneda dos veces, entonces:
\[ \Omega = \{AA, AS, SA, SS \} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.
e.g. Que el primer lanzamiento resulte águila.
\[ A=\{AA, AS\} \]
Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing. Química hay 300 hombres y 700 mujeres, la proporción de hombres es:
\[ \frac{300}{700+300} = 0.3\] Eventos equiprobables. Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos, entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.
e.g. Combinaciones
Un comité de 5 personas será seleccionado de un grupo de 6 hombre y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]
Y la función para calcular las combinaciones es choose (n, r)
choose (6, 3) * choose(9,2) / choose(15,5)## [1] 0.2397602
Interpretación frecuentista de la probabilidad
Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.
lanzamientos_10 <- sample(c("A","S"), 10, replace = TRUE)
lanzamientos_10## [1] "S" "A" "A" "A" "S" "S" "A" "A" "S" "S"
Podemos calcular las secuencias de frecuencias relativas de águila:
cumsum(lanzamientos_10 == "A") # suma acumulada de águilas## [1] 0 1 2 3 3 3 4 5 5 5
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)## [1] 0.00 0.50 0.67 0.75 0.60 0.50 0.57 0.62 0.56 0.50
Distribuciones de probabilidad
Funciones en R
En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:
- Distribución Alias
- Distribución binomial binom
- Distribución de Poisson pois
- Distribución normal norm
- Distribución exponencial exp
- Distribución t de Student t
- Distribución Chi2 chisq
- Distribución F f
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabiliades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]
Distribución exponencial
curve(dexp(x), from=0, to=10)#representa la densidad de una exponencial de media 1 entre 0 y 10Distribución binomial
x <- rbinom (20, 1, 0.5)
x## [1] 0 0 1 0 1 1 0 1 1 1 0 0 0 1 1 0 1 0 1 0
# Genera 20 observaciones con distribución B(1,0.5)Contando éxitos vs fracasos
table(x)## x
## 0 1
## 10 10
** e.g. Distribución normal**
Si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5. La probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)## [1] 0.8413447
- Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que
qnorm(0.7)## [1] 0.5244005
- Para calcular el mismo cautil, pero para una v.a. de media 0 y una DT 0.5
qnorm(0.7, sd=0.5)## [1] 0.2622003
El valor $ \(z_\alpha\) $ que aparece en muchas de las fórmulas para intervalos y constrastes, se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:
qnorm(0.975)## [1] 1.959964
- Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardar en un vector x):
x <- rnorm(100, mean=10, sd=1)
x## [1] 10.772253 9.412938 8.911380 8.651500 9.481250 11.374036 8.279304
## [8] 10.016511 9.643451 9.924282 12.379951 11.057728 9.947834 10.085863
## [15] 10.245811 9.705816 9.575215 8.210849 9.728532 9.520145 11.131201
## [22] 9.893248 8.885775 9.697724 10.519908 9.499695 9.824018 8.791573
## [29] 9.705201 9.549192 10.911231 9.823069 9.167027 11.789603 9.495224
## [36] 9.201543 8.945123 11.588451 8.540913 10.414201 10.161810 8.564097
## [43] 9.606597 8.903664 9.832450 9.487308 8.487434 10.216486 10.300745
## [50] 10.297340 10.892477 10.480372 9.527207 10.265463 8.644920 7.746599
## [57] 10.518818 9.315283 10.856989 10.161748 10.498474 9.558690 9.364200
## [64] 10.015313 9.635747 8.943614 11.803169 9.957405 10.056292 9.469040
## [71] 11.119972 10.939318 9.225778 12.105895 8.924608 8.570341 9.266607
## [78] 9.698554 11.299616 10.384553 10.326685 10.293355 11.287347 10.915355
## [85] 9.774119 11.995950 9.545283 9.001589 9.697058 8.530282 10.038009
## [92] 9.657882 10.421669 11.150992 10.817768 9.083913 9.530468 10.988119
## [99] 9.214770 10.439429
- Para estimar el promedio de x
mean(x)## [1] 9.921136
- Histograma de frecuencias
hist(x)- Gráfico de cajas y bigote
boxplot(x)- Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq=FALSE) # Freq=FALSE -> Para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)Ejercicios
- Si \(Z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(-2.34 < z < 4.78)\).
p = pnorm(4.78, mean = 0, sd = 1) - pnorm(−2.34, mean = 0, sd = 1)
p## [1] 0.9903573
\(\mathbb{P}=0.9903573\)
- Cacula el rango interrcuartílico de una publación normal estándar.
x= rnorm(20)
x## [1] -0.47771925 2.11077485 0.13545767 -0.42107369 2.04496592 1.59140553
## [7] -1.08435688 0.08272561 1.32923129 0.24099691 0.36443100 0.07637058
## [13] 0.66879770 0.03585654 -1.38888485 -1.17642445 0.72252569 0.63680923
## [19] -0.40757438 0.85502885
summary(x)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -1.3889 -0.4109 0.1882 0.2970 0.7557 2.1108
IQR(x)## [1] 1.166601
\(\mathbb{IQR}=1.381673\)
- Genere una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestra y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
x= rnorm(10, mean= 5, sd=0.5)
x## [1] 5.077681 5.208761 4.755410 5.381900 4.804013 4.395583 5.117463 4.571943
## [9] 4.609954 5.538194
mean(x)## [1] 4.94609
x= rnorm(10, mean= 5, sd=0.5)
x## [1] 5.319628 4.386034 5.548550 4.954448 4.965140 4.716816 5.127061 5.259939
## [9] 4.910066 5.196039
mean(x)## [1] 5.038372
x= rnorm(10, mean= 5, sd=0.5)
x## [1] 4.762683 4.859861 5.921795 4.841623 5.639305 5.370587 4.643876 4.798196
## [9] 4.244504 4.371317
mean(x)## [1] 4.945375
La media muestral: se calcula a partir de la media de un conjunto de valores de una variable aleatoria, es una variable aleatoria en general con una varianza menor que las variables originales usadas en su cálculo.
La media poblacional: es un valor esperado de una variable aleatoria.
- Genera 1000 números con distribución de POisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores téoricos?
dp <- rpois(n=1000, lambda=1)
dp## [1] 1 1 2 4 0 1 0 2 1 1 0 0 1 0 1 1 0 1 2 0 1 0 1 0 0 0 0 0 0 1 3 3 1 0 0 2 0
## [38] 1 3 1 1 0 2 1 3 1 0 0 0 1 2 1 1 1 1 3 0 1 1 0 3 0 1 2 1 1 0 1 0 3 0 2 0 1
## [75] 0 1 1 1 0 1 1 0 0 2 2 2 0 1 2 0 1 1 1 2 1 2 0 0 1 0 0 0 0 0 1 0 2 0 2 1 0
## [112] 1 1 0 1 2 0 1 1 1 3 0 0 1 1 1 2 1 0 0 1 2 1 2 2 0 0 1 1 1 0 0 0 1 1 1 1 1
## [149] 1 3 2 0 0 0 1 1 0 2 0 2 1 1 0 2 0 2 1 0 4 1 1 0 0 2 0 1 0 2 0 1 1 2 2 2 3
## [186] 1 1 0 0 1 0 0 0 1 1 0 2 1 1 1 0 0 4 1 1 4 2 1 1 0 2 0 0 0 0 0 1 2 0 1 1 1
## [223] 0 0 3 1 0 0 0 2 1 0 1 0 0 0 2 1 2 0 0 1 0 1 2 1 1 0 3 0 3 1 1 0 0 0 1 0 0
## [260] 0 0 0 0 0 1 1 0 0 1 1 1 3 1 1 1 1 5 2 1 0 3 1 1 0 2 1 1 1 1 1 1 2 1 2 3 1
## [297] 1 1 1 2 3 0 3 0 2 0 0 1 0 1 0 1 0 2 0 1 1 0 0 2 1 1 0 0 1 1 3 0 0 1 0 0 0
## [334] 0 1 2 1 2 0 1 1 0 0 0 1 0 1 0 0 1 2 2 0 0 2 0 1 0 0 1 1 0 2 4 1 0 1 3 0 0
## [371] 0 2 3 0 0 1 2 1 0 1 2 0 1 0 0 0 0 0 0 1 1 0 1 1 2 0 1 0 2 1 0 1 0 1 0 2 1
## [408] 1 1 0 2 0 1 2 3 1 1 0 0 0 2 0 1 1 0 0 0 1 0 0 4 2 2 1 0 1 0 1 1 1 2 0 0 0
## [445] 0 1 3 1 1 2 2 1 1 0 1 2 0 1 0 0 1 1 1 1 0 0 3 3 0 1 0 1 0 0 1 0 0 0 1 0 4
## [482] 1 3 3 0 2 0 0 0 1 3 0 2 0 1 0 0 0 1 0 1 1 1 0 0 0 2 2 1 1 1 0 0 0 2 0 0 0
## [519] 1 0 0 0 0 2 0 2 1 0 1 1 0 2 2 0 0 2 0 0 0 1 2 0 0 0 0 0 1 2 0 1 1 1 1 3 0
## [556] 3 3 0 1 0 1 0 1 0 3 0 1 0 2 2 1 2 1 0 3 1 0 0 1 1 0 0 1 1 1 2 1 1 1 1 0 1
## [593] 1 1 0 4 1 0 1 0 2 0 3 1 1 2 1 1 0 0 0 1 1 0 2 3 3 0 1 1 1 0 2 0 0 1 1 1 1
## [630] 1 0 3 1 0 1 1 1 1 1 1 2 1 0 1 1 2 1 2 2 0 1 1 3 1 1 0 0 0 0 3 2 1 1 1 0 3
## [667] 1 2 1 0 0 2 1 1 1 1 1 1 0 0 2 2 0 1 0 1 0 2 1 1 1 3 0 0 2 1 0 2 1 1 0 1 2
## [704] 5 1 1 1 0 0 3 1 1 1 0 3 1 0 0 0 2 1 0 1 2 1 0 0 1 2 1 2 1 2 1 0 4 0 0 1 2
## [741] 1 3 1 0 1 3 1 2 0 2 0 1 0 0 1 1 1 1 0 1 0 1 2 0 2 1 0 1 0 1 2 0 1 1 1 1 1
## [778] 0 2 3 1 0 5 0 1 0 2 4 0 3 0 1 0 3 1 1 0 0 0 1 2 1 2 0 0 1 0 1 3 0 2 0 1 0
## [815] 2 0 1 0 2 0 0 0 0 2 0 1 0 0 1 3 3 2 2 1 2 1 1 1 1 1 1 0 1 2 2 1 1 0 4 1 0
## [852] 0 2 0 1 1 1 1 0 1 1 2 0 0 0 0 0 0 0 2 1 0 0 3 2 4 1 2 2 2 1 0 0 0 0 1 0 1
## [889] 0 1 0 3 0 0 0 0 0 1 1 2 0 1 2 0 0 1 3 1 0 1 2 1 3 0 2 3 1 1 0 1 4 0 1 3 1
## [926] 2 0 1 2 0 0 0 2 0 0 0 3 0 2 2 0 1 1 2 0 1 0 0 1 2 0 1 0 3 2 0 1 4 2 2 4 1
## [963] 0 0 3 1 0 0 1 2 1 0 0 2 1 1 3 0 2 0 4 1 1 0 1 1 1 3 0 1 1 0 1 2 1 0 2 1 0
## [1000] 0
Gráfico
hist(dp, xlab = "Distribución", ylab = "Frecuencia", main= "Histograma Poisson")Media
mean(dp)## [1] 0.949
Varianza
var(dp)## [1] 0.9753744
No se parecen a los datos teorios
- Calcula con R los siguientes valores: \(t_{3, \alpha}\), \(\chi^2_{3,\alpha}\), para \(\alpha = 0.05\) y \(\alpha = 0.01\). Compara los valores obtenidos con los que aparecen en las correspondientes tablas.
Distribución t de Student-t
qt(0.05, 3, lower.tail = F)## [1] 2.353363
qt(0.01, 3, lower.tail = F)## [1] 4.540703
Tabla
Distribución Chi2 chisq
qchisq(0.05, 3, lower.tail = F)## [1] 7.814728
qchisq(0.01, 3, lower.tail = F)## [1] 11.34487
Tabla