Probabilidad es el lenguaje matématico para cuantificar la incertidumbre. Wasserman
El Espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.
e.g. Si lanzamos una moneda dos veces entonces:
\[\Omega = \{AA, AS, SA, SS \} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.
e.g. Que el primer lanzamiento resulte águila.
\[ A=\{AA, AS\} \] ## Eventos equiprobables
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.
e.g. En la carrera de Ing.Química hay 300 hombres y 700 mujeres, la proporción de hombres es:
\[ \frac{300}{700+300} = 0.3 \]
**Eventos equiprobables, si todos los elementos en el espacio de resultados tiene la misma oportunidad de ser elegidos la probabilidad del evento A es el número de resultados en A dividido entre el número totlal de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.
e.g. Combinaciones
Un cómite de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿Cuál es la probabilidad de que el cómite este conformado por 3 hombres y 2 mujeres?
Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.
Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] Y la función para calcular las combinaciones es choose (n, r)
choose(6, 3) * choose(9, 2) / choose(15,5)
## [1] 0.2397602
Una frecuencia relativa es una proporción que mide que tan seguido o frecuente, ocurre una u otra cosa en una sucesión de observaciones.
lanzamientos_10 <- sample(c("A","S"),10, replace = TRUE )
lanzamientos_10
## [1] "S" "A" "A" "A" "A" "S" "A" "A" "S" "A"
Se puede calcular la secuencias de frecuencias relativas de águila:
cumsum(lanzamientos_10 == "A") #Suma acumulada de Águilas
## [1] 0 1 2 3 4 4 5 6 6 7
Dividiendo
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
## [1] 0.00 0.50 0.67 0.75 0.80 0.67 0.71 0.75 0.67 0.70
Funciones en R
En R, cada distribución de probabilidad se nombra mediante una clave o alias. Las palabras clave para distribuciones más importantes son:
\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]
Distribución Exponencial
curve(dexp(x), from=0, to=10)
#Representa la densidad de una exponencial de media 1 entre 0 y 10
Distribución Binomial
x <- rbinom(20, 1, 0.5)
x
## [1] 0 1 0 1 1 0 0 1 1 0 1 0 1 0 0 1 1 0 0 0
#Genera 20 observaciones con distribución B(1,0.5)
Contando éxitos vs fracasos
table(x)
## x
## 0 1
## 11 9
e.g. Distribución normal
si \(x\) es una variable aleatoria, con distribución normal de media3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:
pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
*Para calcular el cuantil 0.7 de una v.a. normal estándar z, un valor x tal que
qnorm(0.7)
## [1] 0.5244005
*Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003
El valor \(\(z_\alpha \)\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos son:
qnorm(0.975)
## [1] 1.959964
*Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100, mean=10, sd=1 )
x
## [1] 10.159566 8.831651 10.550629 8.997558 9.827623 7.779605 10.001932
## [8] 10.309197 11.671409 10.302091 9.092969 10.381901 8.776257 10.231368
## [15] 8.713516 8.560392 9.782770 11.600393 10.312039 10.826752 9.946753
## [22] 9.323120 9.368655 10.549123 9.423330 10.182335 10.972823 9.515574
## [29] 11.198338 9.298406 10.064634 10.213084 9.249756 9.515571 10.380519
## [36] 11.603290 10.173393 9.665931 10.853482 11.359915 9.813244 10.847790
## [43] 12.696483 10.755298 10.264794 10.876502 11.003231 8.808816 10.489510
## [50] 10.578581 9.058212 10.478669 8.319000 10.427794 10.935423 11.150496
## [57] 9.536861 10.079019 11.446057 10.005541 9.673993 11.450272 10.596527
## [64] 11.000470 10.508440 10.522828 10.744815 9.398768 8.607561 10.301183
## [71] 12.095210 10.074714 10.782990 10.251456 10.684524 9.764332 9.413561
## [78] 9.867502 10.567599 10.450573 10.958915 10.777907 10.050443 10.783731
## [85] 9.366981 7.788997 9.559574 10.758044 10.038150 10.004417 9.156065
## [92] 10.600510 11.504674 8.849620 8.592553 9.647770 9.569076 8.901482
## [99] 8.885268 10.723153
*Para estimar el promedio de x
mean(x)
## [1] 10.10414
*Histograma de frecuencias
hist(x)
*Grafico de cajas y bigote
boxplot(x)
*Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq=FALSE) #Freq=FALSE, para que el area del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)
1.Si \(z)\) es una variable con distribución normal estándar, cálcula \(\mathbb{P}(-2.34 < Z < 4.78)\)
P= pnorm(4.78, mean=0, sd=1) - (pnorm(-2.34, mean=0, sd=1))
P
## [1] 0.9903573
\[ P=0.9903573 \] 2.Calcule el rango intercuartílico de una población normal estándar.
f <- c(1,4,4,4,5,5,6,6,6,6,7,8,8,9)
summary(f)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 4.250 6.000 5.643 6.750 9.000
\[ IQR=3rdQu - 1stQu \] \[ IQR=6.450 - 4.250 \]
3.Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
x <- rnorm(10, mean=3, sd=1 )
x
## [1] 2.773470 3.318257 2.970743 1.469886 3.777582 1.641820 2.744570 2.956865
## [9] 2.763222 2.631598
x <- rnorm(10, mean=10, sd=1 )
x
## [1] 9.644568 10.059880 10.582088 8.696782 10.696131 9.840929 9.810292
## [8] 11.039307 9.977034 8.449612
x <- rnorm(10, mean=10, sd=1 )
x
## [1] 9.996722 11.038020 10.792160 10.253448 10.071786 8.299269 8.576236
## [8] 8.897809 8.674801 9.654277
#\(Comentario\): * Se logra percatar que los numeros se encuentran diferentes, a pesar de que agregaron las mismas secuencias pero eso es debido a que son eventos aleatorios
4.Genera 1000 números con distribucición de Poisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
Poisson <- rpois(1000, 1)
Poisson
## [1] 1 2 1 0 0 1 0 1 1 1 1 2 0 0 0 2 2 1 1 0 1 0 0 0 0 0 1 0 1 3 1 0 0 1 0 0 1
## [38] 0 0 0 0 2 0 1 1 1 0 1 2 0 1 0 2 0 1 0 1 0 1 1 2 0 1 0 2 0 1 1 0 1 0 1 0 0
## [75] 0 0 1 2 0 2 1 1 2 0 2 1 1 1 1 2 2 1 1 0 0 3 1 0 1 1 1 3 1 1 0 3 3 2 3 2 2
## [112] 1 1 1 0 3 3 0 1 1 1 0 0 0 0 1 2 0 0 1 1 4 0 0 1 2 0 0 3 1 3 0 2 1 3 1 4 0
## [149] 0 4 0 1 1 3 2 3 1 1 0 1 1 0 2 0 2 2 1 1 0 1 1 1 2 0 1 4 2 0 0 1 0 2 1 5 0
## [186] 3 3 0 1 1 2 0 1 1 0 0 2 0 0 2 1 1 0 2 0 2 0 1 0 2 0 1 1 0 0 1 0 4 0 1 1 0
## [223] 0 0 2 2 0 1 0 2 1 0 0 2 1 1 0 1 1 1 1 1 0 0 1 2 0 3 3 0 2 0 3 0 1 1 2 2 1
## [260] 1 1 1 2 2 1 0 2 0 0 3 1 0 1 0 1 1 1 0 0 2 2 0 1 2 1 1 1 1 1 0 1 1 1 0 1 0
## [297] 0 2 2 1 2 2 1 0 1 0 1 1 1 4 0 1 0 1 1 0 2 0 2 1 0 0 0 0 1 2 1 1 2 2 0 0 0
## [334] 0 0 4 1 0 1 0 5 0 0 0 2 2 1 0 1 0 2 2 2 0 0 1 2 0 1 1 1 0 1 3 1 1 1 1 1 3
## [371] 1 1 1 1 1 0 0 1 1 0 0 1 1 2 1 0 1 2 1 3 0 1 1 0 0 1 1 1 2 0 1 3 2 1 0 1 0
## [408] 0 1 0 0 2 1 2 0 1 1 2 0 2 0 0 1 1 3 2 0 0 2 1 1 0 0 1 3 0 3 2 0 0 3 2 1 3
## [445] 1 0 1 1 0 0 0 1 0 1 0 2 2 0 0 1 1 1 1 1 1 1 2 1 1 0 1 2 2 0 1 2 1 1 2 0 2
## [482] 0 0 0 1 1 0 1 1 2 0 1 4 1 0 1 3 1 1 1 1 0 1 2 4 0 1 2 0 1 1 2 0 2 1 2 0 0
## [519] 0 0 0 0 1 0 0 0 1 2 0 3 0 0 1 0 3 1 1 2 1 2 1 0 0 1 0 1 1 2 0 3 1 0 0 0 1
## [556] 0 2 0 0 2 0 0 1 2 0 2 2 1 2 3 1 2 2 1 1 2 1 1 1 0 1 3 1 1 3 0 2 1 0 2 0 1
## [593] 1 1 1 0 0 1 1 0 1 0 1 2 2 1 1 1 0 0 1 1 1 1 0 0 2 0 1 0 0 2 4 0 2 1 1 0 0
## [630] 3 0 2 0 1 0 1 2 0 1 0 0 1 1 3 0 1 0 0 2 0 1 0 0 1 1 4 1 0 0 0 2 1 3 2 0 1
## [667] 1 0 0 1 2 0 0 0 0 1 1 3 0 1 3 1 2 2 1 0 2 2 2 1 0 1 0 0 0 2 1 0 1 1 0 1 0
## [704] 0 0 1 0 0 0 1 1 2 1 0 4 1 0 0 1 2 1 1 2 0 0 2 4 2 1 2 3 2 3 1 1 1 0 0 1 0
## [741] 1 2 0 0 2 0 2 0 0 1 0 2 1 2 2 1 1 0 0 0 3 0 1 2 1 1 1 1 1 1 0 1 2 0 0 2 0
## [778] 0 1 1 0 2 0 1 0 2 0 1 1 0 2 0 1 0 0 2 2 3 2 1 1 1 1 1 1 1 0 1 0 0 0 0 0 1
## [815] 2 1 0 0 1 0 1 1 2 1 1 1 0 1 1 0 1 1 1 3 0 1 1 0 2 1 2 1 0 1 1 0 1 1 0 0 0
## [852] 2 0 2 0 1 1 1 3 3 1 0 1 2 1 0 0 3 1 1 2 3 0 0 4 0 1 1 3 1 0 3 1 1 1 2 1 3
## [889] 2 1 0 3 0 1 2 2 0 1 1 2 2 1 1 0 1 0 0 2 0 0 0 1 0 0 1 0 2 0 2 1 0 0 0 0 0
## [926] 2 0 0 2 1 0 1 2 3 0 1 3 0 2 1 0 2 0 1 4 1 1 0 1 0 1 1 2 1 4 2 1 0 3 0 0 2
## [963] 1 2 1 0 0 1 0 1 1 2 2 2 2 1 3 1 1 2 0 0 4 2 3 1 0 1 0 1 1 1 0 0 1 0 2 0 1
## [1000] 1
La media y la varianza de los números obtenidos
mean(Poisson)
## [1] 0.991
var(Poisson)
## [1] 0.9538729
Histograma de frecuencias
hist(Poisson)
5.Calcula con R los siguientes valores: \(t_{3,\alpha}\), \(\chi^2_{3,\alpha}\), para \(\alpha = 0.05\) y \(\alpha = 0.05\). Compara los valores obtenidos con los que aparecen en las correpondientes tablas.
set.seed(10)
x1 <- rnorm(100,10)
x2 <- rnorm(100,10.5)
test <- t.test(x1, x2)
test
##
## Welch Two Sample t-test
##
## data: x1 and x2
## t = -4.0081, df = 197.83, p-value = 8.665e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.8080508 -0.2751220
## sample estimates:
## mean of x mean of y
## 9.863451 10.405037
frec <- c(2,3)
chisq.test(frec)
## Warning in chisq.test(frec): Chi-squared approximation may be incorrect
##
## Chi-squared test for given probabilities
##
## data: frec
## X-squared = 0.2, df = 1, p-value = 0.6547
Para \(\alpha = 0.05\) y \(\alpha = 0.05\)
qchisq(0.95,1)
## [1] 3.841459
qchisq(0.99,1)
## [1] 6.634897