U1A5

Marijose González del Real

15/02/2021

Introducción a la probabilidad

Incertidumbre

Introducción

Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. Wasseman

  1. Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.

  2. Interpretación frecuentista de la probabilidad.

  3. Probabilidad condicional y su relación con la independencia.

  4. La regla de Bayes.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. Si lanzamos una moneda dos veces entonces:

\[ \Omega = \{AA, AS, SA, SS \} \]

Escribe el espacio muestral de los siguientes experimentos aleatorios:

  • El número de lanzamientos de un dado hasta que obtienes un 6.
  • Tu calificación final en el curso.
  • El tiempo en minutos hasta tu próximo estornudo.
  • El peso de una lata de Coca-Cola (incluyendo el líquido).

Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

e.g. Que el primer lanzamiento resulte águila.

\[ A=\{AA, AS\} \] Eventos equiprobables

La probabilidad se puede ver con una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. Química hay:

  • 300 estudiantes Hombres

  • 700 Mujeres

la proporción de hombres es:

\[ \frac{300}{700+300} = 0.3\]

Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A divido entre el número de total de posibles resultados:

\[P(A)=\frac{\#(A)}{\#(\Omega)}\]

Por lo que solo hace falta contar.

e.g. Combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de se seleccionado.

Por otra parte, hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}}\]

y la función para calcular las combinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

Supongamos que lanzamos una moneda 10 veces y obtenemos:

lanzamientos_10 <- sample(c("A", "S"),10, replace = TRUE )
lanzamientos_10
##  [1] "A" "A" "A" "S" "S" "A" "S" "S" "S" "A"

Podemos calcular la secuencia de frecuencias relativas de águilas:

cumsum(lanzamientos_10 =="A") #Suma acumulada de águila
##  [1] 1 2 3 3 3 4 4 4 4 5

Dividiendo:

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 1.00 1.00 1.00 0.75 0.60 0.67 0.57 0.50 0.44 0.50

Lanzamientos

Distribuciones de probabilidad

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:

Distribución Alias Distribución binomial binom Distribución de Poisson pois Distribución normal norm Distribución exponencial exp Distribución t de Student t Distribución Chi2 chisq Distribución F f

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q &\text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Solo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \] ## Distribución exponencial

curve(dexp(x), from=0, to=10)

#Representa la densidad de una exponencial media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 0 0 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1
#Genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
##  5 15

Distribución normal

si \(x\) es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447
  • Para calcular el cuantil 0.7 de una v.a. normal estándar z, es decir, un valor X tal que
qnorm(0.7)
## [1] 0.5244005
  • Para calcular el mismo cuantil, pero para una v.a. normal media 0 y DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
  • Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):
x <- rnorm(100, mean=10, sd=1)
x
##   [1] 11.158207 10.286707  9.169937  8.466549  9.712497 10.247594  9.881680
##   [8]  9.515318  8.719544  9.107258  8.834719  8.769322 10.210400  8.930595
##  [15] 10.540078 10.836602 11.676862 10.155845 10.996322  9.525664 11.081390
##  [22]  8.856930  9.540031  9.734812  9.762555  9.089600  9.470937  7.476548
##  [29]  9.809351  9.665994  9.548686 12.268725  8.355248 10.263707  9.750279
##  [36]  9.678169  9.909626  8.298404 10.373349  9.421709 10.708216  9.244417
##  [43]  9.798549 10.383002  9.935535 11.565445  8.912995 10.471621 10.219789
##  [50] 10.517061 10.472860 10.772263  8.918728  9.863217  8.039406  9.963100
##  [57] 11.344625  8.912691 10.283283 12.769274 11.309765 11.047057  8.680677
##  [64] 10.366384 11.046347 10.356640  9.557841 10.070380  7.934879 11.043313
##  [71]  8.566826  9.346293 10.205544  9.531069  8.680860 10.593871 11.491352
##  [78] 10.929701 10.809847 11.311091  9.581802 11.843240 10.597616 10.552765
##  [85]  9.043050 10.808393 11.754967  8.573100  9.142088 11.703419 11.249404
##  [92] 10.809071  9.335269 10.037121 10.194327 10.601803 10.920267 10.663407
##  [99] 10.804807  9.475401
  • Para estimar el promedio de x
mean(x)
## [1] 10.02765
  • Histograma de frecuencias
hist(x)

  • Gráfico de cajas y bigote
boxplot(x)

  • Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq=FALSE) # Freq=FALSE, para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

  1. Si \(Z\) es una variable con distribución normal estándar, calcula \(\mathbb{P}(−2.34 < Z < 4.78)\).

  2. Calcula el rango intercuartílico de una población normal estándar.

  3. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.

  4. Genera 1000 números con distribución de Poisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?

  5. Calcula con R los siguientes valores: \(t_{3, \alpha}\), \(\chi^2_{3, \alpha}\), para \(\alpha = 0.05\) y \(\alpha = 0.01\). Compara los valores obtenidos con los que aparecen en las correspondientes tablas.

Conclusiones

En esta asignación se analizaron los conocimientos básicos de probabilidad y como es que se relaciona con la estadística. Además, se incluyeron nuevos conocimientos de personalización de tema para Markdown y la agregación de imágenes al documento.También, se hizo un desarrollo acerca de las distribuciones de probabilidad y así se pudieron conocer las funciones y significados de cada una de estas para poder aplicar los comandos correspondientes.