library(xfun)
##
## Attaching package: 'xfun'
## The following objects are masked from 'package:base':
##
## attr, isFALSE
“Probabilidad es el lenguaje matemático para cuantificar incertidumbre.” -Wasserman
Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
Interpretación frecuentista de probabilidad.
Probabilidad condicional y su relación con independencia.
La regla de Bayes.
Variables aleatorias: a qué se refieren.
El espacio de resultados Ω es el conjunto de posibles resultados de un experimento aleatorio. A los puntos ω∈Ω se les conoce como resultados muestrales, realizaciones o elementos.
Ejemplo: Si lanzamos una moneda dos veces entonces
\[ \Omega = \{AA, AS, SA, SS \} \]
Escribe el espacio muestral de los siguientes experimentos aleatorios:
El número de lanzamientos de un dado hasta que obtienes un 6. Tu calificación final en el curso. El tiempo en minutos hasta tu próximo estornudo. El peso de una lata de Coca-Cola (incluyendo el líquido). Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por letras mayúsculas.
El evento: que el primer lanzamiento resulte águila es
\[ A=\{AA, AS\} \]
La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo. Si en la carrera de matemáticas del ITAM hay 300 estudiantes hombres y 700 mujeres, la proporción de hombres es:
\[ \frac{300}{700+300}=0.3 \]
Ahora, supongamos que elegimos un estudiante al azar, la probabilidad de elegir una mujer es 0.7.
En el ejemplo hay un supuesto implícito en elegir al azar (o aleatoria mente), en este caso estamos suponiendo que todos los estudiantes tienen la misma probabilidad de ser elegidos, que nos lleva al siguiente concepto:
Eventos equiprobables. Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:
\[ P(A)=\frac{\#(A)}{\#(\Omega)} \]
Por lo que solo hace falta contar.
Por ejemplo, la probabilidad de obtener AA si lanzamos una moneda dos veces es 1/4=0.25 , y la probabilidad del evento que la primer lanzamiento resulte águila es 2/4=0.5
Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?
hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado. Por otra parte, hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:
\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \]
La función para calcular esto en R es choose:
choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602
En el curso veremos dos interpretaciones de probabilidad: la interpretación frecuentista en la cuál las probabilidades se entienden como una aproximación matemática de frecuencias relativas cuando la frecuencia total tiende a infinito. La segunda interpretación es la subjetiva en la que un enunciado de probabilidad expresa la opinión de un individuo respecto a la certeza de que ocurra un evento.
Por ahora nos concentramos en la interpretación frecuentista. Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones. Pensemos en un experimento que se pueda repetir, por ejemplo, lanzar una moneda, lanzar un dado, el nacimiento de un bebé. Llamaremos ensayo a una repetición del experimento. Ahora, sea A un posible resultado del evento (obtener sol, obtener un 6, el bebé es niña), si A ocurre m veces en n ensayos, entonces la frecuencia relativa de A en n ensayos es m/n .
Supongamos que lanzamos una moneda 10 veces y obtenemos los siguientes resultados:
lanzamientos_10 <- sample(c("A", "S"), 10, replace = TRUE)
lanzamientos_10
## [1] "A" "S" "S" "A" "S" "A" "S" "S" "A" "S"
Podemos calcular las secuencia de frecuencias relativas de águila:
cumsum(lanzamientos_10 == "A") # suma acumulada de águilas
## [1] 1 1 1 2 2 3 3 3 4 4
round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
## [1] 1.00 0.50 0.33 0.50 0.40 0.50 0.43 0.38 0.44 0.40
$$
En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los sucesos y cada uno de los sucesos es el rango de valores de la variable aleatoria. También puede decirse que tiene una relación estrecha con las distribuciones de frecuencia. De hecho, una distribución de probabilidades puede comprenderse como una frecuencia teórica, ya que describe cómo se espera que varíen los resultados.
La distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada x real es la probabilidad de que la variable aleatoria sea menor o igual que x.
Tipos de variables
aleatoria: Es aquella cuyo valor es el resultado de un evento aleatorio. Lo que quiere decir que son los resultados que se presentan al azar en cualquier evento o experimento.
Variable aleatoria discreta: Es aquella que solo toma ciertos valores (frecuentemente enteros) y que resulta principalmente del conteo realizado.
Variable aleatoria continua: Es aquella que resulta generalmente de la medición y puede tomar cualquier valor dentro de un intervalo dado.1
Distribución normal, distribución de Gauss, distribución gaussiana o distribución de Laplace-Gauss, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en estadística y en la teoría de probabilidades.1
La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parámetro estadístico. Esta curva se conoce como campana de Gauss y es el gráfico de una función gaussiana.2
La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos. 3 Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la suma de unas pocas causas independientes.
1.- Calcular la probabilidad de que X sea menor o igual a 48. es decir:
\[ P(\leq 48) \]
Tomando en cuenta que la media es 50 y la varianza es 25
pnorm(48, mean = 50, sd = sqrt(25) )
## [1] 0.3445783
esto también puede ser hecho de una forma más simplificada:
pnorm(48,50,sqrt(25))
## [1] 0.3445783
2.-Calcular la probabilidad de que X sea mayor a 48, P(X>48)
pnorm(48, mean = 50, sd = sqrt(25), lower.tail = FALSE )
## [1] 0.6554217
3.- Calcular la probabilidad de que X sea mayor o igual a 45 y menor que 55, es decir:
\[ P(45\leq X < 55) \] \[ P(45\leq X < 55)=P(X<55)-P(X\leq 45) \]
pnorm(55, 50, sqrt (25)) - pnorm(45, 50, sqrt (25) )
## [1] 0.6826895
\[ P(X\leq x_0)=0.90 \]
qnorm (0.90, mean=50, sd = sqrt(25))
## [1] 56.40776
set.seed(123)
rnorm(100, mean=50, sd= sqrt(25) )
## [1] 47.19762 48.84911 57.79354 50.35254 50.64644 58.57532 52.30458 43.67469
## [9] 46.56574 47.77169 56.12041 51.79907 52.00386 50.55341 47.22079 58.93457
## [17] 52.48925 40.16691 53.50678 47.63604 44.66088 48.91013 44.86998 46.35554
## [25] 46.87480 41.56653 54.18894 50.76687 44.30932 56.26907 52.13232 48.52464
## [33] 54.47563 54.39067 54.10791 53.44320 52.76959 49.69044 48.47019 48.09764
## [41] 46.52647 48.96041 43.67302 60.84478 56.03981 44.38446 47.98558 47.66672
## [49] 53.89983 49.58315 51.26659 49.85727 49.78565 56.84301 48.87115 57.58235
## [57] 42.25624 52.92307 50.61927 51.07971 51.89820 47.48838 48.33396 44.90712
## [65] 44.64104 51.51764 52.24105 50.26502 54.61134 60.25042 47.54484 38.45416
## [73] 55.02869 46.45400 46.55996 55.12786 48.57613 43.89641 50.90652 49.30554
## [81] 50.02882 51.92640 48.14670 53.22188 48.89757 51.65891 55.48420 52.17591
## [89] 48.37034 55.74404 54.96752 52.74198 51.19366 46.86047 56.80326 46.99870
## [97] 60.93666 57.66305 48.82150 44.86790
pnorm(55, 50, sqrt (25)) - pnorm(35, 50, sqrt (25) )
## [1] 0.8399948
se puede usar dnorm para construir el gráfico de la distribución de probabilidad de X , usando el comando curve.
curve(dnorm(x, mean=50, sd= sqrt(25)), xlim = c(35,65), xlab="Valores de x", ylab= "Densidad de X")
## Distribución Binomial
hay 12 preguntas de selección multiple en un examen. Cada pregunta tiene 5 alternativas y solo 1 es correcta. Calcular la probabilidad de obtener al menos 4 respuestas correctas (se responde completamente al azar)
dbinom(0, size=12, prob=0.2)+
dbinom(1, size=12, prob=0.2)+
dbinom(2, size=12, prob=0.2)+
dbinom(3, size=12, prob=0.2)+
dbinom(4, size=12, prob=0.2)
## [1] 0.9274445
De una forma más simple:
sum(dbinom(x = 0:4, size = 12, prob = 0.2))
## [1] 0.9274445
La probabilidad de tener más de 4 buenas
pbinom(4,size = 12, prob = 0.2, lower.tail = FALSE )
## [1] 0.0725555
Ahora, viendo esto gráficamente:
barplot(dbinom(x = 0:12, size = 12, prob = 0.2), names.arg = 0:12)