U1A4

Reynaldo Moreno

11/2/2021

Introducción a la Probabilidad

Probabilidad es el lenguaje matemático para cuantificar la incertidumbre. -Wasserman

    1. Teminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
    1. Interpretación frecuentista de la probabilidad.
    1. Probabilidad condicional y su relación con la independencia.

Espacio de resultados y eventos

El Espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio. E.g. Si lanzamos una moneda dos veces entonces: \[ \Omega = \{AA, AS, SA,SS\} \]

Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas. E.g. Que el primer lanzamiento resulte águila \[ A= \{AA, AS\} \] ## Eventos Equiprobables La probabilidad se puede ver como una extension de la idea de proporción, o cociente de una parte con respecto a todo.

E.g. En la carrera de ing. química hay 300 hombres y 700 mujeres, la proporcion de hombres es: \[ \frac{300}{300+700}{=0.3}\ \] Eventos Equiprobables: Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados: \[ P(A)=\frac{\#(A)}{\#\Omega)}\] Por lo que solo hace falta contar.

E.g. Combinaciones Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres, si la eleccion es aleatoria, ¿Cuál es la probabilidad de que el comité esté conformado por 3 hombres y 2 mujeres ?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay\(\dbinom{6}{3} \dbinom{9}{2}\) Posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es: \[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}}\] Y la función para calcular las combinaciones es choose(n, r)

choose(6, 3) * choose(9, 2) / choose(15, 5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad

Una frecuencia realtiva es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <- sample(c("A", "S"), 10, replace = TRUE)
lanzamientos_10
##  [1] "A" "A" "A" "S" "S" "A" "A" "S" "S" "A"

Podemos calcular la secuencia de frecuencias relativas de águila:

cumsum(lanzamientos_10 == "A")
##  [1] 1 2 3 3 3 4 5 5 5 6

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 1.00 1.00 1.00 0.75 0.60 0.67 0.71 0.62 0.56 0.60

Distribuciones de probabilidad

Funciones en R En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias, las palabras clave para las distribuciones más importantes son: * Distribución Alias * Distribución binomial binom * Distribución de Poisson pois * Distribución normal norm * Distribución exponencial exp * Distribución t de student t * Distribución Chi2 Chisq * Distribución F f

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribución Exponencial

curve(dexp(x), from=0, to=10)

#Representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 0 1 1 0 1 0 0 0 1 1 1 1 1 1 1 1 1 0 0 1
#Genera 20 observaciones con distribución B(1, 0.5)

Contanto Éxitos VS Fracasos

table(x)
## x
##  0  1 
##  7 13

E.g. Distribución normal Si \(X\) es una variable aleatoria con distribución normal de media 3. y su desviación estandar es de 0.5, la probabilidad de que \(X\) sea menor que 3.5 se calcula:

pnorm(3.5, mean = 3, sd = 0.5)
## [1] 0.8413447

La probabilidad obtenida de que \(X\) sea menor a 3.5 es de 84.1%

  • Para calcular el cuantil 0.7 de una v.a normal estándar Z, es decir, un valor X tal que :
qnorm(0.7)
## [1] 0.5244005
  • Para calcular el mismo cuantil pero para una variable aleatoria normal de media 0 y una SD de 0.5:
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) de que aparece en muchas de las fórmulas para intervalos y contraste se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)
## [1] 1.959964
  • Para generar una muestra de tamaño 100 de una población normal de media 10 y SD de 1:
x <- rnorm(100, mean = 10, sd=1)
x
##   [1] 11.819686  9.013313 10.140210  9.382425 10.336461 10.398457  9.799957
##   [8]  8.375414  9.594967 11.540438 11.107723  9.771478 10.032432  8.345792
##  [15]  9.361655 10.372686 10.717531  9.616825  9.901386 11.749588 11.043922
##  [22]  9.955834  9.287002 10.085909 11.220271  9.553499 10.384678 11.413636
##  [29] 10.798694  9.424748 12.003253 10.347964 11.185354  9.643406 10.318744
##  [36]  8.520902 10.713065  8.508882  9.486892  8.694669  8.898565  8.588079
##  [43] 10.024500 10.249557 10.048287 10.546735  9.691183 10.037752  9.520841
##  [50]  9.367066  8.620851 10.630241 11.008226  9.114807 11.616102  9.729256
##  [57] 10.036110 10.943748  8.835356  8.346262 11.428615  9.301345 12.474197
##  [64]  9.207741 10.494798 10.089098  8.216330  8.669322 10.386315  9.593867
##  [71]  8.797948 10.696446  9.987188 10.426776  9.287981  9.683749  8.985968
##  [78]  9.205521 10.777336  8.299774  8.991642 11.018309 11.396681  9.180371
##  [85] 11.438569  9.939891  8.223907  9.264432 10.623988  9.220723  9.884536
##  [92] 11.004758  9.803531 11.165915  9.179095 11.687654  9.818068 12.494142
##  [99] 11.185226 10.363152
  • Para estimar el promedio de X
mean(x)
## [1] 10.01718
  • Histograma de Frecuencias
hist(x)

  • Grafica de cajas y bigotes
boxplot(x)

  • Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sean 1) junto con la densidad de la población
hist(x, freq=FALSE)
curve(dnorm(x, mean = 10, sd=1), from = 7, to =13, add=TRUE)

#Histograma y curva representativa de la densidad de los datos. 

Conclusión

En base a lo realizado se puede tener conciencia de que todos los codigos y herramientas utilizadas nos permiten realizar muchas representaciones e identifiación de datos a partir de R, ayudandonos a realizar un trabajo fundamentado en la probabilidad.