U1A4

Paul Becerra

12/02/2021

Introduccion a la probabilidad

Probabilidad es el lenguaje matemático para cuantificar la incertidumbre Wasserman

  1. Terminologia de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
  2. Interpretación frecuentista de la probabilidad.
  3. Probabilidad condicioal y su relación con la independencia.

Espacio de resultados y eventos

El espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio

e.g Si lanzamos una moneda dos veces entonces:

\[\Omega = \{AA, AS, SA, SS\} \] Un evento de un subjconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

e.g. Que el primer lanzamiento resúlte águila.

\[ A=\{AA, AS\} \] ## Eventos equiprobables

La probabilidad se puede ver como una extensión del a idea de proporción o coeinte de una parte con respecto a un todo.

e.g. En la cattera de Ing. Química hay 300 hombres y 700 mujeres. La proporción de hombres es:

\[\frac{300}{700+300} =0.3 \] Eventos equiprobables Si todos los elementos en el espacio de resultaods tienen la misma oportunidad de ser elegidos, entcones la probabilidad del evento A es el número de resultados en A dividido entre el número total de posibles resultados:

\[P(A)=\frac{\#(A)}{\#(\Omega)}\] Porlo que solo hace falta contar..

e.g. Combinaciones. Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿Cuál es la probablidad de uqe el comité esté conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres. por lo tanto, la probablidad que buscamos es;

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la función para calcular las combinacioneses choose (n, r)

choose(6,3) * choose(9,2) / choose(15,5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa es una sucesión de observaciones.

lanzamientos_10 <- sample(c("A","S"),10, replace = TRUE)
lanzamientos_10
##  [1] "S" "A" "A" "A" "A" "S" "A" "A" "S" "A"

Podemos calcular las secuencia de frecuencias relativas de águila:

cumsum(lanzamientos_10 == "A") # suma aucmulada de aguilas
##  [1] 0 1 2 3 4 4 5 6 6 7

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 0.00 0.50 0.67 0.75 0.80 0.67 0.71 0.75 0.67 0.70

##Distribuciones de probabilidad

**Funciones en R

En R, cada distribución de probabilidad se nombre mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:

  • Distribución Alias
  • Distribución binomial binom
  • Distribución de Poisson pois
  • Distribución normal norm
  • Distribución exponencial exp
  • Distribución t de Student t
  • Distribución Chi2 chisq
  • Distribución F f

\[ \begin{array}{1||1|1|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calculaprobabilidades puntuales} & \text{Solo un uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribución exponencial

curve(dexp(x), from=0, to=10)

#representa la densidad de una exponecial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 0 1 0 1 0 1 1 1 0 0 1 0 1 1 0 1 0 0 0 1
#Genera 20 observaciones con distribución B(1,0.5)

Contando exitos vs fracasos

table(x)
## x
##  0  1 
## 10 10

e.g. Distribución normal

si \(x\) es una variable aleatoria, con distribución de media 3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0)
## [1] 1
  • Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor x tal que
qnorm(0.7)
## [1] 0.5244005
  • Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5
qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(z_\alpha\) que aparece en muchas de las fórmulas para interválos y contrastes se obitnee con el comando qnorm(1-alfa). Algunos ejemplos

qnorm(0.975)
## [1] 1.959964
  • Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x)
x <- rnorm(100, mean=10, sd=1)
x
##   [1]  8.570118 11.340506 10.889563  8.069885 10.273493  9.457630  8.186363
##   [8]  9.920727 10.357642  9.826422 10.731141  9.413999  8.885374 11.014181
##  [15]  9.060956  9.511082 10.519350 10.600502 10.630215  9.872041 11.414340
##  [22] 10.434001 11.105273 10.402363  8.757794  9.082416  8.066648  9.166126
##  [29] 10.189260  9.976359 10.752317  9.016457  8.212207  9.140584 10.980075
##  [36]  9.373159  8.854254 10.663618 11.221784  9.279127  9.055956 11.085065
##  [43]  9.017123  9.550402 11.024436 11.278679 10.363858 10.132183 10.739895
##  [50] 11.922748  9.506987  9.407954  9.909567  9.577835 10.053992 11.168375
##  [57]  9.892509  9.517344  9.674549 10.249322 10.169989 10.662596 10.189427
##  [64] 10.495140 11.340644 11.527013 10.743344  9.167771  7.756702 10.533705
##  [71]  9.156543 10.201131 10.137221 10.823306  9.469865  9.157277 10.506445
##  [78]  8.416725  9.294407 12.541145 11.078706  9.537514  8.174640 12.086417
##  [85] 10.178353  9.652075  9.156673 10.408738 10.248456  9.209197  9.948365
##  [92]  9.914399 10.446289  9.095478 10.726637  9.556610 12.055722  9.567783
##  [99] 10.446074 10.112444
  • Promedio de x
mean(x)
## [1] 10.00239
  • histograma de frecuencias
hist(x)

  • Gráfico de cajas y bigote
boxplot(x)

  • Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:
hist(x, freq=FALSE) # Freq=FALSE, para que el area del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

  1. Si \(Z\) es una variable con distribución normal estandar, calcula \(\mathbb{P}(-2.34 < Z < 4.78)\).
x = pnorm(4.78, mean = 0, sd =1) - (pnorm(-2.34, mean = 0, sd =1))
x
## [1] 0.9903573

\(\mathbb{P} = 0.9903573\)

  1. Calcula el rango intercuartilico de una población normal estándar.
x <- c(20,20,21,22,22,22,23,23,24,25)
summary(x)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   20.00   21.25   22.00   22.20   23.00   25.00

IQR = Q3 - Q1

IQR = 23.00 - 21.25 = 1.75

  1. Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.
x <- rnorm(10, mean=3, sd=1)
x
##  [1] 4.101671 2.346816 1.890323 2.174109 2.879282 2.755285 1.584687 3.201494
##  [9] 3.823466 1.692476
x <- rnorm(10, mean=3, sd=1)
x
##  [1] 4.450243 2.472062 3.033624 3.131125 1.988582 3.773261 2.969267 2.528901
##  [9] 3.271536 3.178711
x <- rnorm(10, mean=3, sd=1)
x
##  [1] 4.061536 5.153992 2.595388 2.406298 2.689670 1.146282 2.738497 3.828617
##  [9] 2.319882 1.228047
  1. Genera 1000 números con distribución de Poisson de parámetros \(lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?
x <- rpois(1000, 1)
x
##    [1] 1 0 0 1 1 0 2 0 1 1 2 1 0 1 0 0 0 1 0 0 2 0 1 0 1 0 0 0 2 0 2 2 1 0 2 0 2
##   [38] 1 0 1 1 0 0 2 1 0 0 1 2 2 2 0 2 0 2 1 0 0 1 0 1 0 1 2 1 1 1 1 2 0 0 0 1 1
##   [75] 2 1 3 0 0 0 1 3 1 0 1 0 0 1 2 2 0 0 1 0 1 1 0 1 1 1 2 1 1 3 1 1 0 1 1 2 0
##  [112] 2 2 1 0 1 0 2 3 0 0 0 1 1 1 1 1 1 1 2 1 0 0 2 0 2 1 2 1 0 1 1 0 1 1 3 0 0
##  [149] 4 1 1 4 2 0 1 1 2 0 0 2 1 0 1 1 0 0 2 1 3 1 3 0 0 0 0 1 1 1 0 2 0 2 1 0 0
##  [186] 0 1 0 0 1 1 1 0 1 0 3 1 1 1 1 1 1 2 0 0 2 4 1 4 2 0 0 0 2 0 2 1 1 2 0 2 0
##  [223] 1 0 1 1 2 0 1 0 0 2 1 0 1 0 2 2 1 1 1 0 0 3 0 0 2 0 1 0 2 1 2 1 2 1 1 0 1
##  [260] 0 1 0 0 0 3 1 0 3 0 0 0 0 0 2 1 2 1 0 1 1 0 1 0 2 1 0 2 0 0 0 1 0 2 0 1 3
##  [297] 0 0 0 4 0 1 0 1 0 0 0 1 2 0 1 0 1 1 2 0 1 0 0 1 1 1 1 1 0 0 0 5 1 1 2 2 1
##  [334] 1 3 2 1 0 0 1 2 0 4 3 1 3 1 2 2 1 3 0 2 1 1 0 0 1 1 1 2 0 2 1 3 2 2 2 0 3
##  [371] 1 2 3 0 1 1 3 1 1 1 0 1 1 4 1 2 3 0 0 0 0 2 0 2 1 0 1 2 0 1 1 1 0 1 3 0 0
##  [408] 0 1 1 2 0 2 0 0 2 2 1 0 3 0 3 0 0 1 0 2 0 0 1 0 0 0 1 2 1 0 2 1 0 1 2 2 1
##  [445] 2 0 0 0 1 0 0 1 1 3 1 1 0 0 1 1 0 0 0 0 0 0 2 1 0 0 0 0 1 1 2 0 1 3 0 0 0
##  [482] 1 0 3 1 1 2 1 0 1 1 2 2 2 1 0 2 2 1 1 4 3 2 2 0 1 0 0 2 2 1 0 0 1 0 0 1 2
##  [519] 0 0 0 0 1 1 3 0 0 0 2 0 1 1 1 3 3 0 0 0 1 0 2 1 0 0 1 0 2 2 2 0 0 1 0 1 0
##  [556] 0 2 1 1 2 1 1 3 1 2 3 0 1 0 0 1 0 0 4 3 1 1 2 1 3 3 0 1 0 2 0 1 0 1 1 0 0
##  [593] 0 1 1 2 0 2 2 0 0 0 1 0 1 1 0 1 0 1 3 2 0 0 1 1 3 0 3 0 1 3 0 3 1 1 1 0 1
##  [630] 1 3 1 1 1 1 0 2 0 1 3 0 5 2 2 2 0 1 1 1 0 1 0 0 1 0 1 1 2 1 0 0 0 3 1 1 1
##  [667] 1 0 1 1 0 1 0 1 0 3 0 0 1 2 0 2 0 2 2 0 1 1 1 2 0 2 1 1 1 0 1 0 0 2 1 0 0
##  [704] 1 1 0 1 1 0 1 2 1 1 2 1 0 2 1 2 3 1 0 0 1 1 3 0 0 0 3 2 1 0 1 1 1 1 0 1 1
##  [741] 0 0 1 2 0 1 2 2 1 2 3 2 1 3 1 1 1 1 1 1 1 1 0 1 1 2 1 0 2 1 1 1 2 2 1 3 0
##  [778] 1 1 1 1 1 1 0 2 1 1 2 2 1 2 2 1 3 2 1 1 1 0 0 0 1 1 0 3 0 0 1 1 1 2 3 1 0
##  [815] 0 1 1 2 0 0 0 0 1 0 1 0 1 0 2 2 0 0 1 0 1 0 3 1 1 2 2 3 0 0 1 0 1 1 0 3 1
##  [852] 0 0 0 1 2 1 2 1 0 0 1 1 1 0 1 2 2 1 1 0 1 0 0 0 0 1 2 0 2 2 0 1 2 3 4 1 2
##  [889] 0 3 1 3 1 0 1 1 2 0 3 2 0 1 0 0 3 1 1 2 0 0 0 0 2 1 2 1 1 3 0 0 0 2 2 1 1
##  [926] 0 2 0 2 1 2 0 0 2 1 1 1 3 0 0 2 0 1 1 1 2 0 0 0 1 3 1 4 1 1 2 0 1 2 1 0 0
##  [963] 0 1 0 3 2 1 1 2 0 0 0 0 1 1 2 1 0 3 2 1 2 2 1 2 0 0 0 4 0 1 1 1 1 1 1 0 1
## [1000] 1
  • Promedio
mean(x)
## [1] 0.997
  • Varianza
var(x)
## [1] 0.9479389
  • Histograma
hist(x, xlab = "Distribución de Poisson", ylab = "Frecuencia")

Calcula con R los siguientes valores: \(t_{3,\alpha}\), \(chi^2_{3,alpha}\) para \(\alpha = 0.05\) y \(\alpha = 0.01\). Compara los valores obtenidos con los que aparecen en los correspondientes tablas.