Introduccion a la probabilidad

Probabilidad es el lenguaje matématico para cuantificar la incertidumbre. Wasserman

  1. Terminología de Probabilidad: Espacio de resultados, eventos, funciones de probabilidad, etc.
  2. Interpretación frencuentista de la probabilidad.
  3. Probabilidad condicional y su relación con la independencia.

Espacio de Resultados

El Espacio de resultados \(\Omega\) es el conjunto de resultados de un experimento aleatorio.

e.g. Si lanzamos una moneda dos veces entonces:

\[\Omega = \{AA, AS, SA, SS \} \] Un Evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayúsculas.

e.g. Que el primer lanzamiento resulte águila.

\[ A=\{AA, AS\} \] ## Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing.Química hay 300 hombres y 700 mujeres, la proporción de hombres es:

\[ \frac{300}{700+300} = 0.3 \]

**Eventos equiprobables, si todos los elementos en el espacio de resultados tiene la misma oportunidad de ser elegidos la probabilidad del evento A es el número de resultados en A dividido entre el número totlal de posibles resultados:

\[ P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.

e.g. Combinaciones

Un cómite de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿Cuál es la probabilidad de que el cómite este conformado por 3 hombres y 2 mujeres?

Hay \(\dbinom{15}{5}\) posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay \(\dbinom{6}{3} \dbinom{9}{2}\) posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] Y la función para calcular las combinaciones es choose (n, r)

choose(6, 3) * choose(9, 2) / choose(15,5)
## [1] 0.2397602

Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <- sample(c("A","S"),10, replace = TRUE  ) 
lanzamientos_10
##  [1] "S" "A" "A" "A" "A" "S" "A" "A" "S" "A"

Se puede calcular la secuencias de frecuencias relativas de águila:

cumsum(lanzamientos_10 == "A") #Suma acumulada de Águilas
##  [1] 0 1 2 3 4 4 5 6 6 7

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)
##  [1] 0.00 0.50 0.67 0.75 0.80 0.67 0.71 0.75 0.67 0.70

Distribuciones de Probabilidad

Funciones en R

En R, cada distribución de probabilidad se nombra mediante una clave o alias. Las palabras clave para distribuciones más importantes son:

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribución Exponencial

curve(dexp(x), from=0, to=10)

#Representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución Binomial

x <- rbinom(20, 1, 0.5)
x
##  [1] 0 1 0 1 1 0 0 1 1 0 1 0 1 0 0 1 1 0 0 0
#Genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)
## x
##  0  1 
## 11  9

e.g. Distribución normal

si \(x\) es una variable aleatoria, con distribución normal de media3, y su desviación típica es de 0.5, la probabilidad de que \(x\) sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)
## [1] 0.8413447

*Para calcular el cuantil 0.7 de una v.a. normal estándar z, un valor x tal que

qnorm(0.7)
## [1] 0.5244005

*Para calcular el mismo cuantil, pero para una v.a. normal de media 0 y DT 0.5

qnorm(0.7, sd=0.5)
## [1] 0.2622003

El valor \(\(z_\alpha \)\) que aparece en muchas de las fórmulas para intervalos y contrastes se obtiene con el comando qnorm(1-alfa). Algunos ejemplos son:

qnorm(0.975)
## [1] 1.959964

*Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardarla en un vector x):

x <- rnorm(100, mean=10, sd=1 )
x
##   [1] 10.159566  8.831651 10.550629  8.997558  9.827623  7.779605 10.001932
##   [8] 10.309197 11.671409 10.302091  9.092969 10.381901  8.776257 10.231368
##  [15]  8.713516  8.560392  9.782770 11.600393 10.312039 10.826752  9.946753
##  [22]  9.323120  9.368655 10.549123  9.423330 10.182335 10.972823  9.515574
##  [29] 11.198338  9.298406 10.064634 10.213084  9.249756  9.515571 10.380519
##  [36] 11.603290 10.173393  9.665931 10.853482 11.359915  9.813244 10.847790
##  [43] 12.696483 10.755298 10.264794 10.876502 11.003231  8.808816 10.489510
##  [50] 10.578581  9.058212 10.478669  8.319000 10.427794 10.935423 11.150496
##  [57]  9.536861 10.079019 11.446057 10.005541  9.673993 11.450272 10.596527
##  [64] 11.000470 10.508440 10.522828 10.744815  9.398768  8.607561 10.301183
##  [71] 12.095210 10.074714 10.782990 10.251456 10.684524  9.764332  9.413561
##  [78]  9.867502 10.567599 10.450573 10.958915 10.777907 10.050443 10.783731
##  [85]  9.366981  7.788997  9.559574 10.758044 10.038150 10.004417  9.156065
##  [92] 10.600510 11.504674  8.849620  8.592553  9.647770  9.569076  8.901482
##  [99]  8.885268 10.723153

*Para estimar el promedio de x

mean(x)
## [1] 10.10414

*Histograma de frecuencias

hist(x)

*Grafico de cajas y bigote

boxplot(x)

*Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:

hist(x, freq=FALSE) #Freq=FALSE, para que el area del histograma sea 1 
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

EJERCICIOS

1.Si \(z)\) es una variable con distribución normal estándar, cálcula \(\mathbb{P}(-2.34 < Z < 4.78)\)

P= pnorm(4.78, mean=0, sd=1) - (pnorm(-2.34, mean=0, sd=1))
P
## [1] 0.9903573

\[ P=0.9903573 \] 2.Calcule el rango intercuartílico de una población normal estándar.

f <- c(1,4,4,4,5,5,6,6,6,6,7,8,8,9)
summary(f)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   4.250   6.000   5.643   6.750   9.000

\[ IQR=3rdQu - 1stQu \] \[ IQR=6.450 - 4.250 \]

3.Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.

x <- rnorm(10, mean=3, sd=1 )
x
##  [1] 2.773470 3.318257 2.970743 1.469886 3.777582 1.641820 2.744570 2.956865
##  [9] 2.763222 2.631598
x <- rnorm(10, mean=10, sd=1 )
x
##  [1]  9.644568 10.059880 10.582088  8.696782 10.696131  9.840929  9.810292
##  [8] 11.039307  9.977034  8.449612
x <- rnorm(10, mean=10, sd=1 )
x
##  [1]  9.996722 11.038020 10.792160 10.253448 10.071786  8.299269  8.576236
##  [8]  8.897809  8.674801  9.654277

#\(Comentario\): * Se logra percatar que los numeros se encuentran diferentes, a pesar de que agregaron las mismas secuencias pero eso es debido a que son eventos aleatorios


4.Genera 1000 números con distribucición de Poisson de parámetro \(\lambda = 1\). Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?

Poisson <- rpois(1000, 1)
Poisson
##    [1] 1 2 1 0 0 1 0 1 1 1 1 2 0 0 0 2 2 1 1 0 1 0 0 0 0 0 1 0 1 3 1 0 0 1 0 0 1
##   [38] 0 0 0 0 2 0 1 1 1 0 1 2 0 1 0 2 0 1 0 1 0 1 1 2 0 1 0 2 0 1 1 0 1 0 1 0 0
##   [75] 0 0 1 2 0 2 1 1 2 0 2 1 1 1 1 2 2 1 1 0 0 3 1 0 1 1 1 3 1 1 0 3 3 2 3 2 2
##  [112] 1 1 1 0 3 3 0 1 1 1 0 0 0 0 1 2 0 0 1 1 4 0 0 1 2 0 0 3 1 3 0 2 1 3 1 4 0
##  [149] 0 4 0 1 1 3 2 3 1 1 0 1 1 0 2 0 2 2 1 1 0 1 1 1 2 0 1 4 2 0 0 1 0 2 1 5 0
##  [186] 3 3 0 1 1 2 0 1 1 0 0 2 0 0 2 1 1 0 2 0 2 0 1 0 2 0 1 1 0 0 1 0 4 0 1 1 0
##  [223] 0 0 2 2 0 1 0 2 1 0 0 2 1 1 0 1 1 1 1 1 0 0 1 2 0 3 3 0 2 0 3 0 1 1 2 2 1
##  [260] 1 1 1 2 2 1 0 2 0 0 3 1 0 1 0 1 1 1 0 0 2 2 0 1 2 1 1 1 1 1 0 1 1 1 0 1 0
##  [297] 0 2 2 1 2 2 1 0 1 0 1 1 1 4 0 1 0 1 1 0 2 0 2 1 0 0 0 0 1 2 1 1 2 2 0 0 0
##  [334] 0 0 4 1 0 1 0 5 0 0 0 2 2 1 0 1 0 2 2 2 0 0 1 2 0 1 1 1 0 1 3 1 1 1 1 1 3
##  [371] 1 1 1 1 1 0 0 1 1 0 0 1 1 2 1 0 1 2 1 3 0 1 1 0 0 1 1 1 2 0 1 3 2 1 0 1 0
##  [408] 0 1 0 0 2 1 2 0 1 1 2 0 2 0 0 1 1 3 2 0 0 2 1 1 0 0 1 3 0 3 2 0 0 3 2 1 3
##  [445] 1 0 1 1 0 0 0 1 0 1 0 2 2 0 0 1 1 1 1 1 1 1 2 1 1 0 1 2 2 0 1 2 1 1 2 0 2
##  [482] 0 0 0 1 1 0 1 1 2 0 1 4 1 0 1 3 1 1 1 1 0 1 2 4 0 1 2 0 1 1 2 0 2 1 2 0 0
##  [519] 0 0 0 0 1 0 0 0 1 2 0 3 0 0 1 0 3 1 1 2 1 2 1 0 0 1 0 1 1 2 0 3 1 0 0 0 1
##  [556] 0 2 0 0 2 0 0 1 2 0 2 2 1 2 3 1 2 2 1 1 2 1 1 1 0 1 3 1 1 3 0 2 1 0 2 0 1
##  [593] 1 1 1 0 0 1 1 0 1 0 1 2 2 1 1 1 0 0 1 1 1 1 0 0 2 0 1 0 0 2 4 0 2 1 1 0 0
##  [630] 3 0 2 0 1 0 1 2 0 1 0 0 1 1 3 0 1 0 0 2 0 1 0 0 1 1 4 1 0 0 0 2 1 3 2 0 1
##  [667] 1 0 0 1 2 0 0 0 0 1 1 3 0 1 3 1 2 2 1 0 2 2 2 1 0 1 0 0 0 2 1 0 1 1 0 1 0
##  [704] 0 0 1 0 0 0 1 1 2 1 0 4 1 0 0 1 2 1 1 2 0 0 2 4 2 1 2 3 2 3 1 1 1 0 0 1 0
##  [741] 1 2 0 0 2 0 2 0 0 1 0 2 1 2 2 1 1 0 0 0 3 0 1 2 1 1 1 1 1 1 0 1 2 0 0 2 0
##  [778] 0 1 1 0 2 0 1 0 2 0 1 1 0 2 0 1 0 0 2 2 3 2 1 1 1 1 1 1 1 0 1 0 0 0 0 0 1
##  [815] 2 1 0 0 1 0 1 1 2 1 1 1 0 1 1 0 1 1 1 3 0 1 1 0 2 1 2 1 0 1 1 0 1 1 0 0 0
##  [852] 2 0 2 0 1 1 1 3 3 1 0 1 2 1 0 0 3 1 1 2 3 0 0 4 0 1 1 3 1 0 3 1 1 1 2 1 3
##  [889] 2 1 0 3 0 1 2 2 0 1 1 2 2 1 1 0 1 0 0 2 0 0 0 1 0 0 1 0 2 0 2 1 0 0 0 0 0
##  [926] 2 0 0 2 1 0 1 2 3 0 1 3 0 2 1 0 2 0 1 4 1 1 0 1 0 1 1 2 1 4 2 1 0 3 0 0 2
##  [963] 1 2 1 0 0 1 0 1 1 2 2 2 2 1 3 1 1 2 0 0 4 2 3 1 0 1 0 1 1 1 0 0 1 0 2 0 1
## [1000] 1

La media y la varianza de los números obtenidos

mean(Poisson)
## [1] 0.991
var(Poisson)
## [1] 0.9538729

Histograma de frecuencias

hist(Poisson)

5.Calcula con R los siguientes valores: \(t_{3,\alpha}\), \(\chi^2_{3,\alpha}\), para \(\alpha = 0.05\) y \(\alpha = 0.05\). Compara los valores obtenidos con los que aparecen en las correpondientes tablas.

set.seed(10)

x1 <- rnorm(100,10)
x2 <- rnorm(100,10.5)

test <- t.test(x1, x2)
test
## 
##  Welch Two Sample t-test
## 
## data:  x1 and x2
## t = -4.0081, df = 197.83, p-value = 8.665e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.8080508 -0.2751220
## sample estimates:
## mean of x mean of y 
##  9.863451 10.405037
frec <- c(2,3)
chisq.test(frec)
## Warning in chisq.test(frec): Chi-squared approximation may be incorrect
## 
##  Chi-squared test for given probabilities
## 
## data:  frec
## X-squared = 0.2, df = 1, p-value = 0.6547

Para \(\alpha = 0.05\) y \(\alpha = 0.05\)

qchisq(0.95,1)
## [1] 3.841459

qchisq(0.99,1)
## [1] 6.634897