Probabilidad

Introduccion a la probabilidad

probabilidad es el lenguaje matematico para cuantificar la insertidumbre -Wasserman

Terminología de probabilidad: espacio de resultados, eventos, funciones de probabilidad, etc.
Interpretación frecuentista de probabilidad.
Probabilidad condicional y su relación con independencia.
La regla de Bayes.

Espacio de resultados y eventos

El espacio de resultados $\Omega$ es el conjunto de posibles resultados de un experimento aleatorio. Ejemplo: Si lanzamos una moneda dos veces entonces:

\[\Omega = \{AA, AS, SA,SS \} \]

Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por letras mayúsculas. El evento: que el primer lanzamiento resulte águila.

\[A=\{AA,AS\} \]

Eventos equiprobables

La probabilidad se puede ver con una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. Química hay: 300 estudiantes Hombres y 700 Mujeres. La proporción de hombres es:

\[ \frac{300}{300+700} = 0.3\] Eventos equiprobables Si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad del evento A es el número de resultados en A divido entre el número de total de posibles resultados:

\[ P(A)=\frac{\#(A)} {\#(\Omega)}\]

Por lo que solo hace falta contar.

e.g. Combinaciones

Un comité de 5 personas será seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleatoria, ¿cuál es la probabilidad de que el comité este conformado por 3 hombres y 2 mujeres?

Hay $\dbinom{15}{5}$ posibles comités, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay $\dbinom{6}{3} \dbinom{9}{2}$ posibles comités que incluyen 3 hombres y 2 mujeres, por lo tanto, la probabilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] Y la función para calcular las combinaciones es choose (n, r)

choose (6, 3) * choose(9,2) / choose(15,5)

## [1] 0.2397602

Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente, ocurre una u otra cosa en una sucesión de observaciones.

lanzamientos_10 <- sample(c("A","S"), 10, replace = TRUE)
lanzamientos_10

##  [1] "S" "A" "A" "A" "A" "S" "S" "A" "A" "S"

Podemos calcular las secuencias de frecuencias relativas de águila:

cumsum(lanzamientos_10 == "A") # suma acumulada de águilas

##  [1] 0 1 2 3 4 4 4 5 6 6

Dividiendo

round(cumsum(lanzamientos_10 == "A") / 1:10, 2)

##  [1] 0.00 0.50 0.67 0.75 0.80 0.67 0.57 0.62 0.67 0.60

Distribuciones de probabilidad

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones más importantes son:

Distribución Alias
Distribución binomial binom
Distribución de Poisson pois
Distribución normal norm
Distribución exponencial exp
Distribución t de Student t
Distribución choi2 chisq
Distribución F f

\[ \begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso} & \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabiliades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array} \]

Distribución exponencial

curve(dexp(x), from=0, to=10)

#representa la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom (20, 1, 0.5)
x

##  [1] 0 0 1 1 0 0 1 1 1 1 1 1 0 0 1 0 0 1 0 1

# Genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)

## x
##  0  1 
##  9 11

** e.g. Distribución normal**

Si $x$ es una variable aleatoria, con distribución normal de media 3, y su desviación típica es de 0.5. La probabilidad de que $x$ sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)

## [1] 0.8413447

Para calcular el cuantil 0.7 de una v.a. normal estándar Z, es decir, un valor X tal que

qnorm(0.7)

## [1] 0.5244005

Para calcular el mismo cautil, pero para una v.a. de media 0 y una DT 0.5

qnorm(0.7, sd=0.5)

## [1] 0.2622003

El valor $ $z_\alpha$ $ que aparece en muchas de las fórmulas para intervalos y constrastes, se obtiene con el comando qnorm(1-alfa). Algunos ejemplos:

qnorm(0.975)

## [1] 1.959964

Para generar una muestra de tamaño 100 de una población normal de media 10 y desviación típica 1 (y guardar en un vector x):

x <- rnorm(100, mean=10, sd=1)
x

##   [1]  9.338157  8.279434 11.700449  9.706362 10.104718  9.920848  9.884880
##   [8]  8.151156 11.296157 10.577716 10.297750 12.056991  8.521827  8.910177
##  [15] 11.209000 11.058495 11.660606 10.236889 10.525225  9.516399 10.601741
##  [22]  9.121306 10.374193  8.554661 11.438255  9.609742  9.914547 11.013776
##  [29] 10.367199 10.197638 10.870553  7.774383  9.232755  9.843546  9.712838
##  [36]  8.567660 10.220177 10.698039  9.870077 11.546692  9.018747 10.203036
##  [43]  9.717999  9.564877  8.468416  9.744392  9.281565 11.084504 10.459247
##  [50]  9.698028 10.610655 10.887659 12.937627 10.410069 11.520928 10.553020
##  [57] 11.934060  9.707497 11.036377  9.782967 10.128388 11.147517  9.901291
##  [64]  9.748042 10.311642 10.993587 11.451285  9.293138  8.909192 11.402729
##  [71]  9.765682  9.783027 11.140716 11.100014 11.908845 11.049207  9.373079
##  [78]  9.084633 10.922537 10.720920 10.048763  8.829667  9.494257  9.070146
##  [85] 10.399813  9.803618 11.199612  9.250271 10.812802 11.171039  9.113142
##  [92]  9.652904  9.502700 11.251315 10.109861  9.207146 10.307408  9.324943
##  [99] 12.694636  9.377529

Para estimar el promedio de x

mean(x)

## [1] 10.17862

Histograma de frecuencias

hist(x)

Gráfico de cajas y bigote

boxplot(x)

Histograma de la muestra (normalizado para que la suma de las áreas de los rectángulos sea 1) junto con la densidad de la población:

hist(x, freq=FALSE) # Freq=FALSE -> Para que el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

Si $Z$ es una variable con distribución normal estándar, calcula $\mathbb{P}(-2.34 < Z <4.78)$.

pnorm(4.78, mean=0, sd=1) - pnorm(-2.34, mean=0, sd=1)

## [1] 0.9903573

Calcula el rango intercuartílico de una población normal estándar.

x <- c(2, 4, 4, 6, 5, 8, 8, 7, 8, 9)
summary(x)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00    4.25    6.50    6.10    8.00    9.00

Genera una muestra de tamaño 10 de una población normal estándar. ¿Cuál es la diferencia entre la media muestral y la poblacional? Repite el ejercicio 3 veces y anota las 3 diferencias.

x <- rnorm(10, mean=5, sd=1 )
x

##  [1] 4.265373 3.681020 5.589204 4.005709 5.391277 4.989477 4.959215 4.388473
##  [9] 4.091911 4.850732

x <- rnorm(10, mean=5, sd=1 )
x

##  [1] 5.132642 5.373951 2.979769 4.680424 5.217777 3.683732 3.629761 6.426468
##  [9] 6.411669 6.030872

x <- rnorm(10, mean=5, sd=1 )
x

##  [1] 4.826242 3.809997 6.381194 6.794102 3.892715 4.656452 4.767214 3.113769
##  [9] 5.651643 4.486974

A pesar de tener el mismo numero de datos, la misma media y la misma desviacion estandar se puede apreciar como genera datos distintos cada vez puesto que son numeros aleatorios los que son arrojados en cada evento.

Genera 1000 números con distribución de Poisson de parámetro $\lambda = 1$ Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?

Po <- rpois(1000, 1) 
Po

##    [1] 0 2 1 1 2 0 2 0 1 1 1 2 2 1 0 1 0 2 0 0 0 0 0 0 1 1 3 1 0 1 2 0 0 2 0 0 1
##   [38] 2 1 0 0 3 0 2 2 1 0 1 1 0 1 0 1 0 2 0 1 0 0 2 1 1 2 3 0 0 1 1 2 0 0 3 0 1
##   [75] 1 1 1 2 1 2 0 1 3 0 0 0 2 1 1 0 1 0 0 1 2 1 1 2 2 0 0 4 0 0 1 0 1 0 1 3 1
##  [112] 1 3 2 2 3 1 1 1 2 0 1 1 0 0 2 1 1 2 2 1 0 2 0 0 6 1 2 1 3 1 1 0 2 0 1 0 0
##  [149] 0 0 1 0 0 1 1 0 0 0 1 1 0 1 0 3 0 2 1 1 1 2 1 0 1 2 0 2 1 0 1 0 1 2 0 1 0
##  [186] 1 1 2 1 0 2 0 2 2 1 3 0 0 0 0 3 0 1 1 0 1 2 0 0 1 2 1 2 1 2 1 2 2 1 0 1 2
##  [223] 0 1 2 1 3 0 1 0 1 0 1 0 0 0 0 0 0 1 1 0 0 1 0 1 0 0 0 1 0 0 0 0 2 1 0 2 2
##  [260] 1 1 1 1 2 0 1 1 1 0 2 1 1 1 0 2 1 0 2 0 2 1 0 3 0 2 0 4 2 2 1 2 2 1 0 1 2
##  [297] 1 2 2 0 3 0 2 0 0 0 1 0 2 1 0 0 0 0 0 2 2 0 1 1 1 0 2 2 0 2 0 0 0 0 0 1 1
##  [334] 1 0 3 2 1 0 1 3 0 0 1 0 1 5 2 0 1 1 1 3 2 1 2 2 0 0 0 1 0 1 2 3 1 0 0 0 1
##  [371] 0 0 0 1 2 1 1 2 1 0 2 0 1 1 0 3 0 2 4 1 1 2 0 2 2 3 3 1 0 1 0 2 1 1 0 1 0
##  [408] 0 0 0 1 1 5 1 1 5 1 0 3 1 1 1 3 1 1 0 1 0 0 0 3 2 0 1 0 1 2 1 2 1 1 0 0 2
##  [445] 2 0 0 0 0 0 1 0 3 0 0 1 1 1 1 1 1 4 0 1 0 1 0 1 1 2 0 1 1 0 1 1 0 3 0 0 0
##  [482] 0 0 2 2 1 1 1 1 0 3 1 0 0 0 0 0 0 1 1 3 0 2 0 1 1 1 1 0 1 2 1 0 0 2 0 1 0
##  [519] 1 1 1 0 3 0 1 1 2 1 1 1 1 0 0 1 1 1 2 2 2 3 1 0 1 2 2 0 0 0 4 1 0 3 3 1 0
##  [556] 2 2 2 2 1 0 1 0 2 1 1 1 1 1 0 2 2 1 1 2 1 1 2 1 1 1 1 2 0 0 1 4 2 1 0 1 0
##  [593] 1 1 2 1 0 1 1 2 1 1 1 1 0 3 2 3 0 1 1 0 0 1 0 1 1 0 0 0 0 0 1 0 0 2 3 1 0
##  [630] 1 3 0 1 1 1 3 1 1 0 1 1 2 1 4 4 1 3 1 2 1 2 0 2 1 0 2 3 1 0 2 1 3 2 0 2 1
##  [667] 3 0 0 0 1 0 3 2 1 0 0 1 1 2 0 1 0 1 1 0 0 0 0 4 1 0 1 1 1 2 1 2 0 0 2 0 1
##  [704] 1 0 1 0 1 0 1 0 1 0 0 1 0 3 0 0 0 1 2 1 2 2 1 0 1 1 1 0 1 1 3 0 0 0 0 1 1
##  [741] 1 0 1 3 1 0 0 1 0 0 0 0 1 1 0 1 0 4 2 0 3 0 1 0 1 0 0 2 0 1 0 0 1 1 1 0 0
##  [778] 1 2 2 0 0 1 2 2 0 1 1 1 2 0 0 0 1 4 4 0 1 1 1 2 1 0 0 0 2 0 2 0 1 1 2 3 1
##  [815] 3 2 1 2 1 0 1 0 2 1 0 3 0 1 4 1 1 2 3 1 1 1 1 1 2 0 2 1 1 0 3 0 1 1 1 0 2
##  [852] 0 0 0 0 1 1 2 1 1 2 0 3 0 2 0 0 1 1 2 0 0 1 0 1 0 0 3 1 1 0 0 1 3 1 1 1 1
##  [889] 2 0 0 2 1 0 3 2 2 0 1 1 1 1 1 0 1 0 2 1 1 0 0 3 1 0 1 1 0 3 2 2 0 0 2 0 0
##  [926] 0 2 1 0 0 4 0 2 2 1 0 0 0 0 2 1 1 1 1 1 0 3 1 1 0 0 2 2 1 1 1 1 0 2 0 2 1
##  [963] 0 2 0 1 0 2 1 0 2 1 1 0 0 3 1 0 1 2 1 0 1 3 0 2 0 1 3 1 1 1 0 2 1 2 0 0 1
## [1000] 1

Para calcular el promedio de Po

mean(Po)

## [1] 0.997

Para estimar la varianza

var(Po)

## [1] 0.987979

Histograma de frecuencia

hist(Po, xlab = "Distribucion de Poisson", ylab = "Frecuencia", main = paste("Histograma de Poisson"), border = (color = "blue") )

Los datos teoricos obtenidos por Poisson no se parecen a los que estamos interpretando

Calcula con R los siguientes valores: $t_{3,\alpha}$, $\chi^2_{3,\alpha}$ para $\alpha= 0.05$ y $\alpha= 0.01$ Compara los valores obtenidos con los que aparecen en las correspondientes tablas.