U1A5

Introducción a la probabilidad

Probabilidad es el lenguaje matematico para cuantificar la incertidumbre. Wasserman

Terminologia de probabilidad: Espacio de resultados, eventos, funciones de probabilidad, Etc.
Interpretación frecuentista de la probabilidad.
Probabilidad condicional y su relacion con la independencia.

Espacio de resultados y eventos

El espacio de resultados $\Omega$ es el cojunto de resultados de un experimento aleartorio.

e.g. Si lanzamos una moneda dos veces entonces:

\[\Omega =\{AA, AS, SA, SS \} \] Un evento es un subconjunto del espacio muestral, los eventos usualmente se denotan por mayusculas.

e.g. Que la primer lanzamiento resulte águila.

\[ A=\{AA, AS\} \] Eventos equiprobables

La probabilidad se puede ver como una extensión de la idea de proporción, o cociente de una parte con respecto a un todo.

e.g. En la carrera de Ing. Quimica hay 300 hombres y 700 mujeres, la proporción de hombres es:

\[\frac{300}{700+300}=0.3 \] Ahora, supongamos que elegimos un estudiante al azar, la probabilidad de elegir una mujer es 0.7.

Eventos equiprobables si todos los elementos en el espacio de resultados tienen la misma oportunidad de ser elegidos entonces la probabilidad de evento A es el numero de resutados en A dividiendo entre el numero total de posibles resultados:

\[P(A)=\frac{\#(A)}{\#(\Omega)} \] Por lo que solo hace falta contar.

e.g. Combinaciones

Un comite de 5 personas sera seleccionado de un grupo de 6 hombres y 9 mujeres. Si la selección es aleartoria, ¿cuál es la probabilidad de que el comite este conformando por 3 hombres y 2 mujeres?

Hay $\dbinom{15}{5}$ posibles comites, cada uno tiene la misma posibilidad de ser seleccionado.

Por otra parte hay $ $ posibles comites que incluyen 3 hombres y 2 mujeres, por lo tanto, la posibilidad que buscamos es:

\[ \frac{\dbinom{6}{3} \dbinom{9}{2}}{\dbinom{15}{5}} \] y la función para calcular las combinaciones es choose (n, r).

choose(6, 3) * choose(9, 2) / choose(15, 5)

## [1] 0.2397602

Interpretación frecuentista de la probabilidad

Una frecuencia relativa es una proporción que mide que tan seguido, o frecuente ocurre una u otra cosa en una sucesión de observaciones.

lanzamiento_10 <- sample(c("A", "S"),10, replace = TRUE)
lanzamiento_10

##  [1] "A" "A" "S" "A" "S" "S" "A" "A" "S" "A"

Podemos calcular las secuencias de frecuencias relativas de águila:

cumsum(lanzamiento_10 == "A") #suma acumulada de aguila

##  [1] 1 2 2 3 3 3 4 5 5 6

Dividiendo

round(cumsum(lanzamiento_10 == "A") / 1:10, 2)

##  [1] 1.00 1.00 0.67 0.75 0.60 0.50 0.57 0.62 0.56 0.60

Distribuciones de probabilidad

Funciones en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones mas importantes son:

Distribución (Alias)
Distribución binomial (binom)
distribución de poisson (pois)
Distribución normal (norm)
Distribución exponencial (exp)
Distribución t de student (t)
Distribución CHi2 (chisq)
Distribución F (f)

\[ \begin{array}{{|c|l|l|l|}} \text{función} & \text{Significado} & \text{uso}& \text{Observación}\\ \hline p & \text{probability} & \text{calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{calcula probabilidades puntuales} & \text{solo uso gráfico en el caso continuo}\\ r & \text{random} & \text{genera datos aleartorios segun una distribucion especifica} & \text{---}\\ \hline \end{array} \]

Distribución Exponencial

curve(dexp(x), from=0, to=10)

#represnta la densidad de una exponencial de media 1 entre 0 y 10

Distribución binomial

x <- rbinom(20, 1, 0.5)
x

##  [1] 1 1 1 0 1 0 0 1 1 1 1 1 0 0 1 0 0 1 0 1

# genera 20 observaciones con distribución B(1,0.5)

Contando éxitos vs fracasos

table(x)

## x
##  0  1 
##  8 12

e.g. Distribución normal

si $X$ es una variable aleartoria con distribución normal de media 3, y si desviacion tipica es de 0.5, la probabilidad de que $X$ sea menor que 3.5 se calcula en R de esta forma:

pnorm(3.5, mean=3, sd=0.5)

## [1] 0.8413447

Para calcular el cuantil 0.7 de una variable aleartoria normal estándar Z, es decir, un valor x tal que

qnorm(0.7)

## [1] 0.5244005

Para calcular el mismo cuantil, pero para una variable aleartoria normal de media 0 y DT 0.5

qnorm(0.7, sd=0.5)

## [1] 0.2622003

El valor $z_\alpha$ que aparece en muchas de las formulas para intervalos y contrastes se obtiene con el comando qnorm(1-alpha). Algunos ejemplos:

qnorm(0.975)

## [1] 1.959964

Para generar una muestra de tamaño 100 de una poblacion normal de media 10 y desviación tipica 1 (y guardarla en un vector x):

x <- rnorm(100, mean=10, sd=1)
x

##   [1] 10.168080 11.130775  9.980614 11.476622 10.198178  9.834676 10.171492
##   [8]  9.090655 10.379566 11.422599 10.224509  8.962850  9.966614 11.307463
##  [15]  7.091925 10.362181  9.133227 10.802840 12.352146  8.818451 10.088551
##  [22] 10.985670  9.261534 10.920934  9.688395 11.589707  8.740813 11.208945
##  [29] 10.262138 10.845283 10.572237 11.290002 11.097715 10.954482 10.722657
##  [36] 10.942939 11.615665 10.653453  9.578802 10.236650  9.949082  9.575427
##  [43]  9.196968  9.848695 10.523448  9.628515 10.173706  9.912195 10.470671
##  [50]  9.159498 12.793372  9.024865  9.656653  8.402729 10.626113  9.831867
##  [57] 10.393909  9.955213  9.736902 10.795156  9.942596 10.500808  8.865289
##  [64] 10.756900 12.483329  9.644970 11.182123  9.273837 10.746064  9.369259
##  [71]  8.680772 11.198205  8.905795 12.083646 10.383094  8.294517  8.776976
##  [78]  8.966608 10.622873 10.804289 11.547060  9.814000 12.027278 11.547917
##  [85]  9.559706 10.556536 11.427683 11.263666 11.016010  9.773332 10.868857
##  [92] 11.568156  9.363697  9.525467 10.607107 10.441025  9.833654 10.824657
##  [99] 10.366977 11.052433

Para estimar el promedio de x

mean(x)

## [1] 10.28254

Histograma de frecuencias

hist(x)

Gráfico de cajas y bigote

boxplot(x)

Histograma de la muestra (normalizado para que la suma de las áreas de lso rectángulos sea 1) junto con la densidad de la población.

hist(x, freq=FALSE) #freq=FALSE, para qie el área del histograma sea 1
curve(dnorm(x, mean=10, sd=1), from=7, to=13, add=TRUE)

Ejercicios

1. si $z$ es una variable con distribución normal estándar, calcula *((-2.34<Z<4.78))

Solución

pnorm(4.78) - pnorm(-2.34)

## [1] 0.9903573

2. Calcula el rango intercuartilico de una población normal estándar.

Solución

x <- c(2, 3, 4, 5, 5, 7, 7, 8, 8, 9)
summary(x)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00    4.25    6.00    5.80    7.75    9.00

IQR(x)

## [1] 3.5

3. Genera una muestra de tamaño 10 de una población estándar. ¿Cuál es la diferencia entre la media muestral y la población? Repite el ejercicio 3 veces y anota las 3 diferencias.

Solución

Muestra 1

x <- rnorm(10, mean=3, sd=2)
x

##  [1] 4.054301 4.270696 3.363209 1.574910 3.438639 3.643627 2.528233 1.782489
##  [9] 2.791678 2.792855

mean(x)

## [1] 3.024064

Muestra 2

x <- rnorm(10, mean=5, sd=2)
x

##  [1] 5.383354 0.958734 3.720070 6.896192 7.232246 6.428462 6.995364 5.568681
##  [9] 3.954680 2.207036

mean(x)

## [1] 4.934482

Muestra 3

x <- rnorm(10, mean=3, sd=1)
x

##  [1] 2.895101 2.386528 3.752520 3.179055 1.857106 3.334549 3.732929 2.829726
##  [9] 2.911928 1.848329

mean(x)

## [1] 2.872777

En las 3 muestras se generan datos aleartorios pero en cada una genera respecto a la media valores cercanos y el rango en el que se desvia esa proporcion de la muestra

Diferencias

1. El parámetro de la población es un elemento numérico o medible que define el sistema del conjunto.
1. La estadística es el componente descriptivo de la muestra, el cual se encuentra mediante el uso de la media muestral o la proporción muestral.

4. Genera 1000 números con distribución de Poisson de parámetro $\lambda=1$. Representa el gráfico de barras de los números obtenidos. Calcula la media y la varianza de los números obtenidos. ¿Se parecen a los valores teóricos?

Solución

x <- rpois(1000, 1) 
x

##    [1] 1 2 2 1 2 1 0 1 1 1 1 0 0 0 1 1 3 2 1 0 0 0 3 0 2 2 2 2 1 2 1 1 1 2 0 0 0
##   [38] 0 1 0 1 0 3 2 0 1 1 1 2 1 0 2 1 2 0 1 1 3 2 3 1 2 2 0 1 1 1 3 2 1 0 0 2 1
##   [75] 0 1 1 2 1 0 1 2 0 0 1 0 0 0 2 0 0 0 1 1 2 0 0 3 1 0 1 2 1 1 2 0 0 2 3 1 1
##  [112] 2 0 0 1 1 0 2 2 1 1 0 1 0 0 3 1 0 0 1 1 2 1 0 0 0 0 0 2 0 0 2 1 3 1 3 2 3
##  [149] 1 2 2 1 2 0 2 1 2 2 0 0 1 1 0 0 1 0 1 0 0 0 0 1 1 1 0 2 1 0 0 1 3 2 1 1 2
##  [186] 3 0 3 1 1 1 2 1 2 1 3 0 0 0 2 0 0 1 1 1 2 2 0 0 3 1 2 2 1 1 0 0 0 3 2 1 3
##  [223] 1 2 0 1 1 1 0 1 1 3 1 1 1 0 0 3 0 1 0 0 0 2 1 0 1 1 2 2 2 1 0 1 1 0 1 1 0
##  [260] 1 1 1 1 1 0 0 1 2 2 3 2 1 1 2 1 0 1 1 0 2 0 0 0 2 0 0 2 0 2 0 2 3 0 0 0 1
##  [297] 1 0 3 1 1 0 1 0 3 2 0 1 0 1 2 0 0 1 1 1 1 1 1 0 1 0 1 0 0 0 0 1 0 2 0 2 1
##  [334] 2 2 1 4 1 0 0 3 1 0 1 0 1 0 1 1 2 2 1 1 1 1 0 1 1 3 2 3 1 1 0 1 1 0 1 2 3
##  [371] 1 0 2 1 0 0 1 2 0 1 0 0 2 1 1 1 3 0 0 1 1 0 0 2 2 1 0 0 1 2 5 2 0 0 0 2 2
##  [408] 1 2 1 0 0 0 2 1 1 1 3 1 0 1 0 1 1 0 0 1 2 0 0 0 0 0 0 1 1 0 1 0 1 1 0 0 0
##  [445] 0 0 0 0 1 1 1 0 1 3 1 1 0 0 0 0 2 1 0 0 1 1 1 1 0 1 2 0 2 2 3 4 1 2 0 0 0
##  [482] 2 2 1 1 5 1 1 1 0 1 1 1 1 0 2 0 0 2 0 1 1 1 1 3 1 3 0 3 1 0 1 0 0 2 0 1 2
##  [519] 1 1 1 1 2 0 1 1 3 3 2 0 0 0 0 0 0 1 1 1 0 1 0 1 1 1 1 0 2 1 1 0 1 2 1 2 0
##  [556] 0 1 0 0 4 1 0 3 0 1 0 0 0 2 1 4 2 2 2 1 3 1 2 2 1 1 0 1 2 2 4 1 3 0 2 1 0
##  [593] 2 0 2 1 0 0 4 0 1 0 0 2 1 3 0 2 1 0 1 2 1 0 1 1 0 0 1 0 0 1 1 0 1 0 1 1 0
##  [630] 1 1 0 0 1 1 0 1 2 0 1 2 1 1 1 1 0 2 1 0 1 2 0 1 2 0 0 0 0 1 1 2 1 1 0 1 2
##  [667] 0 1 1 2 1 1 0 0 0 0 2 0 0 2 0 0 1 1 2 0 1 1 2 1 0 1 1 0 2 2 2 2 1 5 0 2 0
##  [704] 2 1 2 0 0 2 1 1 3 0 1 0 1 1 3 0 0 2 1 1 0 1 2 1 2 0 0 0 2 0 1 0 0 0 1 0 0
##  [741] 1 0 2 2 0 1 3 1 1 1 0 0 2 0 1 0 0 0 1 3 2 2 0 1 0 2 1 2 1 1 0 0 0 0 0 1 1
##  [778] 1 1 0 1 2 2 2 0 1 0 1 0 1 1 0 1 0 2 1 0 1 0 1 0 2 0 2 3 1 0 1 0 1 1 0 1 0
##  [815] 1 1 1 0 2 4 2 0 1 0 3 2 3 2 2 1 2 0 0 1 1 0 1 0 0 0 0 1 0 2 0 1 1 1 0 0 1
##  [852] 1 5 1 0 1 1 1 0 0 0 2 0 1 0 2 1 1 0 2 0 0 0 1 0 2 1 2 2 0 1 0 1 0 1 1 0 0
##  [889] 0 0 3 1 1 2 3 0 0 1 2 3 3 1 2 0 0 0 0 0 1 1 0 0 3 0 1 2 3 0 3 1 0 1 1 0 1
##  [926] 0 3 0 1 2 0 0 0 1 0 1 0 1 1 2 0 0 1 0 1 0 2 0 4 1 0 2 2 1 1 1 0 1 1 2 1 2
##  [963] 2 0 0 1 1 0 2 1 2 1 2 1 1 2 1 3 3 0 0 0 1 1 3 1 0 0 1 1 0 1 1 2 1 0 0 1 1
## [1000] 1

mean(x)

## [1] 0.981

var(x)

## [1] 0.9215606

hist(x, xlab="Distribución de Poisson", ylab="Frecuencia", main="Histograma de Poisson", col="blue", border = (color="black"))

No se parecen a los datos teoricos.

Calcula con R los siguientes valores: $(t_{3,} $ $\chi^2_{3,\alpha}$, para $\alpha=0.05$ y $\alpha=0.01$. Compara los valores obtenidos con los que aparecen en las correspondinetes tablas.

U1A5

Jonathan Velazquez

12/2/2021

Introducción a la probabilidad

Espacio de resultados y eventos

Interpretación frecuentista de la probabilidad

Distribuciones de probabilidad

Ejercicios