https://www.netflix.com/watch/80243760?trackId=13752289&tctx=0%2C11%2C70f0b5fe-7341-45de-a35d-7e7448de7502-24176228%2C%2C Segundo 4:20

0.1 Bernoulli

Experimento: Lanzamiento de UNA moneda, Número de caras obtenidas, es una variable aleatoria (un valor numérico que está afectado por el azar.)

  1. Fenómeno o experimento que puede resultar en uno solo de dos posibles resultados, llamados genéricamente ACIERTO (A) o FRACASO (F).
  2. La probabilidad de acierto p es conocida y por ende la de fracaso que será (1 − p) = q.
  3. Se define la variable aleatoria X, tal que: x = 0 si el experimento resulta fracaso 1 si el experimento resulta acierto La función de probabilidad correspondiente es:

\[\displaystyle f(x)=p^{x}(1-p)^{1-x}\,\qquad {\text{ con }}\,x=\{0,1\}\,\] \(E(X) = p\) \(V (X) = pq\)

rbinom(1,1,0.5)
## [1] 0

0.2 Binomial

Lanzamiento de MUCHAS monedas, una tras otra.

rbinom(10,1,0.5)
##  [1] 1 0 1 1 0 1 1 0 1 0

Los parámetros de la función rbinom los puede interpretar como: Número de repeticiones, número de monedas y probabilidad de exito.

Si intercambiamos los valores obtendremos el número de caras obtenidas al lanzarlas simultáneamente.

rbinom(10,1,0.5)
##  [1] 1 1 0 0 0 1 1 0 0 0

Número de caras obtenidas al lanzar 5 monedas en 10 experimentos independientes

rbinom(10,5,0.5)
##  [1] 2 2 3 2 3 2 1 0 3 0

Y si la moneda no es justa? Incrementa la probabilidad de exito, entonces tendremos más caras en cada experimento.

rbinom(10,5,0.8)
##  [1] 5 2 4 2 4 4 3 4 5 4

Cada experimento es el resultado de una distribución binomial Una distribución de probabilidad es una descripción matemática de los posibles resultados de una variable aleatoria.

Para definir una variable binomial necesitamos el número de ensayos y la probabilidad de éxito.

Ejercicio 1. Genere 10 lanzamientos de una moneda injusta, cuya probabilidad de éxito es 0.3 2. Genere 100 repeticiones del experimento, número de caras obtenidas al lanzar diez monedas injusta con probabilidad del 30% de exito

table(rbinom(10000000,1,0.3))/10000000
## 
##         0         1 
## 0.6999097 0.3000903

su función de probabilidad es

\(\displaystyle \!f(x)={n \choose x}p^{x}(1-p)^{n-x},\,\,\,\,0\leq p\leq 1\)

donde \(\displaystyle x=\{0,1,2,\dots ,n\}\)

0.2.0.0.1 Mini combinaciones y permitaciones
0.2.0.0.1.1 Combinaciones

Dado un conjunto de n elementos distinguibles, se llama combinación sin repetición de p elementos, con p < n, elegidos entre los n, a cualquier subconjunto de p elementos distintos del conjunto.

El número de combinaciones sin repetición de p elementos elegidos entre los n se nota habitualmente

\[{\displaystyle C_{p}^{n}={\binom {n}{p}}={\frac {n!}{p!(n-p)!}}}\]

0.2.0.0.1.2 Permutaciones

En matemáticas, una permutación es la variación del orden o posición de los elementos de un conjunto ordenado o una tupla.

Dado un conjunto finito \(\displaystyle A\) , de \(\displaystyle n\) elementos, el número de todas sus permutaciones es igual a factorial de \(n\): \(\displaystyle n!=n(n-1)(n-2)\cdots 1\)

0.2.1 Densidad y densidad acumulada

  • Cuando lanzamos una moneda justa 10 veces, cual es el más probable número de caras?

  • Lo más probable es que los lanzamientos se distribuyan de igual manera entre caras y sellos, es decir 5 caras y 5 sellos.

  • Si hacemos una apuesta: si el resultado es 5 pago 10.000, si no es 5 me pagan 10.000, aceptarían la apuesta?

Para resolver esto debemos calcular la probabilidad de que una binomial con 10 lanzamientos tenga 5 caras. \(X \sim Binomial(10, 0.5)\) P(X=5)

Con el fin de determinar la probabilidad de nuestra apuesta vamos a repetirlo multiples ocaciones.

lanzamientos<-rbinom(100000, 10, 0.5)
barplot(table(lanzamientos), col=c(1,1,1,1,1,4,1,1,1,1))

Probabilidad de 5 caras en 100.000 lanzamientos.

mean(lanzamientos==5)
## [1] 0.24448

A este número se le conoce como la densidad de la distribución binomial en 5. Este en una estimación obtenida mediante simular el experimento, pero dado que conocemos el modelo matemático que genera estos datos es posible calcular la probabilidad.

R contiene una función para calcular la densidad de distribuciones de probabilidad, dbinom() retorna la probabilidad asociada a un evento. (d por density y r por random)

dbinom(5, 10, 0.5)
## [1] 0.2460938

Con esta función podemos calcular la probabilidad de obtener por ejemplo 6 caras

dbinom(5, 10, 0.5)
## [1] 0.2460938

o 10 caras en 10 lanzamientos

dbinom(10, 10, 0.5)
## [1] 0.0009765625

Pregunta: Cuál es la probabilidad de obtener 10 sellos en 10 lanzamientos?

0.2.2 Densidad acumulada

Como vimos, la apuesta no es justa, que tal si definimos una nueva apuesta, si el número de 4 es menor o igual a 4 yo pago, en otro caso me pagan.

Analicemos esta apuesta usando la distribución binomial.

lanzamientos<-rbinom(100000, 10, 0.5)
barplot(table(lanzamientos), col=c(4,4,4,4,4,1,1,1,1,1))

mean(lanzamientos <= 4)
## [1] 0.37905

Densidad acumulada

pbinom(4,10, 0.5)
## [1] 0.3769531

Ejericico - Calcule la probabilidad de obtener 2 caras usando dbinom - Confirme su respuesta con simulación usando rbinom

  • Calcule la probabilidad de que al menos 5 monedas sean caras recuerde la probabilidad del complemente
  • Confirme su respuesta por simulación utilizando 10000 experimentos
  • Con cual de las siguientes simulaciones está más cerca al valor real, comente

mean(rbinom(100, 10, .3) >= 5)-pbinom(4, 10, .3) mean(rbinom(1000, 10, .3) >= 5)-pbinom(4, 10, .3) mean(rbinom(10000, 10, .3) >= 5)-pbinom(4, 10, .3) mean(rbinom(100000, 10, .3) >= 5)-pbinom(4, 10, .3)

0.3 Media y varianza

0.3.1 Media

Cuando hablamos de distribuciones, nos interesa poderlas resumir en terminos de resumirlas en pocas estadísticas descriptivas, dos de las estadísticas más informativas son las media y la varianza

Cuando la muestra es lo duficientemente grande la media es un buen estimador del valor esperado, podemos utilizar la función rbinom para estimar la media.

mean(rbinom(10000, 10, 0.5))
## [1] 5.0048
mean(rbinom(1000000, 10, 0.2))
## [1] 2.001555
mean(rbinom(1000000, 100, 0.2))
## [1] 20.00056

Nota alguna relación entre la probabilidad de exito y el número de monedas (ensayos).

\(X \sim Binomial(n, p)\) \(E(X)=np\)

0.3.2 Varianza

La varianza es el promedio de las desviaciones al cuadro de cada observacioón frente a su valor esperado, o media. No es tán fácil de interpretar, pero tiene multiples bondades matemáticas y es un resultado previo para posteriores análisis.

var(rbinom(10000, 10, 0.5))
## [1] 2.516728
var(rbinom(1000000, 10, 0.2))
## [1] 1.599792
var(rbinom(1000000, 100, 0.2))
## [1] 16.05217

Encuentra alguna relación entre el tamaño de muestra, las propiedades de éxito y de fracaso.

\(X\simBinomial(n, p)\) \(var(X)=np(1-p)\)

Ejercicio

  • Verifique la propiedad para las distribuciones anteriormente suministradas.
  • Cuál es el valor esperado de una distribución binomial en la cual se lanzan 25 monedas y la probabilidad de éxito es del 30%
  • Confirme la propiedad usando rbinom()
  • Cuál método de cálculo es mejor.
  • Cuál es la varianza de una distribución binomial en la cual se lanzan 25 monedas y la probabilidad de éxito es del 30%
  • Confirme la propiedad usando rbinom()

0.4 La distribución normal

Hasta ahora hemos lanzado monedas justas que como sabemos se distribuyen binomial, si simulamos el lanzamiento de muchas monedas justas y estamos interesados en el evento número de caras, este evento se distribuirá binomialmente con media \(np\) y varianza \(np(1-p)\)

barplot(table(rbinom(1000000,1000,0.5)))

\(\mu =np\) \(sigma=\sqrt{np(1-p)}\)

binom_sample <-rbinom(100000,1000,.2)
normal_sample <- rnorm(100000,1000*.2, sqrt(1000*.2*(1-.2)))


compare_histograms(binom_sample,normal_sample,"Aproximación binomial","Normal")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

0.4.1 Ejemplo de variables normales

  • caracteres morfológicos de individuos como la estatura
  • caracteres fisiológicos como el efecto de un fármaco
  • caracteres sociológicos como el consumo de cierto producto por un mismo grupo de individuos
  • caracteres psicológicos como el cociente intelectual

0.4.1.1 Estatura

Supongamos que X es una variable aleatoria que representa la altura de una mujer de entre 30 y 75 años en Colombia Suponga que X se distribuye normalmente con una media de 166 cm y una desviación estándar de 6 cm.

## -- Attaching packages --------------------------------------------------------------------------------------------------- tidyverse 1.2.1 --
## v tibble  1.4.2     v purrr   0.2.5
## v tidyr   0.8.1     v dplyr   0.7.6
## v readr   1.1.1     v stringr 1.3.1
## v tibble  1.4.2     v forcats 0.3.0
## -- Conflicts ------------------------------------------------------------------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
## 
## Attaching package: 'gridExtra'
## The following object is masked from 'package:dplyr':
## 
##     combine

0.4.1.1.1 ¿Cuál es la probabilidad de que una mujer seleccionada al azar tenga menos de 160 cm de alto?

\(P(X < 160) = P((X - mu)/sigma < (160 - 166)/6) = P(Z < (160 - 166)/6)\)

pnorm((160-166)/6)
## [1] 0.1586553
pnorm(160, 166, 6)
## [1] 0.1586553
0.4.1.1.2 ¿Cuál es la probabilidad de que una mujer seleccionada al azar tenga más de 175 cm de altura?
1 - pnorm(175, 166, 6)
## [1] 0.0668072
pnorm(175, 166, 6, lower.tail = F)
## [1] 0.0668072
0.4.1.1.3 ¿Cuál es la probabilidad de que una mujer elegida al azar tenga entre 160 y 170 cm de altura?
pnorm(170, 166, 6) - pnorm(160, 166, 6)
## [1] 0.5888522
0.4.1.1.4 Calcule e interprete los cuantiles teóricos con q = 0.25, 0.5 y 0.75.
dt_qn <- data_frame(
  cumsum = c(.25, .5, .75),
  q = qnorm(cumsum, 166, 6),
  d = dnorm(q, 166, 6)
)
qnorm(c(.25, .5, .75), 166, 6)
## [1] 161.9531 166.0000 170.0469

0.4.1.1.5 Simule datos de la distribución teórica con rnorm
set.seed(1234)
x <- rnorm(10000, 166, 6)
0.4.1.1.6 ¿Cuál es el porcentaje de observaciones con x <160? ¿con x> 175 y con 160 176)),“”)

0.5 porcentaje observaciones con Estatura superior a 176: 0.0458

```

cat(paste0("porcentaje con Estatura entre 160 y 170 : ",mean(x > 160 & x < 170)),"\n")
## porcentaje con Estatura entre 160 y 170 : 0.5933
0.5.0.0.1 Calcule los cuartiles de x. Compare los resultados anteriores
q_sim <- quantile(x, c(.25, .5, .75))
q_sim
##      25%      50%      75% 
## 162.0352 166.0278 170.0181
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

0.5.0.0.2 Verifique que el porcentaje de valores x que se encuentran alrededor de la media con un ancho de dos, cuatro y seis desviaciones estándar es 68, 95 y 99.7% (también conocido como regla 68-95-99.7).
ps <- list(mean = mean(x), sd = sd(x))
map_dbl(1:3, ~ mean(x >= ps$mean - .x*ps$sd & x <= ps$mean + .x*ps$sd))
## [1] 0.6825 0.9554 0.9971

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

0.5.1 La función de densidad de una normal

\[{\displaystyle {\begin{aligned}\phi _{\mu ,\sigma ^{2}}(x)&{}={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}},\quad x\in \mathbb {R} .\\\end{aligned}}}\]

0.5.2 Prodiedades

  • Es simétrica respecto de su media, {}
  • Distribución de probabilidad alrededor de la media en una distribución N(μ, σ2).
  • La moda, la mediana y la media son iguales
  • La suma y resta de normales independientes es normal con parámetros media: la suma de las medias y varianza: la suma de las varianzas

0.6 Poisson

Una binomial se aproxima a una Poisson cuando la probabilidad de éxito es baja

  • Se asocia con fenómenos o sucesos definidos en determinados intervalos de tiempo y/o regiones de espacio.
  • La probabilidad de que el fenómeno suceda por lo menos una vez, es directamente proporcional al tamaño del intervalo de tiempo y/o región espacial.
  • La probabilidad de que el fenómeno ocurra mas de una vez, en intervalo y/o regiones relativamente pequeños es tan pequeña que se puede despreciar.
  • La ocurrencia del suceso en determinado intervalo y/o región es independiente de su ocurrencia en otros.
  • Interesa la probabilidad de que el suceso se presente “x” veces en el intervalo y/o región determinados.
  • Se tendrá entonces: X = número de veces que ocurre o se presenta el suceso \[x = 0, 1, 2, 3, . . .\] El modelo Poisson es: \[Poisson(x; \lambda) =\frac {e^{−\lambda}\lambda^x}{x!}\] con la particularidad de que: \(E(X) = V (X) = λ\)
barplot(table(rbinom(100000, 1000,1 / 1000)))

\(E(X)=\lambda\) \(V(X)=\lambda\)

par(mfrow=c(2,2))
barplot(table(rpois(10000,0.1)), main="lambda = 0.1")
barplot(table(rpois(10000,1)), main="lambda = 1")
barplot(table(rpois(10000,5)), main="lambda = 5")
barplot(table(rpois(10000,10)), main="lambda = 10")

Pregunta SI esta realizando experimentos sobre una binomial de tamaño 1000 y probabilidad de éxito 0.002, cual sería la aproximación a una binomial?

A continuación se presentan los resultados de la aproximación y de la distribución exacta, nota alguna diferencia?

binom_sample <- rbinom(100000,1000,0.002)
poisson_sample <- rpois(100000,1000*0.002)
compare_histograms(binom_sample,poisson_sample, "Binomial","Poisson")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Ejercicio

Cierta enfermedad tiene probabilidad de ocurrir p=1/100000, lo que en Medicina se denomina prevalencia. Calcula la probabilidad de que en una ciudad de 500000 habitantes haya más de 3 personas con dicha enfermedad. ¿Cuál sería en dicha ciudad el número de enfermos esperado?

Calcule por la apróximación a la binomial y la poisson

0.6.1 Suma de Distribuciones Poisson

X <- rpois(100000,1)
Y <- rpois(100000,2)
Z<-X+Y
compare_histograms(Z,rpois(100000,3),"Suma de Poisson (X+Y)","Poisson")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

La suma de dos distribuciones Poisson también es Poisson

0.7 Geometrica

número de lanzamientos hasta la primera cara

flips <- rbinom(100, 1, .1)
which(flips == 1)
##  [1]  7  8 16 27 30 47 48 58 77 81 88 92

La distribución Geométrica

replicate(10, which(rbinom(100, 1, .1) == 1)[1])
##  [1]  5  1  3  5 12  2  7  6  1  2

0.7.1 Propiedades

  • La distribución geométrica no tiene memoria, es decir, \(P(X>m+n|X>m)=P(X>n)\)
  • Si la probabilidad de éxito en cada ensayo es p, entonces la de que x ensayos sean necesarios para obtener un éxito es \({\displaystyle P(X=x)=(1-p)^{x-1}p\,}\) para x = 1, 2, 3,…. Equivalentemente, la de que haya x fallos antes del primer éxito es \(P(Y=x)=(1-p)^{x}p\) para y = 0, 1, 2,… .En ambos casos, la secuencia de es una progresión geométrica.
  • El valor esperado de una variable aleatoria X distribuida geométricamente es \({\displaystyle \ E(X)={\frac {1}{p}}}\) y dado que Y = X-1, \({\displaystyle \ E(Y)={\frac {1-p}{p}}}\).
  • En ambos casos, la varianza es ${(Y)={}(X)={}} $

Ejemplo El ingeniero biomédico estima que el tomógrafo dejará de funcionar en cualquier momento, estima que tiene un 10% de posibilidades de dañarse permanentemente. ¿Cuánto tiempo esperarías que dure?

Observe que esto se describe por la distribución acumulada de la distribución geométrica y, por lo tanto, la función pgeom (). pgeom (X, .1) describiría la probabilidad de que haya X días hábiles antes del día en que se rompa (es decir, que se rompa el día X + 1).

Càlcule la probabilidad de que el tomográfo no resista el 5 día

pgeom(4,.1)
## [1] 0.40951
(0.9**4)*0.1+(0.9**3)*0.1+(0.9**2)*(0.1**1)+(0.9**1)*(0.1**1)+0.1
## [1] 0.40951

Halle la probabilidad de que el tomógrafo funcione durante un mes más

1-pgeom(29,.1)
## [1] 0.04239116
0.9**29
## [1] 0.04710129

pgeom(29,.1) calcula la probabilidad de que falle el día 30,

Si fuera el director de la clìnica, estaría interesado en saber la probabilidad de que el tomògrafo siga trabajando en diferentes días

siga_trabajando <- 1-pgeom(0:29,0.1)
qplot(1:30, siga_trabajando)

0.8 Hipergeométrica

Considere una urna con 7 bolas blancas y 5 negras, nuestro experimento consiste en extraer 4 bolas aleatoriamente y sin reemplazamiento (una vez que una bola es extraída no se regresa). Entonces, la probabilidad de tener tres bolas blancas, en consecuencia una negra.

\[\displaystyle \frac{{7 \choose 3}{5 \choose 1}}{{12 \choose 4}}\]

  • De un conjunto o población de “N” elementos, se seleccionan al azar y sin Reemplazamiento “n” de ellos.
  • En los N elementos existen “M” con cierta característica de interés.
  • Se quiere determinar la probabilidad de encontrar “x” elementos con la característica de interés, en los n que se seleccionen.
  • La variable correspondiente es: X = número de elementos con la característica, en los n x = depende de la relación entre N, n y M La función es de la forma:

\[{\displaystyle P(X=x)={\frac {{d \choose x}{N-d \choose n-x}}{N \choose n}},}\]

donde \({\displaystyle N}\) es el tamaño de población, \({\displaystyle n}\) es el tamaño de la muestra extraída, \({\displaystyle d}\) es el número de elementos en la población original que pertenecen a la categoría deseada y \({\displaystyle x}\) x es el número de elementos en la muestra que pertenecen a dicha categoría.

Ejemplo una clínica ha adquirido 50 tensiometros digitales, se seleccionan aleatoriamente ocho equipos y se someten a una prueba para encontrar posibles defectos. Si seis de los 50 equipos son defectuosos. ¿Cuál es la probabilidad de que la muestra contenga a lo más dos equipos defectuosos?

Solución:  Sea \(X\)=número de equipos defectuosos en la muestra, entonces \(X\sim Hg(8,6,50)\). Por lo tanto:

\[P(X\leq 2)= P(X= 0)+ P(X= 1)+ P(X= 2) = \left[ \frac{\binom{6}{0}\binom{44}{8}}{\binom{50}{8}} \right] + \left[ \frac{\binom{6}{1}\binom{44}{7}}{\binom{50}{8}} \right] + \left[ \frac{\binom{6}{2}\binom{44}{6}}{\binom{50}{8}} \right] \ \approx 0. 9556\]

En R

dhyper(0,6,44,8)+dhyper(1,6,44,8)+dhyper(2,6,44,8)
## [1] 0.9556011
phyper(2,6,44,8)
## [1] 0.9556011

0.9 Binomial Negativa

  • Se realizan repeticiones independientes de un proceso Bernoulli, hasta obtener “k” aciertos.
  • Interesa determinar la probabilidad de que se requieran “x” repeticiones para obtener los k aciertos;
  • Se define: X = n´umero de repeticiones para los k aciertos x = k, (k + l), (k + 2)v(k + 3), . . . El modelo de probabilidad asociado tiene la forma:

Su función de probabilidad es

\({\displaystyle f_{b}(x;k,p)={x-1 \choose x-k}p^{k}(1-p)^{x-k}={x-1 \choose k-1}p^{k}(1-p)^{x-k}}\)

para enteros x mayores o iguales que k, donde

Su media es

\(\displaystyle \mu =\frac{k(1-p)}{p}\)

si se piensa en el número de fracasos únicamente y

\(\displaystyle \mu =\frac {k}{p}\) si se cuentan también los k-1 éxitos.

Su varianza es

\(\displaystyle \sigma^2=\frac{k(1-p)}{p^2}\)

en ambos casos.

Ejemplo Para un experimento médico se requieren cinco mujeres que hayan tenido seis o más partos. La proporción de mujeres adultas con esa característica es 0.05. Suponga que se toma una muestra de mujeres adultas y sea \(N\) el número de mujeres adultas que es necesario entrevistar para encontrar las cinco buscadas.

¿Cuál es la probabilidad de que en diez o menos intentos se encuentren las cinco mujeres?

\(N \sim BN(5,0.05)\).

En R

pnbinom(10,5,0.05)
## [1] 0.0006146829
probabilidad_5_mujeres_6_o_mas_partos <- pnbinom(0:220,5,0.05)
qplot(0:220, probabilidad_5_mujeres_6_o_mas_partos)+theme_bw()

Cuántas mujeres debo entrevistar para tene una probabilidad del 90% las 5 mujeres con más de seis partos?

qnbinom(0.9,5,0.05)
## [1] 153