CLASE 4

PROBABILIDAD

Exploración general de los datos

1. OBJETIVO

El objetivo de esta clase es entender el concepto de probabilidad, como un evento que pude ocurrir con cierta frecuencia, y que dicha frecuencia determina si el evento es sumamente inusual o al contrario es un evento que usualmente ocurre. Este concepto es básico porque de aquí parte la estadistica inferencial.

2. PUNTOS CLAVE

3. TEMARIO

4. PROBABILIDAD

4.1 Definiciones

Algunos conceptos importantes que debemos tener en cuenta son evento, evento simple y espacio muestral. Vamos a utilizar la base de datos de la clase anterior para explicar estos conceptos.

db <- read.delim(paste0(dirname(getwd()),"/chp4/data/curva de crecimiento final.txt"))
head(db)
##   tiempo1   reactor tiempo2         sp Medio.BBM Medio.BG.11 Medio.F.2
## 1     T:0 reactor 1     12h Chloridium   819.222     554.778   554.778
## 2     T:1 reactor 1     12h Chloridium  1567.000    1248.222  1393.667
## 3     T:2 reactor 1     12h Chloridium  2093.667    3505.889  2392.556
## 4     T:3 reactor 1     12h Chloridium  2585.889    1912.556  1965.889
## 5     T:4 reactor 1     12h Chloridium  4985.111    5916.222 17935.000
## 6     T:5 reactor 1     12h Chloridium  5217.667    1925.889 11873.889

El evento se define como cualquier colección de resultados o consecuencias de un procedimiento. En el caso de base de datos podría ser los resultados de crecimiento bacteriano en el medio de cultivo “BBM”

db$Medio.BBM
##  [1]   819.222  1567.000  2093.667  2585.889  4985.111  5217.667  6271.000
##  [8]   819.222  1830.333  2089.222  2997.000  6151.778  8496.111 10528.667
## [15]   283.589   306.811   496.289   576.100   323.144   450.733   595.889
## [22]   819.222  1875.667  3109.222  4505.111  9464.333  3453.667  7474.333
## [29]   819.222  1327.000  2463.667  6618.444 14973.889 14846.111 28303.333
## [36]   819.222  3709.556  6254.000  2853.667  2693.667  2381.444  4635.000
## [43]   594.667  1313.000  1624.667  2181.333  7664.000  4961.333  5909.333
## [50]   594.667  1184.667  1489.667  9332.667  4451.333  3738.000  4534.667
## [57]   594.667  7516.000  7886.000  3983.000 11899.000 12538.000 10330.000
## [64]   594.667  1148.000  2514.667  5084.667  3311.333  4399.667  3686.333
## [71]   594.667   981.333  2371.333  3133.000  7944.000  4439.667 11589.000
## [78]   594.667 12754.000 17006.667 20306.667 36896.667 35463.333 29558.000

Un evento simple se refiere a un resultado o evento que no puede descomponerse en partes mas simple, en la base de datos previa, un evento simple sería la primera lectura de crecimiento (819.222)

db$Medio.BBM[1]
## [1] 819.222

El espacio muestral se refiere a los valores o categorias que puede tomar una variable, en el caso de la base de datos previa, el espacio muestral de las especies es de dos: “Chlorella” y “Choleridium”

levels(db$sp)
## [1] "Chlorella"  "Chloridium"

Es importante que el espacio muestral puede variar dependiendo del número de eventos que consideremos. Veamos la tabla siguiente para entenderlo mejor:

Nro de eventos tomados Resultado espacio muestral
1 { Chlorella } { (Chlorella); (Choleridium) }
2 { Chlorella,Chlorella } { (Chlorella,Chlorella);(Chlorella,Choleridium);(Choleridium,Choleridium) }

Como ve, el espacio muestral queda definido como el conjunto de todas las combinaciones posibles de eventos que pueda existir.

4.2 Métodos para encontrar probabilidad

Exiten tres métodos para calcular la probabilidad + Aproximación de probabiliad por frecuencias relavitas + Método clásico + Probabilidad subjetiva

a) Aproximación por frecuencias relativas

Si definimos \(P\) como la probabilidad y \({A,B,C}\) como eventos específicos, entonces: \[P(A) = \frac{Numero de veces que ocurrio A}{numero de veces que se repitio el experimento}\] #### b) Método clásico Cuando tenemos un cantidad de \(n\) eventos y A puede ocurrir de \(s\) diferentes maneras \[P(A) = \frac{s}{n}\] #### c) Probabilidad subjetiva Es cuando estimamos la \(P(A)\) basados en experimetos anteriores, experiencia personal, entre otros.

4.3 Ley de los números grandes

Esta ley nos dice que en cuanto más repeticiones tengamos, la probabilidad por frecuencia relativa tiene acercarse más a la probabilidad real. Veamos un ejemplo practico usando la función dnorm() para generar un conjunto de eventos simples cuya distribución es normal. Luego tomemos muestras de 10, 100, 500 y 1000 elementos usando la función sample(); verificaremos la distribución de las frecuencias graficandolo en histograma.

par(mfrow=c(2,3))
ej1 <- rnorm(n = 10000,mean = 0,sd = 10)
# Poblacion
hist(ej1, main = "Histograma de la población", las = 1, freq = F)
lines(density(ej1),lwd = 2)
# muestra 1 
muestra <- sample(x = ej1, size = 10, replace = F)
hist(muestra, main = "Histograma muestra 10", las = 1, freq = F)
lines(density(muestra),lwd = 2)
# muestra 2 
muestra <- sample(x = ej1, size = 100, replace = F)
hist(muestra, main = "Histograma muestra 100", las = 1, freq = F)
lines(density(muestra),lwd = 2)
# muestra 3 
muestra <- sample(x = ej1, size = 500, replace = F)
hist(muestra, main = "Histograma muestra 500", las = 1, freq = F)
lines(density(muestra),lwd = 2)
# muestra 4 
muestra <- sample(x = ej1, size = 1000, replace = F)
hist(muestra, main = "Histograma muestra 1000", las = 1, freq = F)
lines(density(muestra),lwd = 2)
# Poblacion
hist(ej1, main = "Histograma de la población", las = 1, freq = F)
lines(density(ej1),lwd = 2)

4.4 Eventos complementarios

Los eventos complemantrios es la probabilidad de que el evento A no ocurra. Se simboliza de la siguiente forma: \(\bar{A}\). Cuando sumamos ambas probabilidades el resultado siempre debe ser: \(P(A) + P(\bar{A}) = 1\).

4.5 Posibilidades

La posibilidad es otra forma de expresar la probabilidad de que ocurra el evento A en relación a la probabilidad de que no ocurra el evento A. Si por ejemplo en una clase de 20 alumnos, solo hay 5 hombres, entonces la posibiliad de escoger un hombre al azar es de 1:4.

5. REGLA DE LA SUMA Y LA MULTIPLICACIÓN

5.1 Regla de la suma

Cuando queremos encontra la posibilidad de que ocurra un evento u otro usamos la regla de la suma. La notación para encontrar de que ocurra el evento \(A\) o el evento \(B\) es la siguiente: \[P(A o B) = P(A) + P(B) - P(A y B)\] Para ejemplificar la regla de la suma, supongamos que anotamos el color de los carros al pasar al frente de nosotros, y estos son los resultados \[autos = {"rojo","verde","rojo","rojo","rojo","verde","verde","violeta","rojo","rojo","azul", "azul", "amarillo"}\] Podemos calcular la frecuencia absoluta mediante el uso de la función table()

autos <- c("rojo","verde","rojo","rojo","rojo","verde","verde","violeta","rojo","rojo","azul", "azul", "amarillo")
table(autos)
## autos
## amarillo     azul     rojo    verde  violeta 
##        1        2        6        3        1

El número total de elementos lo podemos obtener con la función length()

length(autos)
## [1] 13

Entonces la probabilidad de escoger un auto rojo (\(P(R)\)) al azar está dado por: \[P(R) = \frac{6}{13}\] \[P(R) = 0.462\] Ahora, si nosotros quisieramos saber la posibilidad de escoger un auto rojo (\(P(R)\)) O azul (\(P(A)\)), tendríamos que: \[P(R) = \frac{6}{13} ; P(A) = \frac{2}{13}\] \[P(R) = 0.461 ; P(A) = 0.154\] Entonces la \(P(RoA)\) queda definida por: \[P(RoA) = \frac{6+2}{13} = \frac{8}{13}\] \[P(RoA) = 0.615\] Que es lo mismo que si hubieramos sumado las posibilidades de forma independiente \[P(R) + P(A) = 0.462 + 0.154 = 0.616\] Podemos generar una tabla de frecuencia relativas con la función data.frame()

data.frame(colores = names(table(autos)),
  freq.abs = as.vector(table(autos)),
  freq.rel = round(as.vector(table(autos)/length(autos)),3))
##    colores freq.abs freq.rel
## 1 amarillo        1    0.077
## 2     azul        2    0.154
## 3     rojo        6    0.462
## 4    verde        3    0.231
## 5  violeta        1    0.077
as.vector(table(autos))
## [1] 1 2 6 3 1

5.2 Regla de la multiplicación

Ahora suponga que deseo saber cual es la probabilidad de escoger dos carros rojos seguidos, en este caso se usa la regla de la multiplicación. La notación es la siguiente: \[P(B|A)\] Lo que quiere decir es la probabilidad de que suceda el evento \(B\) dado que el evento \(A\) haya sucedido, es decir, que ocurra primero el evento \(A\) y luego ocurra el evento \(B\). En nuestro caso, queremos saber cual es la probabilidad de ver pasar dos carros rojos seguidos: \[P(R|R) = P(R) * P(R)\] \[P(R|R) = 0.462 * 0.462\] \[P(R|R) = 0.214\] Esto quiere decir que tenemos una probabilidad de 21.4% de ver pasar dos carros rojos seguidos, es decir tenemos una posibilidad de 1:5.

6. COMPLEMENTOS Y TEOREMA DE BAYES

En esta sección trataremos de ir paso a paso entendiendo la teoría de Bayes. ### 6.1 Complementos En primer lugar evaluaremos “el complemento”. El complemento, lo tomaremos, como la probabilidad de que al menos una vez suceda un determinado evento. En nuestro ejemplo de los carros, el evento que queremos evaluar es la probabilidad de que al menos en 10 carros que pasen al frente nuestro uno sea de color rojo. Usamos la regla de multiplicación para determinar cual es probabilidad de que al menos un carro sea rojo, de todos los que pasaron

paso 1:

determinamos la probabilidad individual que suceda el evento

A <- length(autos[autos=="rojo"])/length(autos)
A
## [1] 0.4615385

paso 2:

determinamos el complemento de la probabilidad individual que suceda el evento

Ac <- 1 - length(autos[autos=="rojo"])/length(autos)
Ac
## [1] 0.5384615

paso 3:

evaluamos la probabilidad del complemento del evento en los dies autos

Ac10 <- Ac*Ac*Ac*Ac*Ac*Ac*Ac*Ac*Ac*Ac
Ac10
## [1] 0.002049023

paso 4:

evaluamos la probabilidad del evento en los dies autos

1 - Ac10
## [1] 0.997951

Esto quiere decir que: tenemos una probabilidad de 99.8% de que al menos un carro sea de color rojo si es que vemos pasar 10 carros seguidos.

6.2 Teorema de Bayes

El teorema de Bayes permite cacular de probabilidad condicional de un eventod A dado que B. Su fórmula general es la siguiente. \[P(A|B) = \frac{P(A).P(B|A)}{[P(A).P(B|A)]+[P(\bar{A}).P(B|\bar{A})]}\] Veamoslo con un ejemplo. Supongamos que la prevalencia de cancer es de 1% en la población en general y la tasa de falsos positivos es del 10% y el de falsos negativos es del 20%. Y lo que queremos determinar es cual es la probabilidad de tener cancer y salir positivo en la prueba diagnóstica. Solución: En una población de 1000 personas, el 1% tendrá cancer, es decir 10 personas. De las 990 personas restantes, el 10% será un falso positivo, es decir serán 99 personas serán positivos sin tener cancer. Ahora construyamos una tabla con los datos

Positivo Negativo Total
Con cancer 8 2 10
Sin cancer 99 891 990
Total 107 893 1000

Vasado en esta tabla, la probabilidad de tener un resultado positivo (\(Pos\)) teniendo cancer (\(C\)) por el teorema de Bayes es: \[P(C|Pos) = \frac{(0.01)(0.8)}{[(0.01).(0.8)]+[(0.99).(0.1))]} = 0.0748\]

7. CONTEO

7.1 Regla de multiplicación

Para una secuencia de eventos, en la que el evento uno se puede dar de \(n_1\) formas distintas y el evento 2 se puede dar de \(n_2\) formas distintas, y así sucesivamente, la cantidad de conbinaciones distintas se calcula por: \[combinaciones=n_1 . n_2 . n_3 ... n_n\] Por ejemplo, cual sería el número total de combinaciones para el código de un cajero de 4 cifras.

7.2 Regla factorial

Sirve para encontrar el número de formas en las que se puede ordenar \(n\) numeros. Por ejemplo, en cuantas formas diferentes se puede ordenar a 5 personas. \[n! = 5! = (5)(4)(3)(2)(1) = 120\]