El objetivo de esta clase es entender el concepto de probabilidad, como un evento que pude ocurrir con cierta frecuencia, y que dicha frecuencia determina si el evento es sumamente inusual o al contrario es un evento que usualmente ocurre. Este concepto es básico porque de aquí parte la estadistica inferencial.
Algunos conceptos importantes que debemos tener en cuenta son evento, evento simple y espacio muestral. Vamos a utilizar la base de datos de la clase anterior para explicar estos conceptos.
db <- read.delim(paste0(dirname(getwd()),"/chp4/data/curva de crecimiento final.txt"))
head(db)
## tiempo1 reactor tiempo2 sp Medio.BBM Medio.BG.11 Medio.F.2
## 1 T:0 reactor 1 12h Chloridium 819.222 554.778 554.778
## 2 T:1 reactor 1 12h Chloridium 1567.000 1248.222 1393.667
## 3 T:2 reactor 1 12h Chloridium 2093.667 3505.889 2392.556
## 4 T:3 reactor 1 12h Chloridium 2585.889 1912.556 1965.889
## 5 T:4 reactor 1 12h Chloridium 4985.111 5916.222 17935.000
## 6 T:5 reactor 1 12h Chloridium 5217.667 1925.889 11873.889
El evento se define como cualquier colección de resultados o consecuencias de un procedimiento. En el caso de base de datos podría ser los resultados de crecimiento bacteriano en el medio de cultivo “BBM”
db$Medio.BBM
## [1] 819.222 1567.000 2093.667 2585.889 4985.111 5217.667 6271.000
## [8] 819.222 1830.333 2089.222 2997.000 6151.778 8496.111 10528.667
## [15] 283.589 306.811 496.289 576.100 323.144 450.733 595.889
## [22] 819.222 1875.667 3109.222 4505.111 9464.333 3453.667 7474.333
## [29] 819.222 1327.000 2463.667 6618.444 14973.889 14846.111 28303.333
## [36] 819.222 3709.556 6254.000 2853.667 2693.667 2381.444 4635.000
## [43] 594.667 1313.000 1624.667 2181.333 7664.000 4961.333 5909.333
## [50] 594.667 1184.667 1489.667 9332.667 4451.333 3738.000 4534.667
## [57] 594.667 7516.000 7886.000 3983.000 11899.000 12538.000 10330.000
## [64] 594.667 1148.000 2514.667 5084.667 3311.333 4399.667 3686.333
## [71] 594.667 981.333 2371.333 3133.000 7944.000 4439.667 11589.000
## [78] 594.667 12754.000 17006.667 20306.667 36896.667 35463.333 29558.000
Un evento simple se refiere a un resultado o evento que no puede descomponerse en partes mas simple, en la base de datos previa, un evento simple sería la primera lectura de crecimiento (819.222)
db$Medio.BBM[1]
## [1] 819.222
El espacio muestral se refiere a los valores o categorias que puede tomar una variable, en el caso de la base de datos previa, el espacio muestral de las especies es de dos: “Chlorella” y “Choleridium”
levels(db$sp)
## [1] "Chlorella" "Chloridium"
Es importante que el espacio muestral puede variar dependiendo del número de eventos que consideremos. Veamos la tabla siguiente para entenderlo mejor:
| Nro de eventos tomados | Resultado | espacio muestral |
|---|---|---|
| 1 | { Chlorella } | { (Chlorella); (Choleridium) } |
| 2 | { Chlorella,Chlorella } | { (Chlorella,Chlorella);(Chlorella,Choleridium);(Choleridium,Choleridium) } |
Como ve, el espacio muestral queda definido como el conjunto de todas las combinaciones posibles de eventos que pueda existir.
Exiten tres métodos para calcular la probabilidad + Aproximación de probabiliad por frecuencias relavitas + Método clásico + Probabilidad subjetiva
Si definimos \(P\) como la probabilidad y \({A,B,C}\) como eventos específicos, entonces: \[P(A) = \frac{Numero de veces que ocurrio A}{numero de veces que se repitio el experimento}\] #### b) Método clásico Cuando tenemos un cantidad de \(n\) eventos y A puede ocurrir de \(s\) diferentes maneras \[P(A) = \frac{s}{n}\] #### c) Probabilidad subjetiva Es cuando estimamos la \(P(A)\) basados en experimetos anteriores, experiencia personal, entre otros.
Esta ley nos dice que en cuanto más repeticiones tengamos, la probabilidad por frecuencia relativa tiene acercarse más a la probabilidad real. Veamos un ejemplo practico usando la función dnorm() para generar un conjunto de eventos simples cuya distribución es normal. Luego tomemos muestras de 10, 100, 500 y 1000 elementos usando la función sample(); verificaremos la distribución de las frecuencias graficandolo en histograma.
par(mfrow=c(2,3))
ej1 <- rnorm(n = 10000,mean = 0,sd = 10)
# Poblacion
hist(ej1, main = "Histograma de la población", las = 1, freq = F)
lines(density(ej1),lwd = 2)
# muestra 1
muestra <- sample(x = ej1, size = 10, replace = F)
hist(muestra, main = "Histograma muestra 10", las = 1, freq = F)
lines(density(muestra),lwd = 2)
# muestra 2
muestra <- sample(x = ej1, size = 100, replace = F)
hist(muestra, main = "Histograma muestra 100", las = 1, freq = F)
lines(density(muestra),lwd = 2)
# muestra 3
muestra <- sample(x = ej1, size = 500, replace = F)
hist(muestra, main = "Histograma muestra 500", las = 1, freq = F)
lines(density(muestra),lwd = 2)
# muestra 4
muestra <- sample(x = ej1, size = 1000, replace = F)
hist(muestra, main = "Histograma muestra 1000", las = 1, freq = F)
lines(density(muestra),lwd = 2)
# Poblacion
hist(ej1, main = "Histograma de la población", las = 1, freq = F)
lines(density(ej1),lwd = 2)
Los eventos complemantrios es la probabilidad de que el evento A no ocurra. Se simboliza de la siguiente forma: \(\bar{A}\). Cuando sumamos ambas probabilidades el resultado siempre debe ser: \(P(A) + P(\bar{A}) = 1\).
La posibilidad es otra forma de expresar la probabilidad de que ocurra el evento A en relación a la probabilidad de que no ocurra el evento A. Si por ejemplo en una clase de 20 alumnos, solo hay 5 hombres, entonces la posibiliad de escoger un hombre al azar es de 1:4.
Cuando queremos encontra la posibilidad de que ocurra un evento u otro usamos la regla de la suma. La notación para encontrar de que ocurra el evento \(A\) o el evento \(B\) es la siguiente: \[P(A o B) = P(A) + P(B) - P(A y B)\] Para ejemplificar la regla de la suma, supongamos que anotamos el color de los carros al pasar al frente de nosotros, y estos son los resultados \[autos = {"rojo","verde","rojo","rojo","rojo","verde","verde","violeta","rojo","rojo","azul", "azul", "amarillo"}\] Podemos calcular la frecuencia absoluta mediante el uso de la función table()
autos <- c("rojo","verde","rojo","rojo","rojo","verde","verde","violeta","rojo","rojo","azul", "azul", "amarillo")
table(autos)
## autos
## amarillo azul rojo verde violeta
## 1 2 6 3 1
El número total de elementos lo podemos obtener con la función length()
length(autos)
## [1] 13
Entonces la probabilidad de escoger un auto rojo (\(P(R)\)) al azar está dado por: \[P(R) = \frac{6}{13}\] \[P(R) = 0.462\] Ahora, si nosotros quisieramos saber la posibilidad de escoger un auto rojo (\(P(R)\)) O azul (\(P(A)\)), tendríamos que: \[P(R) = \frac{6}{13} ; P(A) = \frac{2}{13}\] \[P(R) = 0.461 ; P(A) = 0.154\] Entonces la \(P(RoA)\) queda definida por: \[P(RoA) = \frac{6+2}{13} = \frac{8}{13}\] \[P(RoA) = 0.615\] Que es lo mismo que si hubieramos sumado las posibilidades de forma independiente \[P(R) + P(A) = 0.462 + 0.154 = 0.616\] Podemos generar una tabla de frecuencia relativas con la función data.frame()
data.frame(colores = names(table(autos)),
freq.abs = as.vector(table(autos)),
freq.rel = round(as.vector(table(autos)/length(autos)),3))
## colores freq.abs freq.rel
## 1 amarillo 1 0.077
## 2 azul 2 0.154
## 3 rojo 6 0.462
## 4 verde 3 0.231
## 5 violeta 1 0.077
as.vector(table(autos))
## [1] 1 2 6 3 1
Ahora suponga que deseo saber cual es la probabilidad de escoger dos carros rojos seguidos, en este caso se usa la regla de la multiplicación. La notación es la siguiente: \[P(B|A)\] Lo que quiere decir es la probabilidad de que suceda el evento \(B\) dado que el evento \(A\) haya sucedido, es decir, que ocurra primero el evento \(A\) y luego ocurra el evento \(B\). En nuestro caso, queremos saber cual es la probabilidad de ver pasar dos carros rojos seguidos: \[P(R|R) = P(R) * P(R)\] \[P(R|R) = 0.462 * 0.462\] \[P(R|R) = 0.214\] Esto quiere decir que tenemos una probabilidad de 21.4% de ver pasar dos carros rojos seguidos, es decir tenemos una posibilidad de 1:5.
En esta sección trataremos de ir paso a paso entendiendo la teoría de Bayes. ### 6.1 Complementos En primer lugar evaluaremos “el complemento”. El complemento, lo tomaremos, como la probabilidad de que al menos una vez suceda un determinado evento. En nuestro ejemplo de los carros, el evento que queremos evaluar es la probabilidad de que al menos en 10 carros que pasen al frente nuestro uno sea de color rojo. Usamos la regla de multiplicación para determinar cual es probabilidad de que al menos un carro sea rojo, de todos los que pasaron
determinamos la probabilidad individual que suceda el evento
A <- length(autos[autos=="rojo"])/length(autos)
A
## [1] 0.4615385
determinamos el complemento de la probabilidad individual que suceda el evento
Ac <- 1 - length(autos[autos=="rojo"])/length(autos)
Ac
## [1] 0.5384615
evaluamos la probabilidad del complemento del evento en los dies autos
Ac10 <- Ac*Ac*Ac*Ac*Ac*Ac*Ac*Ac*Ac*Ac
Ac10
## [1] 0.002049023
evaluamos la probabilidad del evento en los dies autos
1 - Ac10
## [1] 0.997951
Esto quiere decir que: tenemos una probabilidad de 99.8% de que al menos un carro sea de color rojo si es que vemos pasar 10 carros seguidos.
El teorema de Bayes permite cacular de probabilidad condicional de un eventod A dado que B. Su fórmula general es la siguiente. \[P(A|B) = \frac{P(A).P(B|A)}{[P(A).P(B|A)]+[P(\bar{A}).P(B|\bar{A})]}\] Veamoslo con un ejemplo. Supongamos que la prevalencia de cancer es de 1% en la población en general y la tasa de falsos positivos es del 10% y el de falsos negativos es del 20%. Y lo que queremos determinar es cual es la probabilidad de tener cancer y salir positivo en la prueba diagnóstica. Solución: En una población de 1000 personas, el 1% tendrá cancer, es decir 10 personas. De las 990 personas restantes, el 10% será un falso positivo, es decir serán 99 personas serán positivos sin tener cancer. Ahora construyamos una tabla con los datos
| Positivo | Negativo | Total | |
|---|---|---|---|
| Con cancer | 8 | 2 | 10 |
| Sin cancer | 99 | 891 | 990 |
| Total | 107 | 893 | 1000 |
Vasado en esta tabla, la probabilidad de tener un resultado positivo (\(Pos\)) teniendo cancer (\(C\)) por el teorema de Bayes es: \[P(C|Pos) = \frac{(0.01)(0.8)}{[(0.01).(0.8)]+[(0.99).(0.1))]} = 0.0748\]
Para una secuencia de eventos, en la que el evento uno se puede dar de \(n_1\) formas distintas y el evento 2 se puede dar de \(n_2\) formas distintas, y así sucesivamente, la cantidad de conbinaciones distintas se calcula por: \[combinaciones=n_1 . n_2 . n_3 ... n_n\] Por ejemplo, cual sería el número total de combinaciones para el código de un cajero de 4 cifras.
Sirve para encontrar el número de formas en las que se puede ordenar \(n\) numeros. Por ejemplo, en cuantas formas diferentes se puede ordenar a 5 personas. \[n! = 5! = (5)(4)(3)(2)(1) = 120\]