Modelos Estadísticos. Grado Biotecnología
Abstract
En este tema se introducen los conceptos básicos necesarios para al cálculo de probabilidades. No se realiza un estudio muy extenso de la teoria de la probabilidad, sino que más bien se orienta a los conceptos que serán necesarios para la construcción de los modelos estadísticos que se trabajarna en las unidades siguientes.La probabilidad o el azar juega un papel muy importante en el razonamiento científico. Ejemplos de procesos biológicos donde la probabilidad juega un papel relevante son: i) la segregación de cromosomas en la formación de gametos o la ocurrencia de mutaciones genéticas. En otras ocasiones es el propio diseño experimental el que introduce la aleatoriedad como por ejemplo cuando dividimos un grupo de sujetos en función del tratamiento al que se van a ver sometidos.
Las conclusiones del análisis estadístico de datos se expresan en muchas ocasiones en términos de probabilidad, ya que implícitamente se está introduciendo la aleatoriedad debida a la muestra de sujetos con el que estamos trabajando, y que generalmente no coincide con toda la población bajo estudio.
En las unidades anteriores hemos visto que el estudio estadístico se centra en la información recogida sobre alguna variable relacionada directamente con el objetivo u objetivos del diseño experimental planteado. Un hecho cierto es que debido a la aleatoriedad e los sujetos resulta imposible saber con certeza el valor de dicha variable para un sujeto en particular. Se introduce de esta forma el concepto de variable aleatoria que hace referencia a todas aquellas en las que intrínsecamente se reconoce variabilidad en la respuesta de los sujetos.
En este punto introducimos lago de notación que nos resultará de utilidad de aquí en adelante. Las variables aleatorias siempre se denotan en mayúsculas , \(Y\), mientras que los valores observados para un conjunto de sujetos en esa variable (muestra) se denotan por minúsculas e indicando la posición que el sujeto ocupa en el banco de datos \(y_1, y_2,...,y_n\).
Por razones obvias se definen entonces las variables aleatorias discretas y las variables aleatorias continuas. Una variable discreta es aquella que sólo puede tomar un número finito o contable de posibles resultados, de forma que es posible conocer de antemano cuales son los posibles resultados que se pueden observar. Una variable continua es aquella que puede tomar infinitos valores numéricos, y por tanto es imposible identificar cada uno de los posibles valores de la variable, aunque si es posible conocer el rango de posibles resultados que se pueden observar. De forma natural se puede establecer una equivalencia entre la definición de variables categóricas y numéricas introducidas en unidades anteriores con las variables discretas y continuas.
La probabilidad es una cantidad numérica entre 0 y 1 que expresa la posibilidad de ocurrencia de un suceso (valor, valores o rango de valores) asociado con una variable aleatoria, de forma que valores próximos a cero indican que el suceso es poco probable, y valores próximos a 1 indican que el suceso es muy probable. De esta forma, un suceso es más probable que otro cuando su probabilidad de ocurrir es mayor. La probabilidad de un suceso \(A\) vinculado con una variable \(X\) se denota por: \[P(A).\]
La interpretación frecuentista de la probabilidad nos proporciona una forma rápida para relacionar la probabilidad de un evento con los valores observados de la variable en un diseño experimental, evaluando la frecuencia con que el evento se produce sobre el total de resultados del experimento. Se define la probabilidad del suceso \(A\) como: \[P(A) = \frac{\text{número de veces que ha ocurrido A}}{\text{número de repeticiones del experimento}}\] Imaginemos una situación donde se lanza dos veces una moneda equilibrada y se está interesado en calcular la probabilidad de obtener dos caras. En este caso la variable aleatoria tiene el siguiente conjunto de resultados posibles {2 cruces, 1 cara y 1 cruz (dos veces según el orden), 2 caras} y el suceso considerado es A = {dos caras}, de forma que: \[P(A = \{\text{dos caras en dos lanzamientos}\}) = \frac{1 \text{ (resultados favorables)}}{4 \text{ (resultados posibles)}} = 0.25\] De igual forma la probabilidad de obtener una cara y una cruz en dos lanzamientos viene dada por: \[P(A = \{\text{C y X en dos lanzamientos}\}) = \frac{2 \text{ (resultados favorables)}}{4 \text{ (resultados posibles)}} = 0.50\]
Por tanto, la evaluación de la probabilidad de un suceso está relacionado directamente con los posibles resultados de la variable aleatoria. Sin embargo, el tipo de sucesos que se pueden evaluar dependen del tipo de variable considerada.
Dada una variable aleatoria discreta \(X\) y un suceso \(A\) vinculado con un único valor de la variable, es decir \(A = \{a\}\), se pueden evaluar las siguientes probabilidades:
Si el suceso \(A\) está vinculado con una rango de valores de la variable, \((a,b)\) con \(b > a\), se pueden evaluar las siguientes situaciones:
En el caso de variables continuas las situaciones que se pueden plantear son algo diferentes. Hay que tener en cuenta que el rango de valores posibles de la variable es infinito, y por tanto resulta imposible evaluar la probabilidad de tomar un único valor. Tenemos entonces:
Si tenemos un rango de valores posibles la única probabilidad que podemos evaluar es:
Los sucesos compuestos surgen de forma natural cuando deseamos obtener la probabilidad de dos sucesos que pueden o no compartir información. Imaginemos que tenemos dos monedas equilibradas que lanzamos a la vez:
En todas las situaciones tenemos al menos dos sucesos que conforman un suceso compuesto. Para responder a estas preguntas se hace uso de las propiedades de conjuntos y de sus operaciones básicas: unión e intersección de conjuntos. En el resto de este apartado consideramos dos sucesos \(A\) y \(B\), que pueden estar vinculados a una o dos variables aleatorias.
El suceso unión surge cuando se desea obtener la probabilidad de que ocurra el suceso \(A\) o el suceso \(B\): \[P(A \text{ o } B) = P(A \cup B).\] El resultado de dicha probabilidad viene dado por la expresión: \[ P(A \cup B) = P(A) + P(B) - P(A \cap B),\] donde \(P(A \cap B)\) es la probabilidad del suceso intersección de \(A\) y \(B\).
El suceso intersección surge cuando se desea obtener la probabilidad de que ocurra el suceso \(A\) y el suceso \(B\): \[P(A \text{ y } B) = P(A \cap B).\] Esta probabilidad se denomina probabilidad conjunta de \(A\) y \(B\) y se escribe habitualmente como \(P(AB)\). El resultado de dicha probabilidad depende de si los sucesos \(A\) y \(B\) se pueden considerar independientes (no comparten información) o dependientes (si comparten información). Si los sucesos son independientes: \[P(A \cap B) = P(AB) = P(A)P(B).\] Si no son independientes es por que la información de uno de ellos afecta al otro y por lo tanto la probabilidad conjunta depende de la probabilidad condicionada de uno dado el otro.
La probabilidad condicionada surge cuando deseamos evaluar la probabilidad de un suceso \(A\) dado que otro suceso \(B\) ha ocurrido ya. Se denota habitualmente por: \[P(A | B)\] y surge de forma natural en la mayoría de situaciones experimentales. El resultado de dicha probabilidad se obtiene como: \[P(A | B) = \frac{P(AB)}{P(B)},\] es decir, la probabilidad condicionada es el cociente entre la probabilidad conjunta y la denominada probabilidad marginal (\(P(B)\)). De esta forma indicamos que dicha probabilidad corresponde a la información conjunta de ambos sucesos cuando eliminamos la parte que corresponde únicamente al suceso al que estamos condicionando.
De forma análoga tenemos que: \[P(B | A) = \frac{P(AB)}{P(A)}.\]
Las probabilidades condicionadas suelen ser más fáciles de obtener a partir de cualquier diseño experimental, lo que nos permite obtener de forma muy sencilla la probabilidad conjunta de ambos sucesos, ya que: \[P(AB)=P(A|B)P(B)\] o \[P(AB)=P(B|A)P(A).\]
Si \(A\) y \(B\) son independientes entonces \(P(A|B) = P(A)\) o \(P(B|A) = P(B)\).
Respondemos ahora a las preguntas con que comenzamos este apartado.
\[P(C \text{ y } X) = P(CX) = \frac{favorables}{posibles} = \frac{2}{4}=\frac{1}{2}\]
\[P(C \text{ o } X) = P(C) + P(X) - P(CX) = \frac{1}{2} + \frac{1}{2} - \frac{1}{2} = \frac{1}{2}\]
\[P(C | C) = \frac{P(CC)}{P(C)} = \frac{1/4}{1/2} = \frac{1}{2}\]
Para el segundo ejemplo vamos a utilizar el banco de datos storm que ya utilizamos en la unidad anterior.
library(tidyverse)
library(nasaweather)
storm <- nasaweather::storms # Guardamos los datos en un nuevo objeto
storm$year_f <- factor(storm$year)
levels(storm$year_f) <- as.character(1995:2000)
storm$month_f <- factor(storm$month)
levels(storm$month_f) <- c("June","July","August","September","October","November","December")
Nos planteamos ahora las siguientes cuestiones:
A continuación se plantea como resolver cada una de estas situaciones:
######
# S1
######
# En primer lugar calculamos el número de observaciones
ncasos <- nrow(storm)
# Casos que cumplen la condición
nfavorables <- nrow(filter(storm,wind > 100 & pressure < 950))
# Resultado
data.frame(Observados = ncasos, Favorables = nfavorables, Probabilidad = nfavorables/ncasos)
Hay un 4.37% de posibilidades de que una tormenta registre velocidades por encima de las 100 mph y presiones atmosféricas por debajo de 950 milibares.
######
# S2
######
# En primer lugar calculamos el número de observaciones
ncasos <- nrow(storm)
# Casos que cumplen la condición
nfavorables <- nrow(filter(storm,wind > 100 | pressure < 950))
# Resultado
data.frame(Observados = ncasos, Favorables = nfavorables, Probabilidad = nfavorables/ncasos)
Hay un 6.44% de posibilidades de que una tormenta registre velocidades por encima de las 100 mph o presiones atmosféricas por debajo de 950 milibares.
######
# S3
######
# Seleccionamos los datos para condicionar
datselect <- filter(storm,pressure < 950)
ncasos <- nrow(datselect)
# Casos favorables
nfavorables <- nrow(filter(datselect,wind > 100))
# Resultado
data.frame(Observados = ncasos, Favorables = nfavorables, Probabilidad = nfavorables/ncasos)
Hay un 90.90% de posibilidades de que una tormenta registre velocidades por encima de las 100 mph cuando ha registrado presiones atmosféricas por debajo de 950 milibares.
Para la situación 4 necesitamos saber cuantas tormentas fueron clasificados como tormenta tropical y evolucionaron a huracán. Por el tipo de variable analizada sabemos que para que una tormenta sea clasificada de huracán ha tenido que pasar primero por la categoría de tormenta tropical.
######
# S4
######
# Agrupamos los datos por tormenta y tipo
tormentas.tipo <- distinct(storm,name,type)
# Tormentas tropicales
T.tropicales <- nrow(filter(tormentas.tipo, type == "Tropical Storm"))
# Huracanes
T.huracanes <- nrow(filter(tormentas.tipo, type == "Hurricane"))
# Resultado
data.frame(Observados = T.tropicales, Favorables = T.huracanes, Probabilidad = T.huracanes/T.tropicales)
De las 79 tormentas tropicales registradas 46 de ellas evolucionaron a huracán, lo que proporciona un 58.23% de posibilidades de que una tormenta tropical evolucione a huracán.
######
# S5.1
######
# Contamos utilizando los filtros
ncasos <- nrow(filter(storm, wind > 100))
favorables <- nrow(filter(storm, wind > 100 & type == "Hurricane"))
# Resultado
data.frame(Observados = ncasos, Favorables = favorables, Probabilidad = favorables/ncasos)
Si una tormenta alcanza vientos superiores a las 100 mph existe un 96.97% de posibilidades de clasificara como huracán.
######
# S5.2
######
# Contamos utilizando los filtros
ncasos <- nrow(filter(storm, pressure < 950))
favorables <- nrow(filter(storm, pressure < 950 & type == "Hurricane"))
# Resultado
data.frame(Observados = ncasos, Favorables = favorables, Probabilidad = favorables/ncasos)
Si una tormenta registra presiones atmosféricas inferiores a 950 milibares existe un 95.45% de posibilidades de clasificarla como huracán.
¿Qué conclusiones podemos extraer de las dos últimas probabilidades calculadas?
Para finalizar este temas se presentan los dos teoremas fundamentales de la probabilidad: teorema de la probabilidad total y teorema de Bayes. Imaginemos una situación donde tenemos dos sucesos \(A\) y \(B\) de forma que conocemos la probabilidad de \(A\), \(P(A)\), y la probabilidad condicionada de \(B|A\), P(B|A).
El teorema de la probabilidad total nos dice que: \[P(B) = P(B | A)P(B)\] lo que nos permite calcular la probabilidad marginal del evento \(B\).
El teorema de Bayes nos dice que: \[P(A | B) = \frac{P(B|A)P(A)}{P(B)}\] lo que permite calcular la probabilidad de \(A\) condicionado a \(B\). Este teorema se utiliza en muchas ocasiones con la herramienta fundamental para valorar los denominados falsos positivos o falsos negativos en la realización de tests clínicos.
En las ciencias experimentales una aplicación ampliamente utilizada de la probabilidad es en la evaluación y tests de cribado para criterios diagnósticos. El principal interés para el establecimiento de un tests diagnóstico es tratar de predecir de forma correcta la presencia o ausencia de cierta característica o enfermedad cuando realmente esta está presenta o ausente. Se definen de esta forma:
Se obtiene un falso positivo cuando el test o prueba indica un resultado positivo cunado en realidad es negativo Se obtiene un falso negativo cuando el test o prueba indica un resultado negativo cuando en realidad es positivo
Un grupo de investigadores médicos quieren probar un nuevo test para determinar si un paciente padece cierta enfermedad. Se toma una muestra aleatoria de 450 sujetos que padecen la enfermedad y otra de 500 que no la padecen. Los resultados del test aparecen en la tabla siguiente
Resultado del tests | Enfermo (D) | Sano (no D) | Total |
---|---|---|---|
Positivo (+) | 436 | 5 | 441 |
Negativo (-) | 14 | 495 | 509 |
Total | 450 | 500 | 950 |
Falso Positivo = \(P( + | no D)\) Falso Negativo = \(P( - | D)\)
Se definen entonces un conjunto de probabilidades que nos permiten caracterizar el test o prueba diagnóstica
La sensibilidad de un test es la probabilidad de un resultado positivo dada la presencia de la enfermedad, es decir, \(P( + | D)\)
La especifidad de un test es la probabilidad de un resultado negativo dada la ausencia de la enfermedad, es decir, \(P( - | no D)\)
El valor predictivo positivo del test es la probabilidad de que un sujeto este enfermo dado que el resultado ha sido positivo, es decir, \(P(D | +)\)
El valor predictivo negativo del test es la probabilidad de que un sujeto no este enfermo dado que el resultado ha sido negativo, es decir, \(P(no D | -)\)
Para obtener estas probabilidades hacemos uso del teorema de Bayes dado que:
\[P(D | +) = \frac{P( + | D)P(D)}{P( + | D)P(D) + P( + | no D)P(no D)}\] \[P(no D | -) = \frac{P( - | no D)P(no D)}{P( - | no D)P(no D) + P( - | D)P(D)}\] Para poder realizar estos cálculos necesitaremos una estimación de la incidencia de la enfermedad sobre la población bajo estudio, es decir, un valor para \(P(D)\) y por consiguiente para \(P(no D)\)
Si para los datos del ejemplo anterior se conoce que la incidencia de la enfermedad es del 11.3%, obtén la sensibilidad, especificidad, y los valore predictivos. ¿Qué podemos decir del nuevo test?
Copyright © 2018 Javier Morales. Universidad Miguel Hernández de Elche.