Objetivo

Determinar la probabilidad condicional

Descripción

De un conjunto de varios ejercicios extraídos de de la literatura de probabilidad de entre libros y sitios WEB se de termina la probabilidad condicional a partir de datos iniciales.

Lo datos iniciales pueden ser la frecuencias, las probabildiad de evento A y evento B así como la probabilidad de intersección entre ambos eventos o conjunto, con ello se determina la probabilidad condicional utilizando la fórmula que se cita más adelante.

Fundamento teórico

La probabilidad y la estadística están relacionadas en una forma importante. La probabilidad se emplea como herramienta; permite que se evalúe la confiabilidad de las conclusiones acerca de la población cuando tenga sólo información muestral [@mendenhall2010].

Por otra parte, la probabilidad indica el grado de certidumbre o certeza de un suceso o fenómeno estudiado, en la investigación científica existen muchos fenómenos en los cuales es necesario determinar la probabilidad de que un evento ocurra o dejen de ocurrir, para lo cual el estudio de este campo, es necesario, además tiene aplicaciones muy importantes en investigación; dado que es base para la inferencia estadística que permite el estudio de muestras con el objetivo de inferir o extrapolar características de estas a una población.[@benitez_morales_probabilidad_nodate]

Axiomas de la probabilidad

Un axioma de probabilidad es el componente principal de un sistema de condiciones que deben cumplirse y junto con las pautas de inferencia especifican un sistema deductivo, para que una función determinada sobre un conjunto de eventos determine sus probabilidades.

Existe un conjunto de axiomas que fueron formulados por el matemático ruso Kolmogórov. Por lo que se les denomina axiomas de Kolmogórov.[@cevallos_enfoque_2018]

Axioma 1

La probabilidad de un evento E no es negativa y debe ser menor o igua a 1 \[ 0 < p(E) < 1 \]

Significa que al determinar una probabilidad sobre cualquier evento siempre es cero o superior y menor o gual a uno.

Ejemplo: Pensar en la probabilidad de que llueva el dia de hoy: es probable que no llueva, probabilidad igual a cero; es probable que llueva en 0.50 o del 50%; y de que sea seguro que llueva 1 o 100%.

La probabilidad de un evento seguro es igual a 1 y se denota \[P(Evento Seguro) = 1\]

Ejemplo: En la mano cerrada se tienen dos monedas de a peso Mexicano, si es abre el puño y se extrae una moneda, ¿que tan probable es que sea de a un peso?. La probabilidad es de 1 o del 100% porque es indudable que al sacar la moneda sea de a un peso y únicamente sea a 1 un peso.

Axioma 2

Si dos eventos son mutuamente excluyentes, la probabilidad de obtener A o B es igual a la probabilidad de obtener A más la probabilidad de obtener B.

\[ P(A \cup B) = P(A) + P(B) \]

Ejemplo. si se lanz una moneda al aire, ¿cuál es la probabilidad de que caiga águila o sello?. en ambos casos 1/2 o 0.5 o el 50% de que al caer la moneda, la cara arriba sea sello o águila. \[ P(sello) = 1/2 \] \[ P(aguila) = 1/2 \]

\[\therefore\] \[ P(sello\cup aguila) = P(sello) + P(aguila) = 1/2+1/2 = 1 \]

En general se puede decir que la suma de las probabilidades de todos los posibles eventos mutuamente excluyentes es igual a 1. \[ \sum _{i=1}^{n}P(E) = P(E_{1})+P(E_{2})+P(E_{3})+....P(E_{n}) = 1) \]

Axioma 3

Si A es un evento cualquiera de un experimento aleatorio y A’ es el complemento de A, entonces:

\[ P(A) = X \] \[ \therefore \] \[ P(A)'= 1 - P(A) = 1 - X \]

o también se puede expresar matemáticamente como: \[ P(A)\complement = 1 - P(A) = 1 - X \]

Ejemplo: Si de un total de personas existen un \(60\%\) del género femenino, ¿cuál es el complemento de ese subconjunto? y ¿su probabilidad?. \[ P(mujeres) = 0.60 \]

\[ P(mujeres)' = 1 - 0.60 = 0.40 \]

o el \(40\%\) es el complemento del subconjunto mujeres.

Suponiendo que \(P(A)\) y \(P(B)\) representan las probabilidades para los dos eventos \(A\) y \(B\), entonces \(P(A \cup B)\) significa la probabilidad de que ocurran A o B. Entonces la \(P(A \cup B) \neq 0\)

Si no hay elementos en común entre un conjunto A y B entonces se dice que la probabilidad de la intesección entre ambos es cero \(P(A\cap B) = 0\)

En dado caso de que si existan elementos en común entre un subconjunto \(A\) y \(B\) \(\therefore\) \[ P(A \cup B) = P(A) + P(B) - P(A\cap B) \]

El cálculo de las probabilidades se determina en el entendido de que si se conoce el número de casos de un subconjunto y el número total de casos del universo, la probabilidad es determinando la frecuencia relativa.

\[ P(conjunto) = casos / n \]

siendo \(casos\) la frecuencia y \(n\) el total de elementos de un universo.

Ejemplo: En el caso del ejemplo de las 100 personas y existen 40 hombres, ¿Cuál es la probabilidad de elegir a una persona y que ésta se del género masculino?: \[ n = 100 \]

\[ casos = 40 \]

\[ \therefore \]

\[ P(hombres) = \frac{casos}{n} = \frac{40}{n} = 0.40 \]

La probabilidad de elegir a una persona del género masculino dentro de un conjunto de 100 personas es del \(40\%\)

Probabilidad Condicional

De acuerdo a [@benitez_morales_probabilidad_nodate] se conoce como probabilidad condicional a la probabilidad de que se dé un suceso \(A\), conociendo, que también se da un suceso \(B\)

En el libro de [@mendenhall_introduccion_2010] se menciona que la probabilidad de un evento \(A\), dado que el evento \(B\) ha ocurrido, se denomina probabilidad condicional de \(A\), dado que \(B\) ha ocurrido, denotada por \[ P(A | B) \]

La fórmula de la probabilidad condicional está dada por la división de la probabilidad de la intersección de dos conjuntos o eventos entre la probabilidad del segundo evento o del segundo conjunto; se muestra de la siguiente manera:

\[ P(A | B) = \frac{P(A \cap B)}{P(B)} \]

ó bien por el contrario \[ P(B | A) = \frac{P(B \cap A)}{P(A)} \]

Siempre y cuando en ambos casos la \(P(B)\ne0\) y \(P(A) \ne0\)

Ejemplo: Se sabe que el 50% de la población fuma y que el 10% fuma y es hipertensa. ¿Cuál es la probabilidad de que un hipertenso sea fumador? o ¿Cuál es la probabilidad de que una persona sea hipertensa dado que es fumador?, se entiende que dado que sea fumador.[@anderson_estadistica_2008]

\[ A = \{hipertensos\} \]

\[ B=\{fumadores\} \]

Se busca encontrar: \[ P(A | B) = \text{hipertenso dado que sea fumador\}\therefore P(A | B) = ? \]

\[ B = \{fumadores\}\therefore P(B) = 0.50 \]

\[ P(A \cap B) = \{hipertenso.y.fumador\} = 0.10 \]

\[ \therefore \]

\[ P(A | B) = \frac{P(B \cap A)}{P(A)} = \frac{0.10}{0.50} = 0.20 \therefore \]

La probabilidad de que se elija a una persona que sea hipertensa dado que es fumador es de \(0.20\) o del \(20\%\)

Desarrollo

Se presentan ejercicios probabilidad condicional

Las librerías

Se carga la librería knitr previa instalación con install.packages(“knitr”) que permite entre otras cosas, dar formato a las tablas de datos.

library(knitr)

Ejercicio 1. Probabilidad A|B y probabilidad B|A

Extraído de [@matemovil_probabilidad_nodate]

\[P(A) = 0.60 \] \[P(B) = 0.40\]

\[P(A∩B) = 0.18\]

Calcular:

  • P(A|B)

\[P(A | B) = \frac{P(A \cap B)}{P(B)} = \frac{0.18}{0.40}=0.45\]

prob.A <- 0.60
prob.B <- 0.40
prob.A.Inter.B <- 0.18
prob.B.Inter.A <- prob.A.Inter.B # La misma

Entonces: \(P(A | B)\)

Prob.A.dado.B <- prob.A.Inter.B / prob.B
paste("La pobabilidad de que se de A dado B es: ", Prob.A.dado.B * 100, "%")
## [1] "La pobabilidad de que se de A dado B es:  45 %"
  • P(B|A) \[P(B | A) = \frac{P(B \cap A)}{P(A)} = \frac{0.18}{0.60}=0.3\]

Entonces: \(P(B | A)\)

Prob.B.dado.A <- prob.B.Inter.A / prob.A
paste("La pobabilidad de que se de A dado B es: ", Prob.B.dado.A * 100, "%")
## [1] "La pobabilidad de que se de A dado B es:  30 %"

Ejercicio 2 Hombres y mujeres trabajan y desempleados

Ejercicio tomado del libro de [@walpole_probabilidad_2007]

Se identifican las frecuencias de personas que trabajan y no trabajan hombre y mujeres en una ciudad pequeña X:

Hombre Empleado Desempleado Total
Hombre 460 40 500
Mujer 140 260 400
Total 600 300 900
hombres.trabajan = 460
hombres.no.trabajan = 40
mujeres.trabajan = 140
mujeres.no.trabajan = 260
n.personas <- sum(hombres.trabajan, hombres.no.trabajan, mujeres.trabajan, mujeres.no.trabajan)
n.trabajan <- sum(hombres.trabajan, mujeres.trabajan)
  • Construir un conjunto de datos con los totales usando funcion apply() que genera los márgenes totales por renglón y por columna.
  • La funciones cbind() agrega una nueva columna al conjunto de datos
  • La función rbind() agrega un nuevo renglón al conjunto de datos
datos <- data.frame(Empleado = c(hombres.trabajan, mujeres.trabajan), Desempleado = c(hombres.no.trabajan, mujeres.no.trabajan))
kable(datos, caption = "Personas que trabajan y no trabajan")
Personas que trabajan y no trabajan
Empleado Desempleado
460 40
140 260
datos <- cbind(datos, Total = apply(datos, 1, sum))
datos <- rbind(datos, apply(datos, 2, sum))
rownames(datos) <- c("Hombre", "Mujer", "Total")
kable(datos, caption = "Totales de personas (hombres y mujeres) que trabajan y no trabajan")
Totales de personas (hombres y mujeres) que trabajan y no trabajan
Empleado Desempleado Total
Hombre 460 40 500
Mujer 140 260 400
Total 600 300 900

Uno de estos individuos se seleccionará al azar para que realice viaje a través del país para promover las ventajas de establecer industrias nuevas en la ciudad (Durango, México). Nos interesaremos en los eventos siguientes:

  • se elige a un hombre y el elegido tiene empleo o trabajo.

Entonces se elige a un hombre que trabaja (numerador de la fórmula de probabilidad condicional):

\[P(hombres.y.trabajan) = P(hombres \cap trabajan)=n(hombres.trabajan) / n.personas \therefore\]

\[P(hombres \cap trabajan) = 460/900 = 0.51\]

Objetivo

Calcular e interpretar probabilidades mediante el teorema de Bayes.

Descripción

Cargar librerías necesarias, establecer el fundamento teórico, definir fórmula del teorema de Bayes y construir e interpretar ejercicios mediante Teprema de Bayes.

Fundamento Teórico

Ley de Multiplicación para eventos independientes

La Ley de la Multiplicación es útil para calcular la probabilidad de la intersección de dos eventos.

La ley de la multiplicación se basa en la definición de probabilidad condicional.

Se multiplican las probabilidades, y en este caso teniendo las probabilidades identificadas en el árbol se determinan mediante su multiplicación.

Teorema de Bayes

El teorema de Bayes es un método que se usa en probabilidad el cual es útil para encontrar una probabilidad condicionada, esto quiere decir que se calcula la probabilidad de un suceso cuando ya ha ocurrido otro suceso que afecta la probabilidad del primer suceso [@fhybear].

Por otra parte, el teorema de Bayes se usa cuando hay múltiples sucesos que están relacionados, una herramienta que se usa para poder entender mejor las relaciones que hay entre sucesos son los diagramas de árbol identificados en este documento.

Probabilidad Apriori

Se asume que los eventos E y NE son mutuamente excluyentes y colectivamente exhaustivos (se complementan o se asocian), y E y NE se refieren a cualquiera de ambos eventos. De ahí que en este caso E y EN sean complementos. [@lind2015].

Suponga que el 5% de un pais tiene o padece una enfermedad. Sea E el evento “padece la enfermedad” y EN el evento “no padece la enfermedad”. Por lo tanto, si selecciona al azar a una persona de ese País ficticio, la probabilidad de que el individuo elegido padezca la enfermedad es de 0.05 \(P(E) = 0.05\) o 5%.

Esta probabilidad, \(P(E) = P(\text{padece la enfermedad}) = 0.05\), recibe el nombre de probabilidad a priori, es deir, la que está basada en el nivel de información actual.[@lind2015].

Entonces, la probabilidad a priori de que una persona no padezca la enfermedad es de \(0.95\), o \(P(EN) =0.95\), que se calcula mediante la resta \(1 - 0.05\)

Probabilidad A Posteriori

Este este mismo ejemplo, existen pruebas para verificar si las personas tienen esa enfermedad, la prueba de diagnóstico para detectar la enfermedad, no es muy precisa. Sea PP
el evento “la prueba revela la presencia de la enfermedad”.

Suponga que la evidencia histórica muestra que si una persona padece realmente la enfermedad, la probabilidad de que la prueba indique su presencia es de \(0.90\) por lo que la prueba resulta en \(0.10\) de que negativa a personas que si la padecen.
Luego existe evidencia en las pruebas de que hay un \(P(Pos) = 15\)% de pruebas positivas a personas que no padecen la enfermedad y por consecuencia un \(P(Neg)=85\)% de pruebas negativas a personas que no la padecen.

Para este ejemplo, las probabilidades indican que la enfermedad existe, sin embargo, la pregunta es: ¿Cuál es la probabilidad de que una persona realmente padezca la enfermedad?

De forma simbólica se necesita \(P(E | Pos)\) o lo que es lo mismo de acuerdo a la propiedad multiplicativa de eventos independientes \(P(E \cap Pos) = P(E)\cdot P(Pos)\).

A esto se le conoce como probabilidad A posteriori y es la base para el Teorema de Bayes.

Diagrama de árbol de Enermedad y Pruebas

Así que la probabilidad de que una persona padezca la enfermedad, dado que la prueba fue positiva es de 0.24.

Esto se interpreta de la siguiente manera: si se le somete a la prueba y resulta positiva, la probabilidad de que la persona padezca realmente la enfermedad se incrementa cinco veces, de 0.05 a 0.24.

\[ P(E|Pos) = \frac{P(E)\cdot P(E\cdot Pos)}{(P(E)\cdot P(E\cdot Pos) + P(NE)\cdot P(NE\cdot Pos))}\therefore \]

\[ P(E|Pos) = \frac{0.05\cdot 0.95}{0.05\cdot 0.95 + 0.95\cdot 0.15} = \frac{0.0450}{0.1875} = 0.24 \]

Fórmula del teorema de Bayes

\[ p(A_i|B) = \frac{p(A_i) \cdot p(B|A_i)}{\sum_{i=1}^np(A_i) \cdotp(B|A_i)} \]

Con el teorema de Bayes se calcula la probabilidad haciendo preguntas a la inversa, si la pregunta se hace al revés, es decir:

Ejemplo:

Sectores

Existen tres sectores en donde trabajan las personas

  • Hay una probabilidad de que en el sector servicios trabaje 40%(0.40) de las personas

  • Hay una probabilidad de que en el sector salud trabaje 35%(0.35) de las personas

  • Hay una probabilidad de que en el sector otros trabaje 25%(0.25) de las personas

La suma debe dar 100% o 1

P.Servi <- 0.40
P.Salud <- 0.35
P.Otros <- 0.25

Eventos Mujeres y Hombres de cada sector

Se dan las probabilidades de que sea de algún género en función del servicio.

Sector Servicios

  • En el sector Servicios la probabilidad de que sea Mujer es del 0.30

  • En el sector Servicios la probabilidad de que sea Hombre es del 0.70

P.Servi.Mujer <- 0.30
P.Servi.Hombre <- 0.70
P.Servi.Mujer; P.Servi.Hombre
## [1] 0.3
## [1] 0.7

Sector Salud

  • En el sector Salud la probabilidad de que sea Mujer es del 0.60

  • En el sector Salud la probabilidad de que sea Hombre es del 0.40

P.Salud.Mujer <- 0.60
P.Salud.Hombre <- 0.40
P.Salud.Mujer; P.Salud.Hombre
## [1] 0.6
## [1] 0.4

Sector Otros

  • En el sector Otros la probabilidad de que sea Mujer es del 0.45

  • En el sector Otros la probabilidad de que sea Hombre es del 0.55

P.Otros.Mujer <- 0.45
P.Otros.Hombre <- 0.55
P.Otros.Mujer; P.Otros.Hombre
## [1] 0.45
## [1] 0.55

Árbol de probabilidades

Cálculo de probabilidades.

De de acuerdo a ley mutiplicativa para eventos independientes para encontrar \(P(A\cap B) = P(A)\cdot P(B) \therefore\)

¿Cuál es la probabilidad que si se selecciona a alguien que se a del sector salud, este es hombre?

P.Salud_y_Hombre <- P.Salud * P.Salud.Hombre
P.Salud_y_Hombre
## [1] 0.14

¿Cuál es la probabilidad que si se selecciona a alguien que se hombre, este es del sector Salud?

El numerador es el producto de la probabilidad de A y B, el denominador es la probabilidad total.

\[ P(Hombre|Salud)\frac{P(Salud)\cdot P(Salud\cap Hombre)}{(P(Serv)\cdot P(Serv \cap Hombre) + P(Salud)\cdot P(Salud \cap Hombre) + P(Otros)\cdot P(Otros \cap Hombre))} \]

Numerador
P.Salud_y_Hombre <- P.Salud * P.Salud.Hombre
P.Salud_y_Hombre
## [1] 0.14
Denominador

Es la probabilidad total con respecto a que se hombre

P.Servicio_y_Hombre <- P.Servi * P.Servi.Hombre
P.Salud_y_Hombre <- P.Salud * P.Salud.Hombre
P.Otro_y_Hombre <- P.Otros * P.Otros.Hombre
P.Total <- P.Servicio_y_Hombre + P.Salud_y_Hombre + P.Otro_y_Hombre 
P.Total
## [1] 0.5575

La probabilidad es:

Prob <- P.Salud_y_Hombre / P.Total
Prob <- Prob * 100

Significa que la probabilidad de elegir aleatoriamente una persona que sea Hombre y que sea del sector Salud o que está en función del sector salud es del 25.1121%.

¿Cuál es la probabilidad que si se selecciona a alguien que se mujer, este es del sector Salud?

\[ P(Mujer|Salud)\frac{P(Salud)\cdot P(Salud\cap Mujer)}{(P(Serv)\cdot P(Serv \cap Mujer) + P(Salud)\cdot P(Salud \cap Mujer) + P(Otros)\cdot P(Otros \cap Mujer)} \]

Numerador
P.Salud_y_Mujer <- P.Salud * P.Salud.Mujer
P.Salud_y_Mujer
## [1] 0.21
Denominador

Es la probabilidad total con respecto a que se hombre

P.Servicio_y_Mujer <- P.Servi * P.Servi.Mujer
P.Salud_y_Mujer <- P.Salud * P.Salud.Mujer
P.Otro_y_Mujer <- P.Otros * P.Otros.Mujer
P.Total <- P.Servicio_y_Mujer + P.Salud_y_Mujer + P.Otro_y_Mujer
P.Total
## [1] 0.4425

La probabilidad es:

Prob <- P.Salud_y_Mujer / P.Total
Prob <- Prob * 100

Significa que la probabilidad de elegir aleatoriamente una persona que sea Mujer y que sea del sector Salud o que está en función del sector salud es del 47.4576%.

Desarrollo

Hacer los ejercicios siguientes:

Cargar librerías

# Pendiente
# No hay librerías a cargar

Encuesta género y deporte

Se hizo una encuesta a un grupo grande de personas donde se les preguntaba el genero y si ellos practicaban algún deporte o hacían ejercicio en general, los resultados de la encuesta fueron los siguientes: el 40% por ciento de los encuestados eran hombres y el 60% eran mujeres, de los cuales el 80% de los hombres y el 50% de las mujeres hacían ejercicios.

Árbol de probabilidades

Inicializando variables en R

Hombre o Mujer

P.H <- 0.40
P.M <- 0.60

Practican deporte [SD =Si | ND= No]

P.SD_H <- 0.80
P.ND_H <- 0.20
P.SD_M <- 0.50
P.ND_M <- 0.50

\[ P(Hombre|Deporte)= \frac{P(Hombre\cap SI.Deporte)}{P(Hombre \cap SI.Deporte) + P(Mujer \cap SI.Deporte) } \]

Numerador

P.H_y_SI <- P.H * P.SD_H
P.H_y_SI
## [1] 0.32

Denominador

P.H_y_SI <- P.H * P.SD_H
P.M_y_SI <- P.M * P.SD_M
P.Total <- P.H_y_SI + P.M_y_SI
P.Total
## [1] 0.62

La probabilidad es:

Prob <- P.H_y_SI / P.Total
Prob <- Prob * 100
Prob
## [1] 51.6129

Significa que la probabilidad de elegir aleatoriamente una persona que SI practique Deporte y que sea Hombre es del 51.6129%

Interpretación

Calcular y demostrar la probabilidad medante teorema de Bayes del siguiente ejercicio:

Un fabricante de teléfonos celulares compra un microchip en particular denominado “LS-24” a 3 proveedores Hall Electronics, Schuller Sales,y Crawford Components.

Del total de piezas 30% la adquiere Hall Electronics; 20% de Schuller Sales y el restante 50% de crawford.

El fabricante cuenta con amplias historiales con los 3 proveedores y reconoce los porcentajes de defecto de los dispositivos de cada proveedores: 3% Hall Electronics 5% Schuller sales 4% Crawford Componens

Cuando el fabricante recibe el material y lo lleva directamente a un depósito y no lo inspecciona ni lo identifica con el nombre de proveedor.

Un trabajador selecciona un microchip para instalarlo y lo encontró defectuoso. ¿Cual es la probabibilidad que lo hayan fabricado Schuler Sales?

P_Hall <- 0.3
P_Schuller <- 0.2
P_Crawford <- 0.5

P_def_Hall <- 0.03
P_def_Schuller <- 0.05
P_def_Crawford <- 0.04

P_def_total <- P_def_Hall * P_Hall + P_def_Schuller * P_Schuller + P_def_Crawford * P_Crawford
P_A_dado_B <- P_def_Schuller
P_B <- P_Schuller
P_A <- P_def_total
P_B_dado_A <- (P_A_dado_B * P_B / P_A * 100)
paste("La probabilidad de que el microchip defectuoso fuera fabricado por Schuller Sales es de ", P_B_dado_A, "%")
## [1] "La probabilidad de que el microchip defectuoso fuera fabricado por Schuller Sales es de  25.6410256410256 %"