Objetivo

Resolver cuestiones de casos de probabilidad en casos mediante la identificación de variables aleatorias, funciones de probabilidad,funciones acumuladas, media, varianza y desviación estándar de distribuciones de variables discretas; visualización gráfica relacionada con variables discretas.

Descripción

Desarrollar ejercicios relacionados con variables discretas para identificar variables discretas, las funciones de probabilidad de cada variable, la función acumulada, su visualización gráfica para su correcta implementación.

Se incluye en el caso, media, varianza y desviación estándar de distribuciones de variables discretas.

Los casos son identificados de la literatura relacionada con variables aleatorias discretas. Se deben elaborar tres ejercicios en este caso 13 encontrados en la literatura que se encuentran en el caso 14.

Marco de referencia

Una variable aleatoria es una descripción numérica del resultado de un experimento (anderson2008c?).

Las variables aleatorias deben tomar valores numéricos. En efecto, una variable aleatoria asocia un valor numérico a cada uno de los resultados experimentales.

El valor numérico de la variable aleatoria depende del resultado del experimento. Una variable aleatoria puede ser discreta o continua, depende del tipo de valores numéricos que asuma.(Anderson, Sweeney, and Williams 2008).

Para este documento se tratan únicamente variables del tipo discreta.

En cualquier experimento aleatorio, los resultados se presentan al azar; así, a este se le denomina variable aleatoria. Por ejemplo, lanzar un dado constituye un experimento: puede ocurrir cualquiera de los seis resultados posibles. Cada valor de la variable aleatoria se relaciona con una probabilidad que indica la posibilidad de un resultado determinado (Lind, Marchal, and Wathen 2015a).

En su libro (Walpole, Myers, and Myers 2012) define que una variable aleatoria es una función que asocia un número real con cada elemento del espacio muestral.

Una función de probabilidad, una función de masa de probabilidad o una distribución de probabilidad de la variable aleatoria discreta X si, para cada resultado x posible.

Toda función de probabilidad debe ser mayor o igual que $0$. \[f(x) \geq 0\]
La suma de las probabilidad de todas las variables $x$ debe ser igual a $1$ o la suma de los valores de cada función de probabilidad con respecto a $x$ debe ser $1$ \[\sum _xf(x) = 1\]
La probabilidad de cada variable $x$ es igual a la función de probabilidad con respeto a $x$ \[P(X=x) = f(x)\] (Walpole, Myers, and Myers 2012).

Por otra parte, la función de la distribución acumulativa F(x) ó probabilidad acumulada de una variable aleatoria discreta $X$ con distribución de probabilidad $f(x)$ está dada por la suma de sus probabilidades de $t$ siendo $t$ menor o igual a $x$. Es decir, la probabilidad acumulada suma los valores de las funciones de probabilidad a partir del valor inicial de $x$. El valor final con respecto a valor final de $x$ debe ser igual a 1. \[F(x)=P(X \le x) = \sum_{t \le x}f(t)\] (Walpole, Myers, and Myers 2012).

La media de una distribución discreta es también recibe el nombre de valor esperado. Se trata de un promedio ponderado de los posibles valores de una variable aleatoria se ponderan con sus correspondientes probabilidades de ocurrencia (Lind, Marchal, and Wathen 2015a)

La fórmula para el valor esperado es: \[\mu = \sum x \cdot P(x)\]

La varianza de una distribución discreta constituye un valor típico para resumir una distribución de probabilidad discreta, describe el grado de dispersión (variación) en una distribución (Lind, Marchal, and Wathen 2015a).

Su fórmula es: \[\alpha^2 = \sum(x-\mu)^2\cdot P(x)\]

La fórmula anterior significa:

La media se resta de cada valor de la variable aleatoria y la diferencia se eleva al cuadrado.

Cada diferencia al cuadrado se multiplica por su probabilidad.

Se suman los productos resultantes para obtener la varianza.

La desviación estándar, $\alpha$, se determina al extraer la raíz cuadrada positiva de $\alpha^2$; es decir, $\alpha = \sqrt{\alpha^2}$ (Lind, Marchal, and Wathen 2015a).

Desarrollo

Cargar librerías

Posiblemente se utilicen algunas de ellas

library(ggplot2)
library(stringr)  # String
library(stringi)  # String
library(gtools)
library(dplyr)
library(knitr)
options(scipen = 999) # Notación normal

Ejercicios

Para cada ejercicio algunos vistos en el caso anterior y otros nuevos para este caso, se describe y define su contexto.
Se construye su tabla de probabilidad que contenga los valores de la variable aleatoria, la función de probabilidad y su función acumulada, la gráfica de barra de los valores de las variables aleatoria y la gráfica lineal de la función acumulada.
Con la tabla de probabilidades en algunos ejercicios se determinan y calculan probabilidades.
Se determina el valor esperado de cada ejercicio
Se determina la varianza y la desviación estándar de la distribución de las variables discretas.

Billetes para rifa

Se venden 5000 billetes para una rifa a 1 euro cada uno. Existe un único premio de cierta cantidad, calcular los valores de las variables aleatorias y sus probabilidades para 0 para no gana y 1 para si gana cuando un comprador adquiere cincuenta billetes. (Hero, n.d.).

Tabla de probabilidad

discretas <- c(0,1)   # 0 Que no gane, 1 que gane
n <- 5000 # sum(casos)
casos <- c(4950,50)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades)   # Acumulada
tabla <- data.frame(x=discretas, 
              casos = casos,
              f.prob.x = probabilidades,
              F.acum.x = acumulada,
              x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado")

Tabla de probabilidad con la columna para valor esperado
x	casos	f.prob.x	F.acum.x	x.f.prob.x
0	4950	0.99	0.99	0.00
1	50	0.01	1.00	0.01

Valor esperado

Se determina el valor esperado de acuerdo a la fórmula: \[\mu = \sum xP(x)\]

VE es el valor esperado

# VE <- sum(tabla$x * tabla$f.prob.x)
VE <- sum(tabla$x.f.prob.x)
VE

## [1] 0.01

El valor esperado significa la media ponderada de las probabilidades o lo que es lo mismo es lo que se puede esperar.

Significa muy muy muy …. remoto la probabilidad de ganar en el sorteo de 5000 boletos 0.01

Varianza

Agregando columna para obtención de la varianza a partir de los datos de la tabla previamente generada.

tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
#tabla 
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")

Tabla de probabilidad con valor esperado y columnas para varianza
x	casos	f.prob.x	F.acum.x	x.f.prob.x	VE	x-VE.cuad.f.prob.x
0	4950	0.99	0.99	0.00	0.01	0.000099
1	50	0.01	1.00	0.01	0.01	0.009801

\[\alpha^2 = \sum(x-\mu)^2P(x)\]

varianza = varianza de la distribución

varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza

## [1] 0.0099

Desviación estándard de una distribución discreta

La raiz cuadrada de la varianza \[\alpha = \sqrt{ \alpha^2 }\]
desv.std = desviación estándard

desv.std <- sqrt(varianza)
desv.std

## [1] 0.09949874

La tabla con las sumatorias

tabla.sumatorias <- rbind(tabla, apply(tabla, 2, sum))
tabla.sumatorias[nrow(tabla.sumatorias), c(1,4,6)] <- '****'
kable(tabla.sumatorias, caption = "Tabla de probabilidad con sumatorias")

Tabla de probabilidad con sumatorias
x	casos	f.prob.x	F.acum.x	x.f.prob.x	VE	x-VE.cuad.f.prob.x
0	4950	0.99	0.99	0.00	0.01	0.000099
1	50	0.01	1	0.01	0.01	0.009801
****	5000	1.00	****	0.01	****	0.009900

Gráfica de barra

ggplot(data = tabla, aes(x = x, y=f.prob.x, fill=x)) +
  geom_bar(stat="identity")

Gráfica lineal acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point(colour="black") + 
  geom_line(colour="orange")

Automóviles de Pelican Ford

Un vendedor llamado John Rasgdale vende la mayor cantidad de automóviles el sábado, así que desarrolló la siguiente distribución de probabilidades, en la cual se muestra la cantidad de automóviles que espera vender un sábado determinado.

La variable discreta venta de automóviles: $0,1,2,3,4$ el sábado. Los valores de la probabilidad son : $0.1, 0.2, 0.3, 0.3, 0.1$, previamente definidos.
Ya se dan las probabilidades de tal forma que la cantidad de casos no se dispone en este ejercicio.
¿De qué tipo de distribución se trata?, variables discretas
¿Cuántos automóviles espera vender John un sábado normal?
¿Cuál es la varianza de la distribución? (Lind, Marchal, and Wathen 2015a).

Tabla de probabilidad

discretas <- 0:4   
casos <- rep(0, 5)
probabilidades <- c(0.1, 0.2, 0.3, 0.3, 0.1)
acumulada <- cumsum(probabilidades)   # Acumulada
tabla <- data.frame(x=discretas, 
              casos = casos,
              f.prob.x = probabilidades,
              F.acum.x = acumulada,
              x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado (sin número de casos)")

Tabla de probabilidad con la columna para valor esperado (sin número de casos)
x	f.prob.x	F.acum.x	x.f.prob.x
0	0.1	0.1	0.0
1	0.2	0.3	0.2
2	0.3	0.6	0.6
3	0.3	0.9	0.9
4	0.1	1.0	0.4

Cálculo de probabilidades

¿Cuál es la probabilidad de que se vendan DOS automóviles, es decir $f(x=2)$ ó $P(x=2)$?, 30%

filter(tabla, x == 2 ) %>%
  select(x, f.prob.x)

##   x f.prob.x
## 1 2      0.3

¿Cuál es la probabilidad de que se vendan MENOS DE DOS automóviles, es decir $f(x< 2)$ ó $P(x<2)$ ? 30%

\[ \sum P(x=0) + P(x=1) \]

filter(tabla, x < 2 ) %>%
  select(x, f.prob.x, F.acum.x)

##   x f.prob.x F.acum.x
## 1 0      0.1      0.1
## 2 1      0.2      0.3

¿Cuál es la probabilidad de que se vendan MAS DE DOS automóviles, es decir $f(x> 2)$ ó $P(x>2)$ ? 40%

\[ \sum P(x=3) + P(x=4) \text{ ó } \]

\[ 1 - \sum P(x=0) + P(x=1) + P(x=2) \]

filter(tabla, x > 2 ) %>%
  select(x, f.prob.x, F.acum.x)

##   x f.prob.x F.acum.x
## 1 3      0.3      0.9
## 2 4      0.1      1.0

Valor esperado

Se determina el valor esperado de acuerdo a la fórmula: \[\mu = \sum x \cdot P(x)\]

VE es el valor esperado

VE <- sum(tabla$x * tabla$f.prob.x)
VE

## [1] 2.1

El valor esperado significa la media ponderada de las probabilidades o lo que es lo mismo es lo que se puede esperar.

Varianza

Agregando columna para obtención de la varianza a partir de los datos de la tabla previamente generada.

tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza  (sin número de casos)")

Tabla de probabilidad con valor esperado y columnas para varianza (sin número de casos)
x	f.prob.x	F.acum.x	x.f.prob.x	VE	x-VE.cuad.f.prob.x
0	0.1	0.1	0.0	2.1	0.441
1	0.2	0.3	0.2	2.1	0.242
2	0.3	0.6	0.6	2.1	0.003
3	0.3	0.9	0.9	2.1	0.243
4	0.1	1.0	0.4	2.1	0.361

\[\alpha^2 = \sum(x-\mu)^2\cdot P(x)\]

varianza = varianza de la distribución

varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza

## [1] 1.29

Desviación estándar de una distribución discreta

La raiz cuadrada de la varianza \[\alpha = \sqrt{ \alpha^2 }\]
desv.std = desviación estándard

desv.std <- sqrt(varianza)
desv.std

## [1] 1.135782

La tabla con las sumatorias

tabla.sumatorias <- rbind(tabla, apply(tabla, 2, sum))
tabla.sumatorias[nrow(tabla.sumatorias), c(1,2,4,6)] <- '****'
kable(tabla.sumatorias, caption = "Tabla de probabilidad con sumatorias,(sin número de casos)")

Tabla de probabilidad con sumatorias,(sin número de casos)
x	casos	f.prob.x	F.acum.x	x.f.prob.x	VE	x-VE.cuad.f.prob.x
0	0	0.1	0.1	0.0	2.1	0.441
1	0	0.2	0.3	0.2	2.1	0.242
2	0	0.3	0.6	0.6	2.1	0.003
3	0	0.3	0.9	0.9	2.1	0.243
4	0	0.1	1	0.4	2.1	0.361
****	****	1.0	****	2.1	****	1.290

Gráfica de barra

ggplot(data = tabla, aes(x = x, y=f.prob.x, fill=x)) +
  geom_bar(stat="identity")

Gráfica lineal acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point(colour="black") + 
  geom_line(colour="orange")

Solicitudes de puestos de hombres y mujeres

Una compañía tiene cinco solicitantes para dos puestos de trabajo: dos mujeres y tres hombres. Suponga que los cinco solicitantes son igualmente calificados y que no hay preferencia para elegir su género al igual que no importa el orden de género de hombres y mujeres (combinaciones).

Sea $x$ la variable aleatoria discreta al número de mujeres elegidas para ocupar los dos puestos de trabajo. Encuentre las probabilidades para elegir 0 mujeres, 1 mujer o 2 mujeres. (mendenhall_introduccion_2010?).

Haciendo las combinaciones en donde $M = Mujer \text{ y }H = Hombre$

personas <- c("H1", "H2", "H3", "M1", "M2")
S.espacio.muestral <- combinations(n = 5, r = 2, v=personas)
S.espacio.muestral

##       [,1] [,2]
##  [1,] "H1" "H2"
##  [2,] "H1" "H3"
##  [3,] "H1" "M1"
##  [4,] "H1" "M2"
##  [5,] "H2" "H3"
##  [6,] "H2" "M1"
##  [7,] "H2" "M2"
##  [8,] "H3" "M1"
##  [9,] "H3" "M2"
## [10,] "M1" "M2"

De acuerdo al espacio muestral $n$ con diez elementos, ¿en cúantas ocasiones hay cero mujeres?, ¿en cuántas ocasiones hay una mujer? y en cuántas ocasiones hay dos mujeres?

discretas <- c(0, 1, 2)
casos <- c(3, 6, 1 )
n <- sum(casos)
probabilidades <- casos / n

Tabla de probabilidades

acumulada <- cumsum(probabilidades)   # Acumulada
tabla <- data.frame(x=discretas, 
              casos = casos,
              f.prob.x = probabilidades,
              F.acum.x = acumulada,
              x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado")

Tabla de probabilidad con la columna para valor esperado
x	casos	f.prob.x	F.acum.x	x.f.prob.x
0	3	0.3	0.3	0.0
1	6	0.6	0.9	0.6
2	1	0.1	1.0	0.2

Cálculo de probabilidades

¿Cuál es la probabilidad de que haya UNA MUJER?, es decir $P(X=1)$ ó $f(x=1)$ ? 60%

filter(tabla, x == 1 ) %>%
  select(x, f.prob.x)

##   x f.prob.x
## 1 1      0.6

¿Cuál es la probabilidad de que haya MENOS DE DOS MUJERES?, es decir $P(x=0) + P(x=1)$ ó $f(x<2)$ ? 90%

filter(tabla, x < 2 ) %>%
  select(x, f.prob.x, F.acum.x)

##   x f.prob.x F.acum.x
## 1 0      0.3      0.3
## 2 1      0.6      0.9

¿Cuál es la probabilidad de que haya MAS DE 1 MUJER O SEA DOS?, es decir $P(x=2)$ ó $f(x>1)$ ? 10%

filter(tabla, x > 1 ) %>%
  select(x, f.prob.x, F.acum.x)

##   x f.prob.x F.acum.x
## 1 2      0.1        1

Valor esperado

Se determina el valor esperado de acuerdo a la fórmula: \[\mu = \sum x \cdot P(x)\]

VE es el valor esperado

VE <- sum(tabla$x * tabla$f.prob.x)
VE

## [1] 0.8

Varianza

\[\alpha^2 = \sum(x-\mu)^2 \cdot P(x)\]

tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")

Tabla de probabilidad con valor esperado y columnas para varianza
x	casos	f.prob.x	F.acum.x	x.f.prob.x	VE	x-VE.cuad.f.prob.x
0	3	0.3	0.3	0.0	0.8	0.192
1	6	0.6	0.9	0.6	0.8	0.024
2	1	0.1	1.0	0.2	0.8	0.144

Calculando la varianza

varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza

## [1] 0.36

Desviación estándar

\[\alpha = \sqrt{ \alpha^2 }\]

Con la raiz cuadrada de la varianza se determina la desviación estándard de la distribución de variables aleatorias.

desv.std <- sqrt(varianza)
desv.std

## [1] 0.6

Tabla con sumatorias

tabla.sumatorias <- rbind(tabla, apply(tabla, 2, sum))
tabla.sumatorias[nrow(tabla.sumatorias), c(1,4,6)] <- '****'
kable(tabla.sumatorias, caption = "Tabla de probabilidad con sumatorias")

Tabla de probabilidad con sumatorias
x	casos	f.prob.x	F.acum.x	x.f.prob.x	VE	x-VE.cuad.f.prob.x
0	3	0.3	0.3	0.0	0.8	0.192
1	6	0.6	0.9	0.6	0.8	0.024
2	1	0.1	1	0.2	0.8	0.144
****	10	1.0	****	0.8	****	0.360

Gráfica de barra

ggplot(data = tabla, aes(x = x, y=f.prob.x, fill=x)) +
  geom_bar(stat="identity")

Gráfica lineal acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point(colour="black") + 
  geom_line(colour="orange")

Número de hijos de parejas

En la siguiente tabla se presenta la distribución del número de hijos de un grupo de 100 parejas (humanos): Ejercicio extraído de: (Descartes 2018).

variable aleatoria x No hijos	cantidad de parejas
0	15
1	40
2	23
3	10
4	7
5	4
6	1
Total parejas encuestadas	100

discretas <- c(0, 1, 2, 3, 4, 5, 6)
casos <- c(15, 40, 23, 10, 7, 4, 1 )
n <- sum(casos)
probabilidades <- casos / n

Tabla de probabilidades

acumulada <- cumsum(probabilidades)   # Acumulada
tabla <- data.frame(x=discretas, 
              casos = casos,
              f.prob.x = probabilidades,
              F.acum.x = acumulada,
              x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado")

Tabla de probabilidad con la columna para valor esperado
x	casos	f.prob.x	F.acum.x	x.f.prob.x
0	15	0.15	0.15	0.00
1	40	0.40	0.55	0.40
2	23	0.23	0.78	0.46
3	10	0.10	0.88	0.30
4	7	0.07	0.95	0.28
5	4	0.04	0.99	0.20
6	1	0.01	1.00	0.06

Cálculo de probabilidades

¿Cuál es la probabilidad de encontrar aletoriamente parejas con TRES HIJOS, es decir, $f(x=3)$ ó $P(x=3)$ 10%

filter(tabla, x == 3 ) %>%
  select(x, f.prob.x, F.acum.x)

##   x f.prob.x F.acum.x
## 1 3      0.1     0.88

¿Cuál es la probabilidad de encontrar aleatoriamente parejas con MENOS DE TRES HIJOS, es decir, $f(x<3)$ ó $\sum f(x={0,1,2})$ ó $\sum P(x=0) + P(x=1) + P(x=2)$ ó $F \text{ acumulada }(x)$

78%

filter(tabla, x < 3 ) %>%
  select(x, f.prob.x, F.acum.x)

##   x f.prob.x F.acum.x
## 1 0     0.15     0.15
## 2 1     0.40     0.55
## 3 2     0.23     0.78

¿Cuál es la probabilidad de encontrar aleatoriamente parejas con MAS DE TRES HIJOS, es decir, $f(x>3)$ ó $\sum f(x={4,5,6})$ ó $\sum P(x=4) + P(x=5) + P(x=6)$ ó $1 - F(x = 3)$; 12%

filter(tabla, x > 3 ) %>%
  select(x, f.prob.x, F.acum.x)

##   x f.prob.x F.acum.x
## 1 4     0.07     0.95
## 2 5     0.04     0.99
## 3 6     0.01     1.00

Valor esperado

Se determina el valor esperado de acuerdo a la fórmula: \[\mu = \sum x \cdot P(x)\]

VE es el valor esperado

VE <- sum(tabla$x * tabla$f.prob.x)
VE

## [1] 1.7

Varianza

\[\alpha^2 = \sum(x-\mu)^2 \cdot P(x)\]

tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")

Tabla de probabilidad con valor esperado y columnas para varianza
x	casos	f.prob.x	F.acum.x	x.f.prob.x	VE	x-VE.cuad.f.prob.x
0	15	0.15	0.15	0.00	1.7	0.4335
1	40	0.40	0.55	0.40	1.7	0.1960
2	23	0.23	0.78	0.46	1.7	0.0207
3	10	0.10	0.88	0.30	1.7	0.1690
4	7	0.07	0.95	0.28	1.7	0.3703
5	4	0.04	0.99	0.20	1.7	0.4356
6	1	0.01	1.00	0.06	1.7	0.1849

Calculando la varianza

varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza

## [1] 1.81

Desviación estándar

\[\alpha = \sqrt{ \alpha^2 }\]

Con la raiz cuadrada de la varianza se determina la desviación estándard de la distribución de variables aleatorias.

desv.std <- sqrt(varianza)
desv.std

## [1] 1.345362

Tabla con sumatorias

tabla.sumatorias <- rbind(tabla, apply(tabla, 2, sum))
tabla.sumatorias[nrow(tabla.sumatorias), c(1,4,6)] <- '****'
kable(tabla.sumatorias, caption = "Tabla de probabilidad con sumatorias")

Tabla de probabilidad con sumatorias
x	casos	f.prob.x	F.acum.x	x.f.prob.x	VE	x-VE.cuad.f.prob.x
0	15	0.15	0.15	0.00	1.7	0.4335
1	40	0.40	0.55	0.40	1.7	0.1960
2	23	0.23	0.78	0.46	1.7	0.0207
3	10	0.10	0.88	0.30	1.7	0.1690
4	7	0.07	0.95	0.28	1.7	0.3703
5	4	0.04	0.99	0.20	1.7	0.4356
6	1	0.01	1	0.06	1.7	0.1849
****	100	1.00	****	1.70	****	1.8100

Gráfica de barra

ggplot(data = tabla, aes(x = x, y=f.prob.x, fill=x)) +
  geom_bar(stat="identity")

Gráfica lineal acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point(colour="black") + 
  geom_line(colour="orange")

Lanzamiento de un dado

Se lanza un dado perfecto 240 veces, se anota el resultado obtenido en la cara superior obteniendo los siguientes resultados:

Cara superior	1	2	3	4	5	6
Número de veces	40	39	42	38	42	39

Inicializando variables

discretas <- c(1, 2, 3, 4, 5, 6)
casos <- c(40, 39, 42, 38, 42, 29)
n <- sum(casos)
probabilidades <- casos / n

Tabla de probabilidad

acumulada <- cumsum(probabilidades)
tabla <- data.frame(x=discretas, 
              casos = casos,
              f.prob.x = probabilidades,
              F.acum.x = acumulada,
              x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad")

Tabla de probabilidad
x	casos	f.prob.x	F.acum.x	x.f.prob.x
1	40	0.1739130	0.1739130	0.1739130
2	39	0.1695652	0.3434783	0.3391304
3	42	0.1826087	0.5260870	0.5478261
4	38	0.1652174	0.6913043	0.6608696
5	42	0.1826087	0.8739130	0.9130435
6	29	0.1260870	1.0000000	0.7565217

Cálculo de probabilidades

¿Cuál es la probabilidad de que el dado caiga un DOS, es decir $(x=2)$? 16.95% de probabilidad.

filter(tabla, x == 2 ) %>%
  select(x, f.prob.x, F.acum.x)

##   x  f.prob.x  F.acum.x
## 1 2 0.1695652 0.3434783

¿Cuál es la probabilidad de que el dado caiga en CUATRO, es decir $(x=4)$? 16.52% de probabilidad.

filter(tabla, x == 4 ) %>%
  select(x, f.prob.x, F.acum.x)

##   x  f.prob.x  F.acum.x
## 1 4 0.1652174 0.6913043

¿Cuál es la probabilidad de que el dado caiga MENOR QUE CUATRO, es decir $(x < 4)$? 52.60% de probabilidad.

filter(tabla, x < 4 ) %>%
  select(x, f.prob.x, F.acum.x)

##   x  f.prob.x  F.acum.x
## 1 1 0.1739130 0.1739130
## 2 2 0.1695652 0.3434783
## 3 3 0.1826087 0.5260870

¿Cuál es la probabilidad de que el dado caiga MAYOR QUE CUATRO, es decir $(x > 4)$? 30.86% de probabilidad.

filter(tabla, x > 4 ) %>%
  select(x, f.prob.x, F.acum.x)

##   x  f.prob.x F.acum.x
## 1 5 0.1826087 0.873913
## 2 6 0.1260870 1.000000

Valor esperado

VE <- sum(tabla$x * tabla$f.prob.x)
VE

## [1] 3.391304

Varianza

tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")

Tabla de probabilidad con valor esperado y columnas para varianza
x	casos	f.prob.x	F.acum.x	x.f.prob.x	VE	x-VE.cuad.f.prob.x
1	40	0.1739130	0.1739130	0.1739130	3.391304	0.9944933
2	39	0.1695652	0.3434783	0.3391304	3.391304	0.3282321
3	42	0.1826087	0.5260870	0.5478261	3.391304	0.0279609
4	38	0.1652174	0.6913043	0.6608696	3.391304	0.0612148
5	42	0.1826087	0.8739130	0.9130435	3.391304	0.4725734
6	29	0.1260870	1.0000000	0.7565217	3.391304	0.8580587

Calculo de la varianza

varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza

## [1] 2.742533

Desviación estándar

desv.std <- sqrt(varianza)
desv.std

## [1] 1.65606

Tabla de sumatorias

tabla.sumatorias <- rbind(tabla, apply(tabla, 2, sum))
tabla.sumatorias[nrow(tabla.sumatorias), c(1,4,6)] <- '****'
kable(tabla.sumatorias, caption = "Tabla de probabilidad con sumatorias")

Tabla de probabilidad con sumatorias
x	casos	f.prob.x	F.acum.x	x.f.prob.x	VE	x-VE.cuad.f.prob.x
1	40	0.1739130	0.173913043478261	0.1739130	3.39130434782609	0.9944933
2	39	0.1695652	0.343478260869565	0.3391304	3.39130434782609	0.3282321
3	42	0.1826087	0.526086956521739	0.5478261	3.39130434782609	0.0279609
4	38	0.1652174	0.691304347826087	0.6608696	3.39130434782609	0.0612148
5	42	0.1826087	0.873913043478261	0.9130435	3.39130434782609	0.4725734
6	29	0.1260870	1	0.7565217	3.39130434782609	0.8580587
****	230	1.0000000	****	3.3913043	****	2.7425331

Gráfica de barra

ggplot(data = tabla, aes(x = x, y=f.prob.x, fill=x)) +
  geom_bar(stat="identity")

Gráfica acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point(colour="black") + 
  geom_line(colour="orange")

Tomar vasos de agua ITD

Se tiene un estudio de que en época de calor los estudiantes del Tecnológico consumen cierta cantidad de vasos de agua durante el dia.

Se estima que se toman al alrededor de 1 a 8 vasos diarios durante el día para aliviar la sed y hidratar el cuerpo.

La siguiente tabla establece la cantidad de vasos que toman los alumnos durante el día siendo x la variable aleatoria discreta los vasos que se toman.

De un estudio de 150 alumnos esas fueron las respuestas.

x = vasos de agua	casos
0	8
1	12
2	16
3	19
4	24
5	28
6	25
7	14
8	4

Inicializando variables

discretas <- c(0, 1, 2, 3, 4, 5, 6, 7, 8)
casos <- c(8, 12,  16, 19, 24, 28, 25, 14, 4 )
n <- sum(casos)
probabilidades = round(casos/n, 5)
probabilidades

## [1] 0.05333 0.08000 0.10667 0.12667 0.16000 0.18667 0.16667 0.09333 0.02667

Tabla de probabilidad

acumulada <- cumsum(probabilidades)
tabla <- data.frame(x=discretas, 
              casos = casos,
              f.prob.x = probabilidades,
              F.acum.x = acumulada,
              x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad")

Tabla de probabilidad
x	casos	f.prob.x	F.acum.x	x.f.prob.x
0	8	0.05333	0.05333	0.00000
1	12	0.08000	0.13333	0.08000
2	16	0.10667	0.24000	0.21334
3	19	0.12667	0.36667	0.38001
4	24	0.16000	0.52667	0.64000
5	28	0.18667	0.71334	0.93335
6	25	0.16667	0.88001	1.00002
7	14	0.09333	0.97334	0.65331
8	4	0.02667	1.00001	0.21336

Cálculo de probabilidades

¿Cuál es la probabilidad de que se elija aleatoriamente alumnos y mencionen que se toman CUATRO VASOS DE AGUA? 16 % de probabilidad.

filter(tabla, x == 4 ) %>%
  select(x, f.prob.x, F.acum.x)

##   x f.prob.x F.acum.x
## 1 4     0.16  0.52667

¿Cuál es la probabilidad de que se elija aleatoriamente alumnos y mencionen que se toman MENOS DE CUATRO VASOS DE AGUA? 36.6 % de probabilidad.

filter(tabla, x < 4 ) %>%
  select(x, f.prob.x, F.acum.x)

##   x f.prob.x F.acum.x
## 1 0  0.05333  0.05333
## 2 1  0.08000  0.13333
## 3 2  0.10667  0.24000
## 4 3  0.12667  0.36667

¿Cuál es la probabilidad de que se elija aleatoriamente alumnos y mencionen que se toman MAS DE CUATRO VASOS DE AGUA? 47.1% de probabilidad.

filter(tabla, x > 4 ) %>%
  select(x, f.prob.x, F.acum.x)

##   x f.prob.x F.acum.x
## 1 5  0.18667  0.71334
## 2 6  0.16667  0.88001
## 3 7  0.09333  0.97334
## 4 8  0.02667  1.00001

Valor esperado

VE <- sum(tabla$x * tabla$f.prob.x)
VE

## [1] 4.11339

Varianza

tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")

Tabla de probabilidad con valor esperado y columnas para varianza
x	casos	f.prob.x	F.acum.x	x.f.prob.x	VE	x-VE.cuad.f.prob.x
0	8	0.05333	0.05333	0.00000	4.11339	0.9023424
1	12	0.08000	0.13333	0.08000	4.11339	0.7754558
2	16	0.10667	0.24000	0.21334	4.11339	0.4764327
3	19	0.12667	0.36667	0.38001	4.11339	0.1570249
4	24	0.16000	0.52667	0.64000	4.11339	0.0020572
5	28	0.18667	0.71334	0.93335	4.11339	0.1467370
6	25	0.16667	0.88001	1.00002	4.11339	0.5932281
7	14	0.09333	0.97334	0.65331	4.11339	0.7776738
8	4	0.02667	1.00001	0.21336	4.11339	0.4028700

Calculo de la varianza

varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza

## [1] 4.233822

Desviación estándar

desv.std <- sqrt(varianza)
desv.std

## [1] 2.057625

Tabla de sumatorias

tabla.sumatorias <- rbind(tabla, apply(tabla, 2, sum))
tabla.sumatorias[nrow(tabla.sumatorias), c(1,4,6)] <- '****'
kable(tabla.sumatorias, caption = "Tabla de probabilidad con sumatorias")

Tabla de probabilidad con sumatorias
x	casos	f.prob.x	F.acum.x	x.f.prob.x	VE	x-VE.cuad.f.prob.x
0	8	0.05333	0.05333	0.00000	4.11339	0.9023424
1	12	0.08000	0.13333	0.08000	4.11339	0.7754558
2	16	0.10667	0.24	0.21334	4.11339	0.4764327
3	19	0.12667	0.36667	0.38001	4.11339	0.1570249
4	24	0.16000	0.52667	0.64000	4.11339	0.0020572
5	28	0.18667	0.71334	0.93335	4.11339	0.1467370
6	25	0.16667	0.88001	1.00002	4.11339	0.5932281
7	14	0.09333	0.97334	0.65331	4.11339	0.7776738
8	4	0.02667	1.00001	0.21336	4.11339	0.4028700
****	150	1.00001	****	4.11339	****	4.2338219

Gráfica de barra

ggplot(data = tabla, aes(x = x, y=f.prob.x, fill=x)) +
  geom_bar(stat="identity")

Gráfica acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point(colour="black") + 
  geom_line(colour="orange")

Interpretación de los ejercicios del caso

Tenemos desarrollados algunos ejericios de variables discretas aleatorias, de las cuales se realizaron algunos caluclos, como lo son las funciones de proablidad y la función acumulada, la media o valor esparado, la varianza y su desviación estándar.

Se generaron gráficas de barras de los valores de las variables y la gráfica lineal de las tendencias. Estas graficas nos ayudan a una mejor interpetación del caso o casos.

En el ejercicio uno, el valor esperado fue de 1%, lo que nos dice que es muy poco probable, casi nula, de ganar en una rifa de 5000 tickets.

En el ejercicio de vena de automóviles de John, se trata de una distribución de probabilidad discreta de la variable aleatoria “número de automóviles vendidos.”

El valor esperado es del 2.1 que significa que puede vender 2 autos como esperanza.

El valor esperado se utiliza para predecir la media aritmética de la cantidad de automóviles vendidos a largo plazo. Por ejemplo, si John trabaja 50 sábados en un año, puede esperar vender (50)(2.1) o 105 automóviles solo durante los sábados. Por consiguiente, a veces la media recibe el nombre de valor esperado(Lind, Marchal, and Wathen 2015b).

El valor de la varianza es de 1.29 que significa lo que puede variar con respecto al valor esperado. La desviación estándard es de 1.135782.

¿Cómo se interpreta la variación?

Por ejemplo, Si la vendedora Rita Kirsch también vendió un promedio de 2.1 automóviles los sábados pero tien tal vez una desviacón de 1.9 en comparación del 1.135782 de John, entonces de puede decir que hay mayor variabilidad en la vendedora Rita dado que (1.91 \geq 1.35) (Lind, Marchal, and Wathen 2015b).

En el caso de las vacantes de puestos para hombres y mujeres el resultado del valor esperado es de 0.8 que significa la probabilidad de contratar mujeres en promedio, su desviación estándar es de 0.6 que significa nivel de dispersión (alejamiento) de la probabilidad de cada variable aleatoria con respecto al valor esperado.

Del ejercicio de parejas contestar las preguntas:

Datos

discretas <- c(0, 1, 2, 3, 4, 5, 6)
casos <- c(15, 40, 23, 10, 7, 4, 1 )
n <- sum(casos)
probabilidades <- casos / n


acumulada <- cumsum(probabilidades)
tabla <- data.frame(x=discretas, 
              casos = casos,
              f.prob.x = probabilidades,
              F.acum.x = acumulada,
              x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad")

Tabla de probabilidad
x	casos	f.prob.x	F.acum.x	x.f.prob.x
0	15	0.15	0.15	0.00
1	40	0.40	0.55	0.40
2	23	0.23	0.78	0.46
3	10	0.10	0.88	0.30
4	7	0.07	0.95	0.28
5	4	0.04	0.99	0.20
6	1	0.01	1.00	0.06

¿Cuál es la probabilidad de una pareja elegida al azar tenga menos de dos hijos? $P(x<2)$

55% de probabilidades. La parejas, actualmente, suelen tener mayormente un solo hijo.
```
filter(tabla, x < 2 ) %>%
  select(x, f.prob.x, F.acum.x)
```
```
##   x f.prob.x F.acum.x
## 1 0     0.15     0.15
## 2 1     0.40     0.55
```
¿Cuál es la probabilidad de que tenga más de tres hijos? $P(x>3)$

12% de probabilidades. En contraste con la respuesta anterior vemos que es menos probable un alto número de hijos.
```
filter(tabla, x > 3 ) %>%
  select(x, f.prob.x, F.acum.x)
```
```
##   x f.prob.x F.acum.x
## 1 4     0.07     0.95
## 2 5     0.04     0.99
## 3 6     0.01     1.00
```
Si se elige un hijo al azar, ¿cuál es la probabilidad de que no tenga hermanos? $P(x=0)$

15% de probabilidades. A pesar de tener una gran probabilidad, podemos observar que 1 es la respuesta de la cual mayores registros se tiene.
```
filter(tabla, x == 0 ) %>%
  select(x, f.prob.x, F.acum.x)
```
```
##   x f.prob.x F.acum.x
## 1 0     0.15     0.15
```
1. Determina el número de hijos esperado al seleccionar una familia al azar. ¿Cuál es el valor esperado y qué significa? El valor esperado es 1.7, el cual redondeado queda a 2, lo que significa que es el número que se espera a que las personas respondan en el caso de la cantidad de hijos esperados.
```
VE <- sum(tabla$x * tabla$f.prob.x)
VE
```
```
## [1] 1.7
```
Calcula la varianza y la desviación de la distribución e interpretar su significado.

La varianza nos da un valor de 1.81 y la desviación 1.34, la varianza, como su nombre lo dice, nos indica la dispersión o variación de los datos con respecto a las medidas de posición. Y la desviación nos indica únicamente la raíz de dicha dispersión.
```
varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza
```
```
## [1] 1.81
```
```
desv.std <- sqrt(varianza)
desv.std
```
```
## [1] 1.345362
```

Interpretar el ejercicio de el vaso de agua

Datos

discretas <- c(0, 1, 2, 3, 4, 5, 6, 7, 8)
casos <- c(8, 12,  16, 19, 24, 28, 25, 14, 4 )
n <- sum(casos)
probabilidades = round(casos/n, 5)
probabilidades

## [1] 0.05333 0.08000 0.10667 0.12667 0.16000 0.18667 0.16667 0.09333 0.02667

acumulada <- cumsum(probabilidades)
tabla <- data.frame(x=discretas, 
              casos = casos,
              f.prob.x = probabilidades,
              F.acum.x = acumulada,
              x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad")

Tabla de probabilidad
x	casos	f.prob.x	F.acum.x	x.f.prob.x
0	8	0.05333	0.05333	0.00000
1	12	0.08000	0.13333	0.08000
2	16	0.10667	0.24000	0.21334
3	19	0.12667	0.36667	0.38001
4	24	0.16000	0.52667	0.64000
5	28	0.18667	0.71334	0.93335
6	25	0.16667	0.88001	1.00002
7	14	0.09333	0.97334	0.65331
8	4	0.02667	1.00001	0.21336

La cantidad de veces que se registraron en cada caso tiene una tendencia a crecer, sin embargo, del ultimo caso, podemos ver que tiene una diferencia muy marcada.

Con ayuda de la gráfica de barras, nos podemos dar un panorama más amplio de las diferencias de frecuencia.

Las probabilidades, al igual que los casos, se comportan de manera exponencial, a diferencia del ultimo caso.

Y lo podemos observar que en la gráfica acumulad, la cual forma una curva donde sube y otra pequeña donde baja.

Esto lo podemos comprobar calculando la varianza la cual nos da un resultado 1.81 que es lo que varia entre porcentajes de frecuencia o probabilidad.

varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza

## [1] 10.05813

El valor esperado se inclina por el 2, exactamente 1,7, redondeando para fines de interpretación a 2, por lo que se espera que los alumnos del ITD contesten entre 1 o 2 con una mayor inclinación a 2

VE <- sum(tabla$x * tabla$f.prob.x)
VE

## [1] 4.11339

Interpretar el ejercicio del dado

Datos

discretas <- c(1, 2, 3, 4, 5, 6)
casos <- c(40, 39, 42, 38, 42, 29)
n <- sum(casos)
probabilidades <- casos / n


acumulada <- cumsum(probabilidades)
tabla <- data.frame(x=discretas, 
              casos = casos,
              f.prob.x = probabilidades,
              F.acum.x = acumulada,
              x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad")

Tabla de probabilidad
x	casos	f.prob.x	F.acum.x	x.f.prob.x
1	40	0.1739130	0.1739130	0.1739130
2	39	0.1695652	0.3434783	0.3391304
3	42	0.1826087	0.5260870	0.5478261
4	38	0.1652174	0.6913043	0.6608696
5	42	0.1826087	0.8739130	0.9130435
6	29	0.1260870	1.0000000	0.7565217

La cantidad de veces que se registraron en cada cara de dato se encuentra dentro de un rango de 38 a 42.

Con ayuda de la gráfica de barras, nos podemos dar un panorama más amplio de las diferencias de frecuencia.

Por ende las probabilidades son similares, teniendo ligeras variaciones de .1 a .3.

Y lo podemos observar que en la gráfica acumulad es casi lineal.

Esto lo podemos comprobar calculando la varianza la cual nos da un resultado 2.7 que es lo que varia entre porcentajes de frecuencia o probabilidad.

varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza

## [1] 3.263941

desv.std <- sqrt(varianza)
desv.std

## [1] 1.806638

A pesar de tener frecuencias similares, el lado que mayor probabilidad tiene es el 3 y 5, con un porcentaje de 18.26%, pero aun así, el valor esperado se inclina por el 3, exactamente 3.39, por lo que cuando se lanza un dado, el valor esperado que salga es de 3, redondeando para fines de interpretación.

VE <- sum(tabla$x * tabla$f.prob.x)
VE

## [1] 3.391304

Referencias bibliográficas

Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,.

Descartes, Web. 2018. “Estadística. Distribuciones Aleatorias.” https://ieszaframagon.com/matematicas/estadistica/var_aleatoria/tema5_2.html.

Hero, Course. n.d. “Variables Aleatorias - Variables Aleatorias Problemas...” https://www.coursehero.com/file/14618142/Variables-aleatorias/.

Lind, Douglas, William Marchal, and Samuel Wathen. 2015a. Estadística Aplicada a Los Negocios y La Economía. Decimo Sexta. México, D.F.: McGraw-Hill.

———. 2015b. Estadística Aplicada a Los Negocios y La Economía. Decimo Sexta. México, D.F.: McGraw-Hill.

Walpole, Ronald E., Raymond H. Myers, and Sharon L. Myers. 2012. Probabilidad y Estadística Para Ingeniería y Ciencias. Novena Edición. México: Pearson.

Caso 13. Variables discretas

Daniel Bañuelos Olivas

2022-03-27

Objetivo

Descripción

Marco de referencia

Desarrollo

Cargar librerías

Ejercicios

Billetes para rifa

Tabla de probabilidad

Valor esperado

Varianza

Desviación estándard de una distribución discreta

La tabla con las sumatorias

Gráfica de barra

Gráfica lineal acumulada

Automóviles de Pelican Ford

Tabla de probabilidad

Cálculo de probabilidades

Valor esperado

Varianza

Desviación estándar de una distribución discreta

La tabla con las sumatorias

Gráfica de barra

Gráfica lineal acumulada

Solicitudes de puestos de hombres y mujeres

Tabla de probabilidades

Cálculo de probabilidades

Valor esperado

Varianza

Desviación estándar

Tabla con sumatorias

Gráfica de barra

Gráfica lineal acumulada

Número de hijos de parejas

Tabla de probabilidades

Cálculo de probabilidades

Valor esperado

Varianza

Desviación estándar

Tabla con sumatorias

Gráfica de barra

Gráfica lineal acumulada

Lanzamiento de un dado

Inicializando variables

Tabla de probabilidad

Cálculo de probabilidades

Valor esperado

Varianza

Desviación estándar

Tabla de sumatorias

Gráfica de barra

Gráfica acumulada

Tomar vasos de agua ITD

Inicializando variables

Tabla de probabilidad

Cálculo de probabilidades

Valor esperado

Varianza

Desviación estándar

Tabla de sumatorias

Gráfica de barra

Gráfica acumulada

Interpretación de los ejercicios del caso

Referencias bibliográficas