CASO 14. Variables aleatorias discretas. Ejercicios

Objetivo: Resolver cuestiones de casos de probabilidad en casos mediante la identificación de variables aleatorias, funciones de probabilidad, funciones acumuladas y visualización gráficas relacionados con variables discretas.

Descripción: Identificar casos relacionados con variables discretas para elaborar mediante programación R y markdown las variables discretas, las funciones de probabilidad de cada variable, la función acumulada y su visualización gráfica para su adecuada interpretación.

Las variables aleatorias deben tomar valores numéricos. En efecto, una variable aleatoria asocia un valor numérico a cada uno de los resultados experimentales.

El valor numérico de la variable aleatoria depende del resultado del experimento. Una variable aleatoria puede ser discreta o continua, depende del tipo de valores numéricos que asuma. (Anderson et al., 2008). Para este documento se tratan únicamente variables del tipo discreto.

En cualquier experimento aleatorio, los resultados se presentan al azar; así, a este se le denomina variable aleatoria. Por ejemplo, lanzar un dado constituye un experimento: puede ocurrir cualquiera de los seis resultados posibles. Cada valor de la variable aleatoria se relaciona con una probabilidad que indica la posibilidad de un resultado determinado(Lind et al., 2015)

En su libro (Walpole et al., 2012) define que una variable aleatoria es una función que asocia un número real con cada elemento del espacio muestral.

Una función de probabilidad, una función de masa de probabilidad o una distribución de probabilidad de la variable aleatoria discreta X si, para cada resultado x posible.

    1. Toda función de probabilidad debe ser mayor o igual que 0.

      f(x)≥0

    1. La suma de las probabilidad de todas las variables x debe ser igual a 1 o la suma de los valores de cada función de probabildiad con respecto a x debe ser 1

      ∑xf(x)=1

    1. La probabilidad de cada variable x es igual a la función de probabilidad con respeto a x

      P(X=x)=f(x)

      (Walpole et al., 2012)

Por otra parte, la función de la distribución acumulativa F(x) ó probabilidad acumulada de una variable aleatoria discreta X con distribución de probabilidad f(x) está dada por la suma de sus probabilidades de t siendo t menor o igual a x. Es decir, la probabilidad acumulada suma los valores de las funciones de probabilidad a partir del valor inicia de x. El valor final con respecto a valor final de x debe ser igual a 1.

F(x)=P(X≤x)=∑t≤xf(t)

(Walpole et al., 2012)

PASO 1. Cargar librerías

library(ggplot2)
library(stringr)  # String
library(stringi)  # String
library(gtools)
library(dplyr)
library(knitr)

PASO 2. Ejercicios:

Para cada ejercicio, se describe y define el contexto, se construye su tabla de probabilidad que contenga los valores de la variable aleatoria, la función de probabilidad y su función acumulada, la gráfica de barra de los valores de las variables aleatoria y la gráfica lineal de la función acumulada.

PASO 2.1. Ejercicio 1

Se venden 5000 billetes para una rifa a 1 euro cada uno. Existe un único premio de cierta cantidad, calcular los valores de las variables aleatorias y sus probabilidades para 0 para no gana y 1 para si gana cuando un comprador adquiere tres billetes. (Hero, n.d.)

Tabla de probabilidad

discretas <- c(0,1)   # 0 Que no gane, 1 que gane
n <- 5000
casos <- c(4997,3)
probabilidades <- casos / n

acumulada <- cumsum(probabilidades)   # Acumulada

tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##   x casos f.prob.x F.acum.x
## 1 0  4997   0.9994   0.9994
## 2 1     3   0.0006   1.0000

Gráfica de barra

ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
  geom_bar(stat="identity")

Gráfica lineal acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
    geom_point() + 
  geom_line()

** PASO 2.2.** Ejercicio 2: Las ventas de automóviles de una empresa

Durante los últimos 300 días de operación, los datos de ventas muestran que hubo

54 días en los que no se vendió ningún automóvil,
117 días en los que se vendió 1 automóvil,
72 días en los que se vendieron 2 automóviles,
42 días en los que se vendieron 3 automóviles,
12 días en los que se vendieron 4 automóviles y
3 días en los que se vendieron 5 automóviles.

¿Cuál es la probabilida de que se venda exactamente un automoviles?

¿Cuál es la la probabilidad de que se venda al menos 2 automóviles?

Tabla de probabilidad o Contingencia

discretas <- 0:5   # c(0,1,2,3,4,5)
n <- 300

casos <- c(54, 117, 72, 42, 12, 3)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   # Acumulada

tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##   x casos f.prob.x F.acum.x
## 1 0    54     0.18     0.18
## 2 1   117     0.39     0.57
## 3 2    72     0.24     0.81
## 4 3    42     0.14     0.95
## 5 4    12     0.04     0.99
## 6 5     3     0.01     1.00

Grafica de Barras

ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
  #geom_bar(stat="identity")
  geom_bar(stat="identity")

Grafica Lineal acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point() + 
  geom_line() 

** PASO 2.3.** Ejercicio 3

En Estados Unidos un porcentaje de los niños de cuarto grado no pueden leer un libro adecuado a su edad. La tabla siguiente muestra, de acuerdo con las edades de entre 6 y 14 años, el número de niños que tienen problemas de lectura. La mayoría de estos niños tienen problemas de lectura que debieron ser detectados y corregidos antes del tercer grado.(Anderson et al., 2008)

¿Cuál es la probabilida de elegir alumnos que tienen problemas de exactamente 10 años?

¿Cuál es la probabilidad de encontrar alumnos por de 11 años o menos?

Tabla de probabilidad o Contingencia

discretas <- 6:14
#n <- '?'

casos <- c(37369, 87436, 160840,239719,286719,306533,310787,302604,289168)

n <- sum(casos)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   # Acumulada
acumulada
## [1] 0.01848875 0.06174874 0.14132621 0.25992999 0.40178757 0.55344837 0.70721387
## [8] 0.85693075 1.00000000
tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##    x  casos   f.prob.x   F.acum.x
## 1  6  37369 0.01848875 0.01848875
## 2  7  87436 0.04325998 0.06174874
## 3  8 160840 0.07957747 0.14132621
## 4  9 239719 0.11860378 0.25992999
## 5 10 286719 0.14185758 0.40178757
## 6 11 306533 0.15166079 0.55344837
## 7 12 310787 0.15376551 0.70721387
## 8 13 302604 0.14971687 0.85693075
## 9 14 289168 0.14306925 1.00000000
* ¿Cuál es la probabilida de elegir alumnos que tienen problemas de exactamente 10 años? es: 14.18%
* ¿Cuál es la probabilidad de encontrar alumnos por de 11 años o menos? 55.34%

Grafica de Barras

ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
  geom_bar(stat="identity")

Grafica Lineal Acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point() + 
  geom_line()

PASO 2.4. Ejercicio 4.

####Se muestra la distribución de frecuencias porcentuales para las puntuaciones dadas a la satisfacción con el trabajo por una muestra de directivos en sistemas de información de nivel alto y de nivel medio. Las puntuaciones van de 1 (muy insatisfecho) a 5 (muy satisfecho).(Anderson et al., 2008)

Tabla de probabilidad o Contingencia ##### Para directivos de alto nivel * Para este ejercicio se utiliza tabla1 y tabla2 como variables para identificar los valores de acuerdo al tipo de ejecutivo.

  • ¿Cuál es la probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo?
discretas <- 1:5
#n <- '?'

casos <- c(5,9,3,42,41)

n <- sum(casos)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   


tabla1 <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla1
##   x casos f.prob.x F.acum.x
## 1 1     5     0.05     0.05
## 2 2     9     0.09     0.14
## 3 3     3     0.03     0.17
## 4 4    42     0.42     0.59
## 5 5    41     0.41     1.00
paste("La probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo es:", round(sum(tabla1$f.prob.x[4], tabla1$f.prob.x[5]) * 100, 2), "%")
## [1] "La probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo es: 83 %"

Gráfica de barra

ggplot(data = tabla1, aes(x = x, y=f.prob.x, fill=x)) + 
  geom_bar(stat="identity")

Gráfica lineal acumulada

ggplot(data = tabla1, aes(x = x, y=F.acum.x)) +
  geom_point(colour="red") + 
  geom_line(colour="green")

Para directivos de nivel medio * ¿Cuál es la probabilidad de que un ejecutivo de nivel medio esté muy satisfecho?

discretas <- 1:5
#n <- '?'

casos <- c(4, 10, 12, 46, 28)

n <- sum(casos)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   


tabla2 <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla2
##   x casos f.prob.x F.acum.x
## 1 1     4     0.04     0.04
## 2 2    10     0.10     0.14
## 3 3    12     0.12     0.26
## 4 4    46     0.46     0.72
## 5 5    28     0.28     1.00
paste(" La probabilidad de que un ejecutivo de nivel medio esté muy satisfecho es:", round(tabla2$f.prob.x[5] * 100, 2), "%")
## [1] " La probabilidad de que un ejecutivo de nivel medio esté muy satisfecho es: 28 %"

Gráfica de barra

ggplot(data = tabla2, aes(x = x, y=f.prob.x, fill=x)) + 
  geom_bar(stat="identity")

Gráfica lineal acumulada

ggplot(data = tabla2, aes(x = x, y=F.acum.x)) +
  geom_point(colour="blue") + 
  geom_line(colour="red")

* Observando las gráficas de barras y las tablas de probabilidad, los directivos de alto nivel están más satisfechos con el trabajo.

2.5. Ejercicio 5.

La prueba de un número de componentes electrónicos se prueban tres componentes electrónicos, el espacio muestral que ofrece una descripción detallada de cada posible resultado se escribe como:

S <- c("NNN", "NND", "NDN", "DNN", 
        "NDD", "DND", "DDN", "DDD")
S
## [1] "NNN" "NND" "NDN" "DNN" "NDD" "DND" "DDN" "DDD"
  • Se define N como No defectuoso y D como defectuoso.
  • Se identifican las variables discretas como:
    • 0 defectos, no hay D en el espacio muestral
    • 1 defecto existe, existe una D en el espacio muestral
    • 2 defectos hay dos D en el espacio muestral y
    • 3 defectos hay tres D en el espacio muestral

Los valores son de las variables x con cantidades aleatorias determinadas por el resultado del experimento. Se determina como valores que toma la variable aleatoria X, es decir, el número de artículos defectuosos cuando se prueban tres componentes electrónicos.

  • ¿Cuál es la probabilida de que haya 1 defecto?
  • ¿Cuál es la probabilida de que haya 2 defectos o mas?

Tabla de probabilidad o Contingencia

discretas <- 0:3
#n <- '?'

casos <- c(1,3,3,1)

n <- sum(casos)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   # Acumulada

tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##   x casos f.prob.x F.acum.x
## 1 0     1    0.125    0.125
## 2 1     3    0.375    0.500
## 3 2     3    0.375    0.875
## 4 3     1    0.125    1.000
  • Se utiliza la variable x dado qu eel valor de la variable aleatoria x empieza en 0 y los vectores en R comienzan en, 1
x <- 1  
paste("La probabilidad de que haya 1 defecto es: ",round(tabla$f.prob.x[x+1] * 100, 2), "%")
## [1] "La probabilidad de que haya 1 defecto es:  37.5 %"
x <- 2 
paste("La probabilidad de que haya 2 defectos o mas es: ",round(sum(tabla$f.prob.x[x+1], tabla$f.prob.x[x+2]) * 100, 2), "%")
## [1] "La probabilidad de que haya 2 defectos o mas es:  50 %"

Gráfica de barra

ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
  #geom_bar(stat="identity")
  geom_bar(stat="identity")

Gráfica lineal acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point() + 
  geom_line() 

PASO 3.

INTERPRETACIÓN DEL CASO

Personalmente pienso que es uno de los casos con más ejercicios diferentes que hemos hecho. En esta práctica número 14 pudimos desarollar un caso donde aprendemos sobre las VARIABLES ALEATORIAS DIRECTAS, lo que consiitió en el desarrollo de 4 ejercicios, donde :

en el 1er ejercicio analizábamos la posibilidad de adquirir un premio teniendo al redeor de 5 mil boletos.

en el 2do ejercicio desarrollamos un prolema sobre la venta de auntomoviles en días distintos; acerca de los días que se hizo una venta en deerminada cantidad de tiempo, y los días que no se realizó una venta (de igual manera, en cierta cantidad de tiempo)

en el 3er ejercicio, en el cual se nos habla acerca del procentaje de niños que no son capaces de leer o no alcanzan a leer un tema no tan sencillo pero complentamente comprensible.

y para finalizar pero no menos importtante, el ejercicio 4, en el cual tenemos que un 83% de que los empleados tengan un nivel alto de puntuación de 4 o 5.

PASO 3.1. ¿Cuál es la variable aleatoria y su significado en el contexto?

1.- Son el 4997 y 3, porque son los porcentajes posibles.

2.- Son 54,117,72,42,12,3, porque son todos los valores posibles.

3.- Son 37369, 87436, 160840,239719,286719,306533,310787,302604,289168, como valores posibles.

PASO 3.2. ¿Qué valores puede tomar la variable aleatoria?

1.- Puede tomar los valores de 4997 y el 3.

2.- Puede tomar 54,117,72,42,12,3.

3.- Puede tomar 37369, 87436, 160840,239719,286719,306533,310787,302604,289168.

PASO 3.3. ¿Cuál es el espacio muestral?, todos los elementos

1.- Todos los boletos en total 5000 que es n.

2.- El total de los 300 dias que es n.

3.- En total 2021175 como n.

PASO 3.4. ¿Cuántos elementos hay en espacio muestral (S)?

1.- Son 2 elementos.

2.- Son 6 elementos.

3.- Son 9 elementos.

PASO 3.5. ¿Cuántos casos hay de cada valor de cada variable aleatoria?

1.- Hay 2 Casos

2.- Hay 6 Casos.

3.- Hay 9 Casos.

PASO 3.6. ¿Cuáles son las probabilidades más altas de cada variable aleatoria?

1.- Es de 99.94% y 0.06%.

2.- Es de 18%, 39%, 24%, 14%, 0.04% y 0.01%.

3.-Es de 0.018%, 0.043%, 0.079%, 11%, 14%, 15%, 15%, 14% y 14%.

PASO 3.7. Resolver lo que se solicita encontrando al menos dos probabilidades de variables aleatorias.

3.7.1.- Que sea exactamente igual a un valor de variable aleatoria 3.7.2.- Qué sea menor o igual 3.7.3.- Que sea mayor o igual 3.7.4.- Alguna otra pregunta del caso. ### PASO 3.8. ¿Que significado tiene el gráfico de barra? #### Un gráfico de barras es una forma de resumir un conjunto de datos por categorías. Muestra los datos usando varias barras de la misma anchura, cada una de las cuales representa una categoría concreta.

PASO 3.9. ¿Qué significado tiene el gráfico lineal acumulado?

Utiliza representaciones icónicas (imágenes) relacionadas con la temática del gráfico, para hacer más cercano y realista el contexto de donde se obtuvo la información (Nortes, 1991). El tamaño del ícono representa la frecuencia absoluta, relativa o porcentaje de cada categoría de la variable; o bien, también se puede representar la frecuencia repitiendo los íconos.