1 Objetivo

Resolver cuestiones de casos de probabilidad en casos mediante la identificación de variables aleatorias, funciones de probabilidad, funciones acumuladas y visualización gráficas relacionados con variables discretas.

2 Descripción

Identificar casos relacionados con variables discretas para elaborar mediante programación R y Markdown las variables discretas, las funciones de probabilidad de cada variable, la función acumulada y su visualización gráfica para su adecuada interpretación.

3 Desarrollo

Se presentan ejercicios relacionadas con variables aleatorias y su probabilidad, para cada ejercicio, se describe y define el contexto, se construye la tabla de probabilidad que contiene los valores de la variable aleatoria, la función de probabilidad y su función acumulada, la gráfica de barra de los valores de las variables aleatoria y la gráfica lineal de la función acumulada.

Se importan las librerías a utilizar:

library(ggplot2)
library(stringr)  # String
library(stringi)  # String
library(gtools)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(knitr)

3.1 Billetes de rifa

Se venden 5000 billetes para una rifa a 1 euro cada uno. Existe un único premio de cierta cantidad, calcular los valores de las variables aleatorias y sus probabilidades para 0 para no gana y 1 para si gana cuando un comprador adquiere tres billetes. (Course Hero, n.d.).

discretas <- c(0,1)   # 0 Que no gane, 1 que gane
n <- 5000
casos <- c(4997,3)
probabilidades <- casos / n

acumulada <- cumsum(probabilidades)   # Acumulada

tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##   x casos f.prob.x F.acum.x
## 1 0  4997   0.9994   0.9994
## 2 1     3   0.0006   1.0000

3.1.1 Gráfica de barras

ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
  geom_bar(stat="identity")

3.1.2 Gráfica lineal acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
    geom_point() + 
  geom_line()

3.2 Venta de automóviles

Las ventas de automóviles de una empresa durante los últimos 300 días de operación, los datos de ventas muestran que hubo:

  • 54 días en los que no se vendió ningún automóvil,

  • 117 días en los que se vendió 1 automóvil,

  • 72 días en los que se vendieron 2 automóviles,

  • 42 días en los que se vendieron 3 automóviles,

  • 12 días en los que se vendieron 4 automóviles y

  • 3 días en los que se vendieron 5 automóviles.

3.2.1 Tabla de probabilidades

discretas <- 0:5   # c(0,1,2,3,4,5)
n <- 300

casos <- c(54, 117, 72, 42, 12, 3)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   # Acumulada

tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##   x casos f.prob.x F.acum.x
## 1 0    54     0.18     0.18
## 2 1   117     0.39     0.57
## 3 2    72     0.24     0.81
## 4 3    42     0.14     0.95
## 5 4    12     0.04     0.99
## 6 5     3     0.01     1.00

¿Cuál es la probabilidad de que se venda exactamente un automóvil? \(prob=\frac{117}{300}= 0.39\)

¿Cuál es la la probabilidad de que se venda de uno a dos automóviles?. \(prob=∑P(x1,x2)=0.63\)

¿Cuál es la la probabilidad de que se venda al menos dos automóviles?. \(prob=∑P(x2,x3,x4,x5)=1−Prob.Acum(x1)=0.43\)

3.2.2 Gráfica de barras

ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
  #geom_bar(stat="identity")
  geom_bar(stat="identity")

3.2.3 Gráfica lineal acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point() + 
  geom_line()

3.3 Niños de cuarto grado

En Estados Unidos un porcentaje de los niños de cuarto grado no pueden leer un libro adecuado a su edad.

La tabla muestra, de acuerdo con las edades de entre 6 y 14 años, el número de niños que tienen problemas de lectura. La mayoría de estos niños tienen problemas de lectura que debieron ser detectados y corregidos antes del tercer grado(Anderson, Sweeney, and Williams 2008b).

3.3.1 Tabla de probabilidad

discretas <- 6:14
#n <- '?'

casos <- c(37369, 87436, 160840,239719,286719,306533,310787,302604,289168)

n <- sum(casos)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   # Acumulada

tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##    x  casos   f.prob.x   F.acum.x
## 1  6  37369 0.01848875 0.01848875
## 2  7  87436 0.04325998 0.06174874
## 3  8 160840 0.07957747 0.14132621
## 4  9 239719 0.11860378 0.25992999
## 5 10 286719 0.14185758 0.40178757
## 6 11 306533 0.15166079 0.55344837
## 7 12 310787 0.15376551 0.70721387
## 8 13 302604 0.14971687 0.85693075
## 9 14 289168 0.14306925 1.00000000

¿Cuál es la probabilidad de elegir alumnos que tienen problemas de exactamente 10 años?.

\(prob=P(x10)=\frac{286719}{n}=0.1418\)

¿Cuál es la probabilidad de encontrar alumnos de 11 años o menos?. \(prob=∑Prob(x6,x7,x8,x9,x10,x11)=Prob.Acum(x11)=0.5534\)

3.4 Satisfacción en el trabajo

Se muestra la distribución de frecuencias porcentuales para las puntuaciones dadas a la satisfacción con el trabajo por una muestra de directivos en sistemas de información de nivel alto y de nivel medio. Las puntuaciones van de 1 (muy insatisfecho) a 5 (muy satisfecho).(Anderson, Sweeney, and Williams 2008b).

include_graphics("../Imagenes/satisfaccion_trabajo_ejecutivos.jpg")

3.4.1 Para directivos de nivel alto

3.4.1.1 Tabla de probabilidad

Para este ejercicio se utiliza tabla1 y tabla2 como variables para identificar los valores de acuerdo al tipo de ejecutivo.

¿Cuál es la probabilidad de que un ejecutivo de nivel alto tenga una puntuación de 4 o 5 en satisfacción con el trabajo?

discretas <- 1:5
#n <- '?'

casos <- c(5,9,3,42,41)

n <- sum(casos)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   


tabla1 <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla1
##   x casos f.prob.x F.acum.x
## 1 1     5     0.05     0.05
## 2 2     9     0.09     0.14
## 3 3     3     0.03     0.17
## 4 4    42     0.42     0.59
## 5 5    41     0.41     1.00
paste("La probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo es:", round(sum(tabla1$f.prob.x[4], tabla1$f.prob.x[5]) * 100, 2), "%")
## [1] "La probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo es: 83 %"

3.4.1.2 Gráfica de barra

ggplot(data = tabla1, aes(x = x, y=f.prob.x, fill=x)) + 
  geom_bar(stat="identity")

3.4.1.3 Gráfica lineal acumulada

ggplot(data = tabla1, aes(x = x, y=F.acum.x)) +
  geom_point(colour="blue") + 
  geom_line(colour="red")

3.4.2 Para directivos de nivel medio

¿Cuál es la probabilidad de que un ejecutivo de nivel medio esté muy satisfecho?

discretas <- 1:5
#n <- '?'

casos <- c(4, 10, 12, 46, 28)

n <- sum(casos)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   


tabla2 <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla2
##   x casos f.prob.x F.acum.x
## 1 1     4     0.04     0.04
## 2 2    10     0.10     0.14
## 3 3    12     0.12     0.26
## 4 4    46     0.46     0.72
## 5 5    28     0.28     1.00
paste(" La probabilidad de que un ejecutivo de nivel medio esté muy satisfecho es:", round(tabla2$f.prob.x[5] * 100, 2), "%")
## [1] " La probabilidad de que un ejecutivo de nivel medio esté muy satisfecho es: 28 %"

3.4.2.1 Gráfica de barras

ggplot(data = tabla2, aes(x = x, y=f.prob.x, fill=x)) + 
  geom_bar(stat="identity")

3.4.2.2 Gráfica lineal acumulada

ggplot(data = tabla2, aes(x = x, y=F.acum.x)) +
  geom_point(colour="blue") + 
  geom_line(colour="red")

Observando las gráficas de barras y las tablas de probabilidad, los directivos de alto nivel están más satisfechos con el trabajo comparado con directivos de nivel medio.

3.5 Prueba de componentes electrónicos

La prueba de un número de componentes electrónicos se prueban tres componentes electrónicos, el espacio muestral que ofrece una descripción detallada de cada posible resultado se escribe como ‘N’ No Defectuoso y ‘D’ Defectuoso:

S <- c("NNN", "NND", "NDN", "DNN", 
        "NDD", "DND", "DDN", "DDD")
S
## [1] "NNN" "NND" "NDN" "DNN" "NDD" "DND" "DDN" "DDD"
  • Se define N como No defectuoso y D como defectuoso.

  • Se identifican las variables discretas como:

    • 0 defectos, no hay D en el espacio muestral

    • 1 defecto existe, existe una D en el espacio muestral

    • 2 defectos hay dos D en el espacio muestral y

    • 3 defectos hay tres D en el espacio muestral

Los variables aleatorias \(x0,x1,x2,x3\) tiene valores de cero a tres defectos determinadas por el resultado del experimento. Se determina como valores que toma la variable aleatoria \(X\), es decir, el número de artículos defectuosos cuando se prueban tres componentes electrónicos.

¿Cuál es la probabilidad de que haya 1 defecto?

discretas <- 0:3
#n <- '?'

casos <- c(1,3,3,1)

n <- sum(casos)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   # Acumulada

tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##   x casos f.prob.x F.acum.x
## 1 0     1    0.125    0.125
## 2 1     3    0.375    0.500
## 3 2     3    0.375    0.875
## 4 3     1    0.125    1.000

Se utiliza la variable \(X\) dado que el valor de la variable aleatoria \(X\) empieza en \(0\) y los vectores en R comienzan en, \(1\).

x <- 1  
paste("La probabilidad de que haya 1 defecto es: ",round(tabla$f.prob.x[x+1] * 100, 2), "%")
## [1] "La probabilidad de que haya 1 defecto es:  37.5 %"

¿Cuál es la probabilidad de que haya 2 defectos o mas?

x <- 2 
paste("La probabilidad de que haya 2 defectos o mas es: ",round(sum(tabla$f.prob.x[x+1], tabla$f.prob.x[x+2]) * 100, 2), "%")
## [1] "La probabilidad de que haya 2 defectos o mas es:  50 %"

3.5.1 Gráfica de barras

ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
  #geom_bar(stat="identity")
  geom_bar(stat="identity")

3.5.2 Gráfica de probabilidad acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point() + 
  geom_line() 

4 Interpretación

Responder descriptivamente a las siguientes preguntas:

  • ¿Cuál es la variable aleatoria y su significado en cada contexto?

    R: Es una variable que representa el resultado de un experimento; Su valor es aleatorio, y solo se determina tras haber obtenido el resultado del experimento, como por ejemplo los resultados de tirar un dado varias veces. Pueden ser Discretas o Continuas.

    En el ejercicio de los billetes toma un valor de 0 a 1, en el de la venta de automóviles puede tomar uno de 0 a 5, en los niños de cuarto grado de 6 a 14, en el ejercicio de la satisfacción en el trabajo puede tomar un valor de 1 a 5, y en el de componentes electrónicos puede tomar un valor de 0 a 3.

  • ¿Qué valores puede tomar una variable aleatoria discreta?

    R: Puede tomar cualquier valor dentro del contexto del experimento, siempre y cuando sea un valor entero.

  • ¿Cuál es el espacio muestral en cada contexto?

    R: En el ejercicio de los billetes de lotería, el espacio muestral de 0 es de 4,997 y el de 1 es 3, en el ejercicio de la venta de automóviles, el espacio de 0 automóviles vendidos en un día es de 54 casos, de 1 vendidos es 117, de 2 es 72, de 3 es 42, de 4 es 12 y de 5 es 3. En el caso de las lecturas de los niños de cuarto grado, de 6 años son 37,369 casos, de 7 años son 87,436, en 8 años son 160,540, en 9 es 239,719, en 10 es 286,719, en 11 años son 306,533, en 12 años son 310,787, en 13 años son 302,604 y en 14 años son 289,168 casos. En el de las pruebas de componentes, en 0 defectos hay 1 caso, con 1 defecto hay 3 casos, en 2 defectos hay 3 casos y en 3 defectos hay 1 caso.

  • ¿Que significado tiene el gráfico de barra?

    R: Representa la probabilidad o frecuencia de cada valor que toma la variable aleatoria discreta.

  • ¿Qué significado tiene el gráfico lineal acumulado?

    R: Representa la probabilidad acumulada de cada caso, y permite identificar cómo se puede disparar la diferencia de la variable.

  • ¿Qué les deja el caso?

    R: Aquí analizamos el concepto de una variable aleatoria, y definimos que esta adquiere un valor positivo que depende del campo muestral y el resultado que se obtiene al realizar un experimento en éste ultimo. Pueden ser Discretas, en cuyo caso estas terminan adquiriendo un valor entero positivo.

    Además, utilizando la librería ggplot pudimos representar gráficamente las frecuencias y probabilidades acumuladas de los resultados de las variables aleatorias de cada ejercicio. Con ello podemos analizar qué tanto se repite el valor de una variable aleatoria, además de poder observar las diferencias que hay entre un resultado y otro en los distintos casos de los campos muestrales.

5 Referencias bibliográficas

Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008a. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,.

———. 2008b. Estadística Para Administración y Economía. 10th ed. Australia Brasil Corea España Estados Unidos Japón México Reino Unido Singapur: Cengage Learning,.

Course Hero. n.d. “Variables Aleatorias - Variables Aleatorias Problemas…” https://www.coursehero.com/file/14618142/Variables-aleatorias/.

Lind, Douglas, William Marchal, and Samuel Wathen. 2015. Estadística Aplicada a Los Negocios y La Economía. Decimo Sexta. México, D.F.: McGraw-Hill.

Walpole, Ronald E., Raymond H. Myers, and Sharon L. Myers. 2012. Probabilidad y Estadística Para Ingeniería y Ciencias. Novena Edición. México: Pearson.