1 Objetivo

Resolver cuestiones de casos de probabilidad en casos mediante la identificación de variables aleatorias, funciones de probabilidad, funciones acumuladas y visualización gráficas relacionados con variables discretas.

2 Descripción

Identificar casos relacionados con variables discretas para elaborar mediante programación R y markdown las variables discretas, las funciones de probabilidad de cada variable, la función acumulada y su visualización gráfica para su adecuada interpretación.

3 Fundamento teórico

Una variable aleatoria es una descripción numérica del resultado de un experimento (Anderson, Sweeney, and Williams 2008a).

Las variables aleatorias deben tomar valores numéricos. En efecto, una variable aleatoria asocia un valor numérico a cada uno de los resultados experimentales.

El valor numérico de la variable aleatoria depende del resultado del experimento. Una variable aleatoria puede ser discreta o continua, depende del tipo de valores numéricos que asuma. (Anderson, Sweeney, and Williams 2008a). Para este documento se tratan únicamente variables del tipo discreto.

En cualquier experimento aleatorio, los resultados se presentan al azar; así, a este se le denomina variable aleatoria. Por ejemplo, lanzar un dado constituye un experimento: puede ocurrir cualquiera de los seis resultados posibles. Cada valor de la variable aleatoria se relaciona con una probabilidad que indica la posibilidad de un resultado determinado(Lind, Marchal, and Wathen 2015)

En su libro (Walpole, Myers, and Myers 2012) define que una variable aleatoria es una función que asocia un número real con cada elemento del espacio muestral.

Una función de probabilidad, una función de masa de probabilidad o una distribución de probabilidad de la variable aleatoria discreta X si, para cada resultado x posible.

.

    1. Toda función de probabilidad debe ser mayor o igual que 00.f(x)≥0f(x)≥0
    1. La suma de las probabilidad de todas las variables xx debe ser igual a 1 o la suma de los valores de cada función de probabildiad con respecto a xx debe ser 1 $$
    1. La probabilidad de cada variable xx es igual a la función de probabilidad con respeto a \(P(X=x)=f(x)\) (Walpole, Myers, and Myers 2012)

Por otra parte, la función de la distribución acumulativa F(x) ó probabilidad acumulada de una variable aleatoria discreta \(X\) con distribución de probabilidad \(f(x)\) está dada por la suma de sus probabilidades de \(t\) siendo \(t\) menor o igual a \(x\) .Es decir, la probabilidad acumulada suma los valores de las funciones de probabilidad a partir del valor inicia de \(x\). El valor final con respecto a valor final de xx debe ser igual a 1.

\(F(x)=P(X≤x)=∑t≤xf(t\) )

(Walpole, Myers, and Myers 2012)

Ejemplo 1:

Se hace un estudio a personas para conocer preguntarles ¿cuántas personas viven en su casa?, la variable aleatoria es discreta porque son valores hay valores entre uno y seis.

Se muestra una tabla de distribución de probabilidad.

Variable aleatoria

Cuántas personas viven en casa
Frecuencia relativa = Probabilidad Probabilidad Acumulada
1 0.10 0.10
2 0.14 0.24
3 0.16 0.40
4 0.30 0.70
5 0.20 0.90
6 0.10 1.00

¿Cuál es la probabilidad de que viva una persona en casa?. R. 0.10

¿Cuál es la probabilidad de elegir a una persona al azar y que responda que viven 4 personas en casa?. R. 0.30

Es posible encontrar o calcular probabilidades conjuntas o que se tenga que sumar (unir) probabilidad de acuerdo las variables aleatorias.

¿Cuál es la probabilidad de que se le pregunte a una persona y mencione de que en casa viven de 1 a 3 personas. Hay que sumar probabilidades \(P(1)+P(2)+P(3)=0.10+0.14+0.16=0.40\) o lo que es lo mismo es la probabilidad acumulada para cuando la variable aleatoria esté entre uno y tres. 0.40.

Existe cuestionamientos de probabilidad de que al menos se tenga un valor en la variable aleatoria. Es necesario apoyarse de la probabilidad acumulada.

Por ejemplo: ¿Cuál es la probabilidad de que al menos hay 5 personas que viven en casa? Se calcula a partir de la probabilidad de \(P(5)+P(6)=0.20+0.10=0.30\) o también se pudo haber encontrado el complemento de la probabilidad acumulada de P(4) es decir 1−P(4)=1−0.70=0.30

En R se presenta una variable llamada variables que almacena los valores de las variables aleatorias discretas entre uno y seis.

Algunas librerías necesarias para el caso. Se debe recordar que las librerías deberán estar previamente instaladas con install.packages()

library(ggplot2)
library(stringr)  # String
library(stringi)  # String
library(gtools)
library(dplyr)
library(knitr)

4 Desarrollo

Se presentan ejercicios relacionadas con variables aleatorias y su probabilidad, para cada ejercicio, se describe y define el contexto, se construye la tabla de probabilidad que contiene los valores de la variable aleatoria, la función de probabilidad y su función acumulada, la gráfica de barra de los valores de las variables aleatoria y la gráfica lineal de la función acumulada.

4.1 Billetes de rifa

Se venden 5000 billetes para una rifa a 1 euro cada uno. Existe un único premio de cierta cantidad, calcular los valores de las variables aleatorias y sus probabilidades para 0 para no gana y 1 para si gana cuando un comprador adquiere tres billetes. (Course Hero, n.d.).

4.1.1 Tabla de probabilidad

discretas <- c(0,1)   # 0 Que no gane, 1 que gane
n <- 5000
casos <- c(4997,3)
probabilidades <- casos / n

acumulada <- cumsum(probabilidades)   # Acumulada

tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##   x casos f.prob.x F.acum.x
## 1 0  4997   0.9994   0.9994
## 2 1     3   0.0006   1.0000

4.1.2 Gráfica de barras

ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
  geom_bar(stat="identity")

4.1.3 Gráfica lineal acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
    geom_point() + 
  geom_line()

4.2 Venta de automóviles

Las ventas de automóviles de una empresa durante los últimos 300 días de operación, los datos de ventas muestran que hubo:

  • 54 días en los que no se vendió ningún automóvil,

  • 117 días en los que se vendió 1 automóvil,

  • 72 días en los que se vendieron 2 automóviles,

  • 42 días en los que se vendieron 3 automóviles,

  • 12 días en los que se vendieron 4 automóviles y

  • 3 días en los que se vendieron 5 automóviles.

4.2.1 Tabla de probabilidades

discretas <- 0:5   # c(0,1,2,3,4,5)
n <- 300

casos <- c(54, 117, 72, 42, 12, 3)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   # Acumulada

tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##   x casos f.prob.x F.acum.x
## 1 0    54     0.18     0.18
## 2 1   117     0.39     0.57
## 3 2    72     0.24     0.81
## 4 3    42     0.14     0.95
## 5 4    12     0.04     0.99
## 6 5     3     0.01     1.00

¿Cuál es la probabilidad de que se venda exactamente un automóvil? \(prob=\frac{117}{300} =\) 0.39

¿Cuál es la la probabilidad de que se venda de uno a dos automóviles?. \(prob=∑P(x1,x2)=0.63\)

¿Cuál es la la probabilidad de que se venda al menos dos automóviles?.

\(prob=∑P(x2,x3,x4,x5)=1−Prob.Acum(x1)=0.43\)

4.2.2 Gráfica de barras

ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
  #geom_bar(stat="identity")
  geom_bar(stat="identity")

4.2.3 Gráfica lineal acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point() + 
  geom_line()

4.3 Niños de cuarto grado

En Estados Unidos un porcentaje de los niños de cuarto grado no pueden leer un libro adecuado a su edad.

La tabla muestra, de acuerdo con las edades de entre 6 y 14 años, el número de niños que tienen problemas de lectura. La mayoría de estos niños tienen problemas de lectura que debieron ser detectados y corregidos antes del tercer grado(Anderson, Sweeney, and Williams 2008b).

4.3.1 Tabla de probabilidad

discretas <- 6:14
#n <- '?'

casos <- c(37369, 87436, 160840,239719,286719,306533,310787,302604,289168)

n <- sum(casos)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   # Acumulada

tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##    x  casos   f.prob.x   F.acum.x
## 1  6  37369 0.01848875 0.01848875
## 2  7  87436 0.04325998 0.06174874
## 3  8 160840 0.07957747 0.14132621
## 4  9 239719 0.11860378 0.25992999
## 5 10 286719 0.14185758 0.40178757
## 6 11 306533 0.15166079 0.55344837
## 7 12 310787 0.15376551 0.70721387
## 8 13 302604 0.14971687 0.85693075
## 9 14 289168 0.14306925 1.00000000

¿Cuál es la probabilidad de elegir alumnos que tienen problemas de exactamente 10 años?.

\(prob=P(x10)=286719n=0.1418\)

¿Cuál es la probabilidad de encontrar alumnos de 11 años o menos?.

\(prob=∑Prob(x6,x7,x8,x9,x10,x11)=Prob.Acum(x11)=0.5534\)

4.4 Satisfacción en el trabajo

Se muestra la distribución de frecuencias porcentuales para las puntuaciones dadas a la satisfacción con el trabajo por una muestra de directivos en sistemas de información de nivel alto y de nivel medio. Las puntuaciones van de 1 (muy insatisfecho) a 5 (muy satisfecho).(Anderson, Sweeney, and Williams 2008b).

4.4.1 Para directivos de nivel alto

4.4.1.1 Tabla de probabilidad

Para este ejercicio se utiliza tabla1 y tabla2 como variables para identificar los valores de acuerdo al tipo de ejecutivo.

¿Cuál es la probabilidad de que un ejecutivo de nivel alto tenga una puntuación de 4 o 5 en satisfacción con el trabajo?

discretas <- 1:5
#n <- '?'

casos <- c(5,9,3,42,41)

n <- sum(casos)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   


tabla1 <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla1
##   x casos f.prob.x F.acum.x
## 1 1     5     0.05     0.05
## 2 2     9     0.09     0.14
## 3 3     3     0.03     0.17
## 4 4    42     0.42     0.59
## 5 5    41     0.41     1.00
paste("La probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo es:", round(sum(tabla1$f.prob.x[4], tabla1$f.prob.x[5]) * 100, 2), "%")
## [1] "La probabilidad de que un ejecutivo de nivel alto dé una puntuación de 4 o 5 a su satisfacción con el trabajo es: 83 %"

4.4.1.2 Gráfica de barra

ggplot(data = tabla1, aes(x = x, y=f.prob.x, fill=x)) + 
  geom_bar(stat="identity")

4.4.1.3 Gráfica lineal acumulada

ggplot(data = tabla1, aes(x = x, y=F.acum.x)) +
  geom_point(colour="blue") + 
  geom_line(colour="red")

4.4.2 Para directivos de nivel medio

¿Cuál es la probabilidad de que un ejecutivo de nivel medio esté muy satisfecho?

discretas <- 1:5
#n <- '?'

casos <- c(4, 10, 12, 46, 28)

n <- sum(casos)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   


tabla2 <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla2
##   x casos f.prob.x F.acum.x
## 1 1     4     0.04     0.04
## 2 2    10     0.10     0.14
## 3 3    12     0.12     0.26
## 4 4    46     0.46     0.72
## 5 5    28     0.28     1.00
paste(" La probabilidad de que un ejecutivo de nivel medio esté muy satisfecho es:", round(tabla2$f.prob.x[5] * 100, 2), "%")
## [1] " La probabilidad de que un ejecutivo de nivel medio esté muy satisfecho es: 28 %"

4.4.2.1 Gráfica de barras

ggplot(data = tabla2, aes(x = x, y=f.prob.x, fill=x)) + 
  geom_bar(stat="identity")

4.4.2.2 Gráfica lineal acumulada

ggplot(data = tabla2, aes(x = x, y=F.acum.x)) +
  geom_point(colour="blue") + 
  geom_line(colour="red")

Observando las gráficas de barras y las tablas de probabilidad, los directivos de alto nivel están más satisfechos con el trabajo comparado con directivos de nivel medio.

4.5 Prueba de componentes electrónicos

La prueba de un número de componentes electrónicos se prueban tres componentes electrónicos, el espacio muestral que ofrece una descripción detallada de cada posible resultado se escribe como ‘N’ No Defectuoso y ‘D’ Defectuoso:

S <- c("NNN", "NND", "NDN", "DNN", 
        "NDD", "DND", "DDN", "DDD")
S
## [1] "NNN" "NND" "NDN" "DNN" "NDD" "DND" "DDN" "DDD"
  • Se define N como No defectuoso y D como defectuoso.

  • Se identifican las variables discretas como:

    • 0 defectos, no hay D en el espacio muestral

    • 1 defecto existe, existe una D en el espacio muestral

    • 2 defectos hay dos D en el espacio muestral y

    • 3 defectos hay tres D en el espacio muestral

Los variables aleatorias \(x0,x1,x2,x3\) tiene valores de cero a tres defectos determinadas por el resultado del experimento. Se determina como valores que toma la variable aleatoria \(x\) , es decir, el número de artículos defectuosos cuando se prueban tres componentes electrónicos.

¿Cuál es la probabilidad de que haya 1 defecto?

discretas <- 0:3
#n <- '?'

casos <- c(1,3,3,1)

n <- sum(casos)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)   # Acumulada

tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##   x casos f.prob.x F.acum.x
## 1 0     1    0.125    0.125
## 2 1     3    0.375    0.500
## 3 2     3    0.375    0.875
## 4 3     1    0.125    1.000

Se utiliza la variable \(x\) dado que el valor de la variable aleatoria \(x\) empieza en \(0\) y los vectores en R comienzan en, 1.

x <- 1  
paste("La probabilidad de que haya 1 defecto es: ",round(tabla$f.prob.x[x+1] * 100, 2), "%")
## [1] "La probabilidad de que haya 1 defecto es:  37.5 %"

¿Cuál es la probabilidad de que haya 2 defectos o mas?

x <- 2 
paste("La probabilidad de que haya 2 defectos o mas es: ",round(sum(tabla$f.prob.x[x+1], tabla$f.prob.x[x+2]) * 100, 2), "%")
## [1] "La probabilidad de que haya 2 defectos o mas es:  50 %"
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
  #geom_bar(stat="identity")
  geom_bar(stat="identity")

4.5.2 Gráfica de probabilidad acumulada

ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point() + 
  geom_line() 

5 Interpretación

Responder descriptivamente a las siguientes preguntas:

  • ¿Cuál es la variable aleatoria y su significado en cada contexto?

    Primero que nada debemos tener en cuenta que la variable aleatoria es una funcion que asigna un valor, numerico, al resultado de un experimento aleatorio. Un ejemplo muy sencillo es el de tirar un dado.

    Una vez teniendo eso en cuenta, la variable aleatoria en el primer caso de billetes de rifa es de 0 a 1 la probabilidad de ganar. En el segundo ejemplo de la venta de automoviles la variable aleatoria son mas que nada los automoviles que se vendieron de 0 a 5 en x . En el tercer ejemplo de los ninos de cuarto grado x se toma como las edades de 6 a 14 . En el cinco a mi parecer seria las puntuaciones de 1 a 5 Y en el ultimo ejemplo de prueba de componentes seria de 0 a 3 los componendes defectuosos y no defectuosos.

  • ¿Qué valores puede tomar una variable aleatoria discreta?

Una variable aleatoria es discreta cuando se toma un numero de valores finito o infinito numerable. Como se puede ver en el ejemplo de los componentes elecronicos las variavles discretas se toman como 0 defectos, 1 defecto existe, 2 defectos y 3 defectos en el espacio muestral, esos son los valores numericos que se toman como variable aleatoria discreta.

  • ¿Cuál es el espacio muestral en cada contexto?, todos los elementos.

En espacio muestral en el caso de componentes electronicos seria “NNN” “NND” “NDN” “DNN” “NDD” “DND” “DDN” “DDD” donde n es no defectuosos y d es defectuoso

  • ¿Que significado tiene el gráfico de barra?

Nos representa de manera mas grafica y que podamos entender de una mejor manera la probabilidad de la variable a leatoria respecto a x. por ejemplo en el caso de los electronicos de acuerdo con la columna de la tabla de frecuencia de la probabilidad de x, nos dice que cuando x es cero existe 1 caso por lo tanto su f.prob.x pasa a ser 0.125 y se representa en la grafica, y de esa manera podemos ver como se puede representar en una grafica los datos.

  • ¿Qué significado tiene el gráfico lineal acumulado?

La grafica lineal acumulada representa la grafica de una funcion por segmentos las alturas correspondientes a los extremos superiores de cada intervalo, tengan o no todos igual amplitud, siendo dicha altira igual a la columna de la frecuencia acumulada, dando asi una altura cero al extremo inferior del primer intervalo y siendo constante a partir del extremo suprerior del ultimo.

  • ¿Qué les deja el caso?

    Este caso nos deja muchas cosas como el aprender acerca de las variables aleatorias discretas donde nos dice una variable aleatoria es una descripcion numerica del resultado de un experimento. Tambien nos hace recordar acerca de las tablas de distribucion en donde sacamos la probabilidad de las variables y la probabilidad acumulada de la misma y vemos como es que es ciertos casos de la vida cotidiana esta teoria se representa y puede llegar a ser util para aplicarla en estos tipos de problemas y nos ayuda a entender de una mejor manera las variables aleatorias.

Referencias bibliográficas

Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008a. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,.

———. 2008b. Estadística Para Administración y Economía. 10th ed. Australia Brasil Corea España Estados Unidos Japón México Reino Unido Singapur: Cengage Learning,.

Course Hero. n.d. “Variables Aleatorias - Variables Aleatorias Problemas…” https://www.coursehero.com/file/14618142/Variables-aleatorias/.

Lind, Douglas, William Marchal, and Samuel Wathen. 2015. Estadística Aplicada a Los Negocios y La Economía. Decimo Sexta. México, D.F.: McGraw-Hill.

Walpole, Ronald E., Raymond H. Myers, and Sharon L. Myers. 2012. Probabilidad y Estadística Para Ingeniería y Ciencias. Novena Edición. México: Pearson.