Obetivo:

Resolver cuestiones de casos de probabilidad en casos mediante la identificación de variables aleatorias, funciones de probabilidad, funciones acumuladas, media, varianza y desviación estándar de distribuciones de variables discretas; visualización gráfica relacionada con variables discretas.

Descripcion:

Identificar casos relacionados con variables discretas para elaborar mediante programación R y markdown las variables discretas, las funciones de probabilidad de cada variable, la función acumulada, su visualización gráfica para su correcta implementación. Se incluye en el caso, media, varianza y desviación estándar de distribuciones de variables discretas. Los casos son identificados de la literatura relacionada con variables aleatorias discretas.

Proceso:

Paso 1: Cargar librerias

library(ggplot2)
library(stringr)
library(stringi)
library(gtools)
library(dplyr)
library(knitr)

Paso 2: Identificar ejercicios de la literatura

Ejercicio 2.1: Lanzamiento de dado

Ejercicio sacado de: (https://www.vadenumeros.es/sociales/variable-aleatoria-discreta.htm)

Lanzamos un dado perfecto 240 veces, anotamos el resultado obtenido en la cara superior obteniendo los siguientes resultados: 40, 39, 42, 38, 42, 39. Las probabilidades de que le primer tiro sea 2 y los demas tiros sean 4 y 6.

Tabla de probabilidades:
lanzadas <- c(1,2,3,4,5,6)
n <- 240
resultados <- c(40, 39, 42, 38, 42, 39)
probabilidades <- resultados / n

acumulada <- cumsum(probabilidades)

tabla <- data.frame(x=lanzadas, 
                    resultados = resultados,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##   x resultados  f.prob.x  F.acum.x
## 1 1         40 0.1666667 0.1666667
## 2 2         39 0.1625000 0.3291667
## 3 3         42 0.1750000 0.5041667
## 4 4         38 0.1583333 0.6625000
## 5 5         42 0.1750000 0.8375000
## 6 6         39 0.1625000 1.0000000
  • Las probabilidades de que el primer tiro sea 2 es de 0.16%

  • La probabilidad de que los demas tiros sean 4 y 6 son de 0.31%

valor.esperado <- sum(tabla$x * tabla$f.prob.x)

paste("El  valor de la media de la distribución es: ", valor.esperado, "%")
## [1] "El  valor de la media de la distribución es:  3.5 %"
varianza <- sum((tabla$x - valor.esperado)^2 * tabla$f.prob.x)

paste("El valor de la varianza de la distribución es: ", varianza,"%")
## [1] "El valor de la varianza de la distribución es:  2.9 %"
desviacion <- sqrt(varianza)

paste("El valor de desviación de la distribución es: ", desviacion,"%")
## [1] "El valor de desviación de la distribución es:  1.70293863659264 %"
Grafica de barras
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
  geom_bar(stat="identity")

Grafica lineal acumulada
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
    geom_point() + 
  geom_line()

Ejercico 2.2: Venta de automoviles

ejercicio sacado de (https://rpubs.com/rpizarro/686538)

Las ventas de automóviles de una empresa durante los últimos 300 días de operación, los datos de ventas muestran que hubo:

  • 80 días en los que se vendieron 2 automóviles.

  • 200 días en los que se vendieron 3 automóviles.

  • 49 días en los que se vendieron 5 automóviles.

  • 72 días en los que se vendieron 8 automóviles.

  • 50 días en los que se vendieron 1 automóviles.

  • 14 días en los que se vendieron 10 automóviles.

Tabla de probabilidades:
discretas <- c(2,3,5,8,1,10)
n <- 300

casos <- c(80, 200, 49, 72, 50, 12)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)

tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##    x casos  f.prob.x  F.acum.x
## 1  2    80 0.2666667 0.2666667
## 2  3   200 0.6666667 0.9333333
## 3  5    49 0.1633333 1.0966667
## 4  8    72 0.2400000 1.3366667
## 5  1    50 0.1666667 1.5033333
## 6 10    12 0.0400000 1.5433333
  • La probabilidad de que se venda exactamente 5 automoviles es: 0.16%

  • La probabilidad de que se venda 3 automóviles es: 0.66%

valor.esperado <- sum(tabla$x * tabla$f.prob.x)

paste("El  valor de la media de la distribución es: ", valor.esperado, "%")
## [1] "El  valor de la media de la distribución es:  5.83666666666667 %"
varianza <- sum((tabla$x - valor.esperado)^2 * tabla$f.prob.x)

paste("El valor de la varianza de la distribución es: ", varianza,"%")
## [1] "El valor de la varianza de la distribución es:  15.1195504814815 %"
desviacion <- sqrt(varianza)

paste("El valor de desviación de la distribución es: ", desviacion,"%")
## [1] "El valor de desviación de la distribución es:  3.8883866167707 %"
Grafica de barras
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +

  geom_bar(stat="identity")

Grafica lineal acumulada
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point() + 
  geom_line()

Ejercicio 2.3:

En Estados Unidos un porcentaje de los niños de cuarto grado no pueden leer un libro adecuado a su edad. La tabla siguiente muestra, de acuerdo con las edades de entre 6 y 14 años, el número de niños que tienen problemas de lectura. La mayoría de estos niños tienen problemas de lectura que debieron ser detectados y corregidos antes del tercer grado.(Anderson et al., 2008)

  • ¿Cuál es la probabilida de elegir alumnos que tienen problemas de exactamente 13 años?
  • ¿Cuál es la probabilidad de encontrar alumnos por de 7 años o menos?
Tabla de probabilidades:
discretas <- 6:14
n <- 1000000

casos <- c(37369, 87436, 160840,239719,286719,306533,310787,302604,289168)

n <- sum(casos)
probabilidades <- casos /n

acumulada <- cumsum(probabilidades)

tabla <- data.frame(x=discretas, 
                    casos = casos,
                    f.prob.x = probabilidades,
                    F.acum.x = acumulada)
tabla
##    x  casos   f.prob.x   F.acum.x
## 1  6  37369 0.01848875 0.01848875
## 2  7  87436 0.04325998 0.06174874
## 3  8 160840 0.07957747 0.14132621
## 4  9 239719 0.11860378 0.25992999
## 5 10 286719 0.14185758 0.40178757
## 6 11 306533 0.15166079 0.55344837
## 7 12 310787 0.15376551 0.70721387
## 8 13 302604 0.14971687 0.85693075
## 9 14 289168 0.14306925 1.00000000
  • La probabilidad de elegir alumnos que tienen problemas de exactamente 13 años es 14.97%

  • La probabilidad de encontrar alumnos por de 7 años o menos es de 61.73%

valor.esperado <- sum(tabla$x * tabla$f.prob.x)

paste("El  valor de la media de la distribución es: ", valor.esperado, "%")
## [1] "El  valor de la media de la distribución es:  10.9991257560577 %"
varianza <- sum((tabla$x - valor.esperado)^2 * tabla$f.prob.x)

paste("El valor de la varianza de la distribución es: ", varianza,"%")
## [1] "El valor de la varianza de la distribución es:  4.52710401385875 %"
desviacion <- sqrt(varianza)

paste("El valor de desviación de la distribución es: ", desviacion,"%")
## [1] "El valor de desviación de la distribución es:  2.12769923012129 %"
Grafica de barras:
ggplot(data = tabla, aes(x = x, y=f.prob.x)) +
  geom_bar(stat="identity")

Grafica de linea acumulada:
ggplot(data = tabla, aes(x = x, y=F.acum.x)) +
  geom_point() + 
  geom_line()

Paso 3: Interpretación de cada caso

3.1 ¿Cuál es la variable aleatoria y su significado en el contexto?

  • Las variables aleatorias discretas ayudan a sacar la probabilidad de elementos los cuales sean finitos o infinitamente en algunos valores.

3.2 ¿Qué valores puede tomar la variable aleatoria?

  • Los valores que puede tomar son los sacados de la probabilidades de los casos.

3.3 ¿Cuál es el espacio muestral?, todos los elementos

  • El espacio muestral es el que toma todos los posibles posibilidades que pueda tener las variables.

3.4 ¿Cuántos elementos hay en espacio muestral (S)?

  • Estos pueden varian segun su caso, por ejemplo al lanzar una moneda dos veces, esta daria en total como 8 combinaciones, las cuales pueden dar una probabilidad de un grupo de los 8 casos que se conocen.

3.5 ¿Cuántos casos hay de cada valor de cada variable aleatoria?

  • En el primer ejercicio y segundo, son 6 casos los cuales se observan, en el ultimo se busca 9 casos.

3.6 ¿Cuáles son las probabilidades más altas de cada variable aleatoria?

  • Las de encontrar alumnos por de 7 años o menos que son del 61.73%, tambien las de que se venda 3 automóviles son 0.66% y de que el tiro del dado sean 4 y 6 son de 0.31%.

3.7 Resolver lo que se solicita encontrando al menos dos probabilidades de variables aleatorias.

  • 3.7.1 Que sea exactamente igual a un valor de variable aleatoria:

  • La probabilidad de que se venda 3 automóviles es: 0.66%.

  • 3.7.2 Qué sea menor o igual:

  • La probabilidad de que se venda exactamente 5 automoviles es de 0.16%.

  • 3.7.3 Que sea mayor o igual:

  • La probabilidad de encontrar alumnos por de 7 años o menos es de 61.73%.

  • 3.7.4 Alguna otra pregunta del caso.

  • Ninguna

3.8 ¿Qué significado tiene la gráfica de barra?

  • El significado es que deja ver desde otro punto de vista, las probabilidades de los casos y los organiza en grupos.

3.9 ¿Qué significado tiene la gráfica lineal acumulado?

  • Es lo parecido a la grafica de barra, pero solo esta lo pone en una liena la cual define si esta en un pico alto o bajo, dependiendo de la probabilidad.

3.10 ¿Cuál es el valor de de la media de la distribución y qué significa?

  • El valor de la media de la distribucion es 3.5%, 5.86% y de 10.9%, lo que significa que la es la media del valor y la probabilidad dada por los ejercicios.

3.11 ¿Cuál es el valor de la varianza de la distribución y qué significa?

  • El valor de la varianza de la distribución es de 4.52%, 15.11%, y 2.9%, lo que significa que esos son las medidas dispersadas de los valores dados en los ejercicios, los cuales al sumarlos dan ese resultado.

3.12 ¿Cuál es el valor de desviación de la distribución y qué significa?

  • El valor de desviación de la distribución es 1.7%, 3.8%, y de 2.12%, lo que quiere decir que son las dispersiones obtenidas por los ejercicios.