Resolver cuestiones de casos de probabilidad en casos mediante la identificación de variables aleatorias, funciones de probabilidad, funciones acumuladas, media, varianza y desviación estándar de distribuciones de variables discretas; visualización gráfica relacionada con variables discretas.
Identificar casos relacionados con variables discretas para elaborar mediante programación R y markdown las variables discretas, las funciones de probabilidad de cada variable, la función acumulada, su visualización gráfica para su correcta implementación.
Se incluye en el caso, media, varianza y desviación estándar de distribuciones de variables discretas.
Los casos son identificados de la literatura relacionada con variables aleatorias discretas. Se deben elaborar tres ejercicios en este caso 15 encontrados en la literatura, se pueden apoyar de los mismos ejercicios del caso 14.
1.- Cargar librerias
library(ggplot2)
library(stringr) # String
library(stringi) # String
library(gtools)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(knitr)
options(scipen = 999) # Notación normal
Se venden 5000 billetes para una rifa a 1 euro cada uno. Existe un único premio de cierta cantidad, calcular los valores de las variables aleatorias y sus probabilidades para 0 para no gana y 1 para si gana cuando un comprador adquiere tres billetes. (Hero, n.d.)
Tabla de probabilidad
discretas <- c(0,1) # 0 Que no gane, 1 que gane
n <- 5000
casos <- c(4997,50)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada,
x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x |
|---|---|---|---|---|
| 0 | 4997 | 0.9994 | 0.9994 | 0.00 |
| 1 | 50 | 0.0100 | 1.0094 | 0.01 |
VE <- sum(tabla$x * tabla$f.prob.x)
VE
## [1] 0.01
tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 0 | 4997 | 0.9994 | 0.9994 | 0.00 | 0.01 | 0.0000999 |
| 1 | 50 | 0.0100 | 1.0094 | 0.01 | 0.01 | 0.0098010 |
varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza
## [1] 0.00990094
desv.std <- sqrt(varianza)
desv.std
## [1] 0.09950347
Las ventas de automóviles de una empresa
Durante los últimos 300 días de operación, los datos de ventas muestran que hubo
54 días en los que no se vendió ningún automóvil,
117 días en los que se vendió 1 automóvil,
72 días en los que se vendieron 2 automóviles,
42 días en los que se vendieron 3 automóviles,
12 días en los que se vendieron 4 automóviles y
3 días en los que se vendieron 5 automóviles.
discretas <- 0:5 # c(0,1,2,3,4,5)
n <- 300
casos <- c(54,117,72,42,12,3)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada,
x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x |
|---|---|---|---|---|
| 0 | 54 | 0.18 | 0.18 | 0.00 |
| 1 | 117 | 0.39 | 0.57 | 0.39 |
| 2 | 72 | 0.24 | 0.81 | 0.48 |
| 3 | 42 | 0.14 | 0.95 | 0.42 |
| 4 | 12 | 0.04 | 0.99 | 0.16 |
| 5 | 3 | 0.01 | 1.00 | 0.05 |
VE <- sum(tabla$x * tabla$f.prob.x)
VE
## [1] 1.5
tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 0 | 54 | 0.18 | 0.18 | 0.00 | 1.5 | 0.4050 |
| 1 | 117 | 0.39 | 0.57 | 0.39 | 1.5 | 0.0975 |
| 2 | 72 | 0.24 | 0.81 | 0.48 | 1.5 | 0.0600 |
| 3 | 42 | 0.14 | 0.95 | 0.42 | 1.5 | 0.3150 |
| 4 | 12 | 0.04 | 0.99 | 0.16 | 1.5 | 0.2500 |
| 5 | 3 | 0.01 | 1.00 | 0.05 | 1.5 | 0.1225 |
varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza
## [1] 1.25
desv.std <- sqrt(varianza)
desv.std
## [1] 1.118034
En Estados Unidos un porcentaje de los niños de cuarto grado no pueden leer un libro adecuado a su edad. La tabla siguiente muestra, de acuerdo con las edades de entre 6 y 14 años, el número de niños que tienen problemas de lectura. La mayoría de estos niños tienen problemas de lectura que debieron ser detectados y corregidos antes del tercer grado.
discretas <- 6:14
#n <- '?'
casos <- c(37369, 87436, 160840,239719,286719,306533,310787,302604,289168)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada,
x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x |
|---|---|---|---|---|
| 6 | 37369 | 124.5633 | 124.5633 | 747.380 |
| 7 | 87436 | 291.4533 | 416.0167 | 2040.173 |
| 8 | 160840 | 536.1333 | 952.1500 | 4289.067 |
| 9 | 239719 | 799.0633 | 1751.2133 | 7191.570 |
| 10 | 286719 | 955.7300 | 2706.9433 | 9557.300 |
| 11 | 306533 | 1021.7767 | 3728.7200 | 11239.543 |
| 12 | 310787 | 1035.9567 | 4764.6767 | 12431.480 |
| 13 | 302604 | 1008.6800 | 5773.3567 | 13112.840 |
| 14 | 289168 | 963.8933 | 6737.2500 | 13494.507 |
VE <- sum(tabla$x * tabla$f.prob.x)
VE
## [1] 74103.86
tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 6 | 37369 | 124.5633 | 124.5633 | 747.380 | 74103.86 | 683914091858 |
| 7 | 87436 | 291.4533 | 416.0167 | 2040.173 | 74103.86 | 1600179252848 |
| 8 | 160840 | 536.1333 | 952.1500 | 4289.067 | 74103.86 | 2943477333655 |
| 9 | 239719 | 799.0633 | 1751.2133 | 7191.570 | 74103.86 | 4386896277515 |
| 10 | 286719 | 955.7300 | 2706.9433 | 9557.300 | 74103.86 | 5246862212729 |
| 11 | 306533 | 1021.7767 | 3728.7200 | 11239.543 | 74103.86 | 5609300400253 |
| 12 | 310787 | 1035.9567 | 4764.6767 | 12431.480 | 74103.86 | 5686991569289 |
| 13 | 302604 | 1008.6800 | 5773.3567 | 13112.840 | 74103.86 | 5537104009588 |
| 14 | 289168 | 963.8933 | 6737.2500 | 13494.507 | 74103.86 | 5291106763928 |
varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza
## [1] 36985831911663
desv.std <- sqrt(varianza)
desv.std
## [1] 6081598
Se muestra la distribución de frecuencias porcentuales para las puntuaciones dadas a la satisfacción con el trabajo por una muestra de directivos en sistemas de información de nivel alto y de nivel medio. Las puntuaciones van de 1 (muy insatisfecho) a 5 (muy satisfecho)
discretas <- 1:5
#n <- '?'
casos <- c(5,9,3,42,41)
probabilidades <- casos / n
acumulada <- cumsum(probabilidades) # Acumulada
tabla <- data.frame(x=discretas,
casos = casos,
f.prob.x = probabilidades,
F.acum.x = acumulada,
x.f.prob.x = (discretas * probabilidades))
kable(tabla, caption = "Tabla de probabilidad con la columna para valor esperado")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x |
|---|---|---|---|---|
| 1 | 5 | 0.0166667 | 0.0166667 | 0.0166667 |
| 2 | 9 | 0.0300000 | 0.0466667 | 0.0600000 |
| 3 | 3 | 0.0100000 | 0.0566667 | 0.0300000 |
| 4 | 42 | 0.1400000 | 0.1966667 | 0.5600000 |
| 5 | 41 | 0.1366667 | 0.3333333 | 0.6833333 |
VE <- sum(tabla$x * tabla$f.prob.x)
VE
## [1] 1.35
tabla <- cbind(tabla, 'VE' = VE, 'x-VE.cuad.f.prob.x' = (tabla$x - VE)^2 * tabla$f.prob.x)
kable(tabla, caption = "Tabla de probabilidad con valor esperado y columnas para varianza")
| x | casos | f.prob.x | F.acum.x | x.f.prob.x | VE | x-VE.cuad.f.prob.x |
|---|---|---|---|---|---|---|
| 1 | 5 | 0.0166667 | 0.0166667 | 0.0166667 | 1.35 | 0.0020417 |
| 2 | 9 | 0.0300000 | 0.0466667 | 0.0600000 | 1.35 | 0.0126750 |
| 3 | 3 | 0.0100000 | 0.0566667 | 0.0300000 | 1.35 | 0.0272250 |
| 4 | 42 | 0.1400000 | 0.1966667 | 0.5600000 | 1.35 | 0.9831500 |
| 5 | 41 | 0.1366667 | 0.3333333 | 0.6833333 | 1.35 | 1.8207417 |
varianza <- sum((tabla$x - VE)^2 * tabla$f.prob.x)
varianza
## [1] 2.845833
desv.std <- sqrt(varianza)
desv.std
## [1] 1.68696
3.1- 4997 y 3 3.2- 0.09994 y 0.0100 3.3- 0.0990094 3.4- 0.09950347
3.1- 54,117,42,12,3 3.2- 0.18,0.39,0.24,0.14,0.04,0.01 3.3- 1.5 3.4- 1.25 3.5- 1.118034
3.1- 37369,87436,160840… 3.2- 124.56, 291.45 3.3- 74103.86 3.4- 36985831911663 3.5- 6081598
3.1- 5,9,3,42,41 3.2- 0.0166667 3.3- 1.35 3.4-2.84 3.5-1.68696