TEMA10: FUNCIONES DE PROBABILIDAD
La distribución binomial es un modelo teórico utilizado para representar una variable aleatoria discreta, la cual solo puede finalizar en dos resultados mutuamente excluyentes (Éxito o Fracaso).
La distribución geométrica tiene un gran parecido con la distribución binomial ya que también consiste en una serie de ensayos donde pueden ocurrir éxitos o fracasos. Además, cada ensayo es idéntico e independiente del otro, sin embargo, no hay un número fijo n de ensayos, sino que el experimento se repite hasta que se consiga el éxito.
La distribución hipergeométrica es una distribución de probabilidad que describe el número de casos de éxito en una extracción aleatoria y sin reemplazo de n elementos de una población.
La distribución de Poisson es una distribución de probabilidad discreta que modeliza la frecuencia de eventos determinados durante un tiempo fijado a partir de la frecuencia media de aparición de dichos eventos.
Se sabe que una máquina que fabrica un determinado producto el 10% es defectuoso. Si se toma una muestra de 10 elementos, ¿cuál es la probabilidad de que 2 estén defectuosos y que más de 2 estén defectuosos?
Suponga que se sabe que la probabilidad de que una empresa experimente una falla en la red en una semana determinada es del 10%. ¿Cuál es la probabilidad de que en 5 semanas o más experimente una falla en la red?
En una bolsa metemos 20 bolas de color azul y 30 bolas de color rojo, es decir, en total hay 50 bolas dentro de la bolsa. Si extraemos 12 bolas sin reponer ninguna, calcula cuál es la probabilidad de sacar más de 4 bolas de color azul.
En temporada de invierno, la probabilidad de que una estación de esquí abra antes de diciembre es del 5%. De las 100 estaciones de esquí, ¿cuál es la probabilidad de que a lo sumo 5 abran antes de diciembre?
En una cierta fábrica se fabrican cada día como máximo 50 mil metros de cable y mínimo seguro 30 mil metros. Si la variable sigue una distribución uniforme continua: ¿Qué porcentaje de días se fabrican más de 34 mil metros de cable?
\(P(X > 34000) = 1 - P(X ≤ 34000)\)
Suponga que la demanda mensual de fierro para construcción por semana se distribuye normalmente con una media de 650 Kg y una desviación estándar de 100 kg. Calcule la probabilidad de que la demanda no supere los 500 kg.
Construcción de una tabla de probabilidades con distintos grados de libertad:
El tiempo durante el cual una batería trabaja de forma efectiva hasta que falle se distribuye según el modelo exponencial con un tiempo promedio de falla igual a 360 días. Hallar la probabilidad que el tiempo de la batería falle cuando esta sea mayor a 400 días.
\(P(X > 400) = 1 - P(X ≤ 400)\)
Construcción de una tabla de probabilidades con distintos grados de libertad:
TEMA 11: INTERVALOS DE CONFIANZA
\[IC = \bar{x} \pm t_{\alpha/2,\,n-1} \cdot \frac{s}{\sqrt{n}}\]
Donde:
\(\bar{x}\): media muestral
\(t_{\alpha/2,\,n-1}\): valor crítico de t de Student con \(n-1\) grados de libertad
\(s\): desviación estándar muestral
\(n\): tamaño de la muestra
\[IC = \hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}\]
Donde:
\(\hat{p}\): proporción muestral
\(z_{\alpha/2}\): valor crítico de la normal estándar
\(n\): tamaño de la muestra
\[IC = \left[ \sqrt{ \frac{(n-1)s^2}{\chi^2_{1-\alpha/2,\,n-1}} },\ \sqrt{ \frac{(n-1)s^2}{\chi^2_{\alpha/2,\,n-1}} } \right]\]
Donde:
\(s\): desviación estándar muestral
\(n\): tamaño de la muestra
\(\chi^2_{1-\alpha/2,\,n-1}\) y \(\chi^2_{\alpha/2,\,n-1}\): valores críticos de la distribución chi-cuadrado con \(n-1\) grados de libertad.
TEMA 12: PRUEBAS DE HIPÓTESIS
Hipótesis para la media
Hipótesis para la proporción
Hipótesis para la diferencia de proporciones
Con varianzas distintas o muestras heterogéneas:
t.test(x, y, alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 0.95)
Con varianzas iguales o muestras homogéneas:
Hipótesis:
\(H_0\): Los datos se ajustan a una distribución normal
\(H_1\): Los datos no se ajustan a una distribución normal
Comandos en R:
Hipótesis:
\(H_0\): Las varianzas son iguales
\(H_1\): Las varianzas son distintas
Comandos en R:
TEMA 13: ANOVA Y TUKEY
Descripción:
Hipótesis:
\(H_0\): Las medias de los grupos son iguales
\(H_1\): Al menos una de las medias es diferente
Código en R:
iris
# Cargar datos
data(iris)
# ANOVA: comparar medias de Sepal.Length por especie
modelo_aov <- aov(Sepal.Length ~ Species, data = iris)
# Ver resultados del ANOVA
summary(modelo_aov)
Df Sum Sq Mean Sq F value Pr(>F)
Species 2 63.21 31.606 119.3 <2e-16 ***
Residuals 147 38.96 0.265
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
\(H_0\): Las medias de Sepal.Length son iguales entre especies.
\(H_1\): Al menos una media es diferente.
Conclusión: Las medias de Sepal.Length no son iguales entre al menos dos especies
Descripción:
La prueba de Tukey es un análisis post-hoc que se aplica tras un ANOVA significativo. Su objetivo es identificar qué pares de grupos difieren en sus medias, controlando el error tipo I.
Código en R:
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = Sepal.Length ~ Species, data = iris)
$Species
diff lwr upr p adj
versicolor-setosa 0.930 0.6862273 1.1737727 0
virginica-setosa 1.582 1.3382273 1.8257727 0
virginica-versicolor 0.652 0.4082273 0.8957727 0
$statistics
MSerror Df Mean CV MSD
0.2650082 147 5.843333 8.809859 0.2437727
$parameters
test name.t ntr StudentizedRange alpha
Tukey Species 3 3.348424 0.05
$means
Sepal.Length std r se Min Max Q25 Q50 Q75
setosa 5.006 0.3524897 50 0.07280222 4.3 5.8 4.800 5.0 5.2
versicolor 5.936 0.5161711 50 0.07280222 4.9 7.0 5.600 5.9 6.3
virginica 6.588 0.6358796 50 0.07280222 4.9 7.9 6.225 6.5 6.9
$comparison
NULL
$groups
Sepal.Length groups
virginica 6.588 a
versicolor 5.936 b
setosa 5.006 c
attr(,"class")
[1] "group"
iris
# Prueba de comparaciones múltiples post-ANOVA
tukey_result <- TukeyHSD(modelo_aov)
# Mostrar resultados
print(tukey_result)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = Sepal.Length ~ Species, data = iris)
$Species
diff lwr upr p adj
versicolor-setosa 0.930 0.6862273 1.1737727 0
virginica-setosa 1.582 1.3382273 1.8257727 0
virginica-versicolor 0.652 0.4082273 0.8957727 0
Conclusiones:
La media de Sepal.Length en versicolor es 0.930 unidades mayor que en setosa.
La media de Sepal.Length en virginica es 1.582 unidades mayor que en setosa.
La media de Sepal.Length en virginica es 0.652 unidades mayor que en versicolor.