Sesión 4 - Estadística Inferencial 1

Rafael Navarro

TEMA10: FUNCIONES DE PROBABILIDAD

Dist.Discreta - Binomial

La distribución binomial es un modelo teórico utilizado para representar una variable aleatoria discreta, la cual solo puede finalizar en dos resultados mutuamente excluyentes (Éxito o Fracaso).

dbinom(x,n,p)
pbinom(x,n,p)

Dist.Discreta Geométrica

La distribución geométrica tiene un gran parecido con la distribución binomial ya que también consiste en una serie de ensayos donde pueden ocurrir éxitos o fracasos. Además, cada ensayo es idéntico e independiente del otro, sin embargo, no hay un número fijo n de ensayos, sino que el experimento se repite hasta que se consiga el éxito.

dgeom(x,p)
pgeom(x,p)

Dist.Discreta Hypergeométrica

La distribución hipergeométrica es una distribución de probabilidad que describe el número de casos de éxito en una extracción aleatoria y sin reemplazo de n elementos de una población.

dhyper(x,k,N-k,n)
phyper(x,k,N-k,n)

Dist. Discreta Poisson

La distribución de Poisson es una distribución de probabilidad discreta que modeliza la frecuencia de eventos determinados durante un tiempo fijado a partir de la frecuencia media de aparición de dichos eventos.

dpois(x,media)
ppois(x,media)

Distribución Binomial

Se sabe que una máquina que fabrica un determinado producto el 10% es defectuoso. Si se toma una muestra de 10 elementos, ¿cuál es la probabilidad de que 2 estén defectuosos y que más de 2 estén defectuosos?

dbinom(2, 10, 0.1)
[1] 0.1937102
1 - pbinom(2, 10, 0.1)
[1] 0.07019083

Distribución Geométrica

Suponga que se sabe que la probabilidad de que una empresa experimente una falla en la red en una semana determinada es del 10%. ¿Cuál es la probabilidad de que en 5 semanas o más experimente una falla en la red?

1 - pgeom(4, 0.1)
[1] 0.59049

Distribución Hipergeométrica

En una bolsa metemos 20 bolas de color azul y 30 bolas de color rojo, es decir, en total hay 50 bolas dentro de la bolsa. Si extraemos 12 bolas sin reponer ninguna, calcula cuál es la probabilidad de sacar más de 4 bolas de color azul.

1 - phyper(3, 20, 30, 12)
[1] 0.8089143

Distribución de Poisson

En temporada de invierno, la probabilidad de que una estación de esquí abra antes de diciembre es del 5%. De las 100 estaciones de esquí, ¿cuál es la probabilidad de que a lo sumo 5 abran antes de diciembre?

ppois(5, 0.5 * 100)
[1] 5.567756e-16

Distribución Uniforme Continua

  • La distribución uniforme es una de las distribuciones más sencilla para variables aleatorias continuas.
  • La característica principal de las distribuciones uniformes continuas es que para todos los valores del rango la probabilidad es la misma.
# Acumulativa
punif(x, min, max)

Distribución Normal

  • El calificativo normal de esta distribución se debe a que es típica de muchos experimentos y observaciones, especialmente en fenómenos de la naturaleza.
  • Cualquier distribución normal con media y desviación típica puede asociarse a una distribución normal con media 0 y desviación 1.
# Acumulativa
pnorm(x, media, desviación)

Distribución T de Student

  • La distribución t de Student es un modelo teórico utilizado para aproximar una población normalmente distribuida cuando se desconoce la desviación típica.
# Acumulativa
pt(x, df = grados_de_libertad)

Distribución Exponencial

  • La distribución exponencial es una distribución de probabilidad muy utilizada.
  • Se utiliza para estudiar el tiempo que transcurre hasta que suceda el primer evento y tiene asociada un parámetro lambda (1/media).
# Acumulativa
pexp(x, rate = 1/media)

Distribución Ji Cuadrado

  • Es una de las distribuciones más empleadas en todos los campos.
  • Se utiliza en pruebas de ajuste y en pruebas de hipótesis (para varianzas o desviaciones estándar).
# Acumulativa
pchisq(x, df = grados_de_libertad)

Uniforme Continua

En una cierta fábrica se fabrican cada día como máximo 50 mil metros de cable y mínimo seguro 30 mil metros. Si la variable sigue una distribución uniforme continua: ¿Qué porcentaje de días se fabrican más de 34 mil metros de cable?

\(P(X > 34000) = 1 - P(X ≤ 34000)\)

1 - punif(34, min = 30, max = 50)
[1] 0.8

Distribución Normal

Suponga que la demanda mensual de fierro para construcción por semana se distribuye normalmente con una media de 650 Kg y una desviación estándar de 100 kg. Calcule la probabilidad de que la demanda no supere los 500 kg.

1 - pnorm(500, 650, 100)
[1] 0.9331928

Distribución T de Student

Construcción de una tabla de probabilidades con distintos grados de libertad:

1 - pt(1, df = c(1:20))
 [1] 0.2500000 0.2113249 0.1955011 0.1869505 0.1816087 0.1779588 0.1753083
 [8] 0.1732968 0.1717182 0.1704466 0.1694003 0.1685245 0.1677806 0.1671410
[15] 0.1665851 0.1660975 0.1656664 0.1652825 0.1649384 0.1646283

Distribución Exponencial

El tiempo durante el cual una batería trabaja de forma efectiva hasta que falle se distribuye según el modelo exponencial con un tiempo promedio de falla igual a 360 días. Hallar la probabilidad que el tiempo de la batería falle cuando esta sea mayor a 400 días.

\(P(X > 400) = 1 - P(X ≤ 400)\)

1 - pexp(400, 1 / 360)
[1] 0.329193

Distribución Ji Cuadrado

Construcción de una tabla de probabilidades con distintos grados de libertad:

1 - pchisq(1, df = c(1:10))
 [1] 0.3173105 0.6065307 0.8012520 0.9097960 0.9625658 0.9856123 0.9948285
 [8] 0.9982484 0.9994375 0.9998279

TEMA 11: INTERVALOS DE CONFIANZA

Intervalo de Confianza para la MEDIA

\[IC = \bar{x} \pm t_{\alpha/2,\,n-1} \cdot \frac{s}{\sqrt{n}}\]

Donde:

\(\bar{x}\): media muestral
\(t_{\alpha/2,\,n-1}\): valor crítico de t de Student con \(n-1\) grados de libertad
\(s\): desviación estándar muestral
\(n\): tamaño de la muestra

t.test(x, conf.level = 0.95)

Intervalo de Confianza para la PROPORCIÓN

\[IC = \hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}\]

Donde:

\(\hat{p}\): proporción muestral
\(z_{\alpha/2}\): valor crítico de la normal estándar
\(n\): tamaño de la muestra

BinomCI(x, n, conf.level = 0.95)

Intervalo de Confianza para la DESVIACIÓN

\[IC = \left[ \sqrt{ \frac{(n-1)s^2}{\chi^2_{1-\alpha/2,\,n-1}} },\ \sqrt{ \frac{(n-1)s^2}{\chi^2_{\alpha/2,\,n-1}} } \right]\]

Donde:

\(s\): desviación estándar muestral
\(n\): tamaño de la muestra
\(\chi^2_{1-\alpha/2,\,n-1}\) y \(\chi^2_{\alpha/2,\,n-1}\): valores críticos de la distribución chi-cuadrado con \(n-1\) grados de libertad.

sqrt(VarCI(x, conf.level=0.95))

TEMA 12: PRUEBAS DE HIPÓTESIS

Contraste de hipótesis sobre una única muestra

Hipótesis para la media

t.test(x, alternative = c("two.sided", "less", "greater"), 
       mu = 0, conf.level = 0.95)

Hipótesis para la proporción

binom.test(x, n, p = 0.5, 
           alternative = c("two.sided", "less", "greater"), 
           conf.level = 0.95)

Contraste de hipótesis sobre dos muestras

Hipótesis para la diferencia de proporciones

prop.test(x, y, p = NULL, 
          alternative = c("two.sided", "less", "greater"), 
          conf.level = 0.95)

Hipótesis para la diferencia de medias (muestras no relacionadas)

Con varianzas distintas o muestras heterogéneas:

t.test(x, y, alternative = c("two.sided", "less", "greater"), 
       mu = 0, paired = FALSE, var.equal = FALSE, 
       conf.level = 0.95)

Con varianzas iguales o muestras homogéneas:

t.test(x, y, alternative = c("two.sided", "less", "greater"), 
       mu = 0, paired = FALSE, var.equal = TRUE, 
       conf.level = 0.95)

Hipótesis para la diferencia de medias (muestras pareadas)

t.test(x, y, alternative = c("two.sided", "less", "greater"), 
       mu = 0, paired = TRUE, conf.level = 0.95)

Prueba de Normalidad

Hipótesis:

\(H_0\): Los datos se ajustan a una distribución normal
\(H_1\): Los datos no se ajustan a una distribución normal

Comandos en R:

ad.test(x)       # Anderson-Darling test for normality
cvm.test(x)      # Cramer-von Mises test for normality
lillie.test(x)   # Lilliefors (Kolmogorov-Smirnov) test
pearson.test(x)  # Pearson chi-square test for normality
sf.test(x)       # Shapiro-Francia test for normality

Prueba de Homogeneidad de Varianza (Homocedasticidad)

Hipótesis:

\(H_0\): Las varianzas son iguales
\(H_1\): Las varianzas son distintas

Comandos en R:

var.test(x, y, conf.level = 0.95)
leveneTest(y, group, center = median)
bartlett.test(list(x, y))

TEMA 13: ANOVA Y TUKEY

ANOVA de un Factor

Descripción:

  • El ANOVA de un factor es un método estadístico para probar si existen diferencias significativas entre las medias de tres o más grupos.

Hipótesis:

\(H_0\): Las medias de los grupos son iguales
\(H_1\): Al menos una de las medias es diferente

Código en R:

summary(aov(variable ~ factor, data = datos))

ANOVA con el dataset iris

# Cargar datos
data(iris)

# ANOVA: comparar medias de Sepal.Length por especie
modelo_aov <- aov(Sepal.Length ~ Species, data = iris)

# Ver resultados del ANOVA
summary(modelo_aov)
             Df Sum Sq Mean Sq F value Pr(>F)    
Species       2  63.21  31.606   119.3 <2e-16 ***
Residuals   147  38.96   0.265                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

\(H_0\): Las medias de Sepal.Length son iguales entre especies.
\(H_1\): Al menos una media es diferente.

Conclusión: Las medias de Sepal.Length no son iguales entre al menos dos especies

Prueba de Tukey

Descripción:

La prueba de Tukey es un análisis post-hoc que se aplica tras un ANOVA significativo. Su objetivo es identificar qué pares de grupos difieren en sus medias, controlando el error tipo I.

Código en R:

TukeyHSD(modelo_aov, ordered = FALSE, conf.level = 0.95)
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = Sepal.Length ~ Species, data = iris)

$Species
                      diff       lwr       upr p adj
versicolor-setosa    0.930 0.6862273 1.1737727     0
virginica-setosa     1.582 1.3382273 1.8257727     0
virginica-versicolor 0.652 0.4082273 0.8957727     0
library(agricolae)
print(HSD.test(modelo_aov,trt="Species")) ### lo mismo pero con otra librería
$statistics
    MSerror  Df     Mean       CV       MSD
  0.2650082 147 5.843333 8.809859 0.2437727

$parameters
   test  name.t ntr StudentizedRange alpha
  Tukey Species   3         3.348424  0.05

$means
           Sepal.Length       std  r         se Min Max   Q25 Q50 Q75
setosa            5.006 0.3524897 50 0.07280222 4.3 5.8 4.800 5.0 5.2
versicolor        5.936 0.5161711 50 0.07280222 4.9 7.0 5.600 5.9 6.3
virginica         6.588 0.6358796 50 0.07280222 4.9 7.9 6.225 6.5 6.9

$comparison
NULL

$groups
           Sepal.Length groups
virginica         6.588      a
versicolor        5.936      b
setosa            5.006      c

attr(,"class")
[1] "group"

Prueba de Tukey con iris

# Prueba de comparaciones múltiples post-ANOVA
tukey_result <- TukeyHSD(modelo_aov)

# Mostrar resultados
print(tukey_result)
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = Sepal.Length ~ Species, data = iris)

$Species
                      diff       lwr       upr p adj
versicolor-setosa    0.930 0.6862273 1.1737727     0
virginica-setosa     1.582 1.3382273 1.8257727     0
virginica-versicolor 0.652 0.4082273 0.8957727     0

Conclusiones:

La media de Sepal.Length en versicolor es 0.930 unidades mayor que en setosa.
La media de Sepal.Length en virginica es 1.582 unidades mayor que en setosa.
La media de Sepal.Length en virginica es 0.652 unidades mayor que en versicolor.