Sys.setlocale("LC_ALL", "es_ES.UTF-8")
## [1] "LC_COLLATE=es_ES.UTF-8;LC_CTYPE=es_ES.UTF-8;LC_MONETARY=es_ES.UTF-8;LC_NUMERIC=C;LC_TIME=es_ES.UTF-8"

Presentar un resumen de las PRUEBAS PARAMÉTRICAS (enumeradas a continuación) con 1 EJEMPLO en R para cada una de ellas.

1. Prueba para 1 media

Prueba para la media poblacional con varianza conocida

Se empleara el dataset SBIQ

Por definición el coeficiente intelectual tiene μ = 100 y σ = 15 vamos a contrastar la hipótesis de que la media población de IQ en el condado 1 es igual a la media poblacional del condado 2

data(SBIQ)
data <- SBIQ
attach(data)

head(data) %>% kable(align = "ccc") %>%
  kable_styling("striped",
                full_width = F)
County1 County2
130 127
126 125
139 127
126 132
124 139
149 132
dim(data)
## [1] 40  2

Podemos resumir nuestro contraste de hipótesis así:

\[\text{Prueba:} \quad \begin{cases} H_0 : \mu_1 = \mu_2 \\ H_1 : \mu_1 \neq \mu_2 \end{cases}\]

Vamos a aplicar un contraste de hipótesis sobre la media de distribuciones normales con varianza coincida , para esto vamos a emplear la prueba z, los parámetros de nuestra prueba serán:

x = county1
y = county2

sigma.x = 15
sigma.y = 15
*Por la definición de IQ

resultado <- z.test(x = County1, sigma.x = 15, y = County2, sigma.y = 15, mu = 0)
z = resultado$statistic
valor_p = resultado$p.value
intervalo =resultado$conf.int
resultado
## 
##  Two Sample z-test
## 
## data:  County1 and County2
## z = -0.18634, p-value = 0.8522
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -7.198919  5.948919
## sample estimates:
## mean of x mean of y 
##   129.750   130.375

Valor z el valor z para la prueba fue de -0.186339
Valor p el valor p para la prueba fue de 0.8521789
El intervalo de confianza El intervalo de confianza al 95% para la diferencia de las medias es [-7.1989191, 5.9489191]

Conclusión

Teniendo en cuenta que nuestro p-valor es 0.8521789, mayor que nuestra significancia establecida en 0.05, podemos concluir que no hay una diferencia estadísticamente significativa en las medias de los IQ de los dos condados. Adicionalmente, nuestro intervalo de confianza al 95% para la diferencia de las medias [-7.1989191, 5.9489191] incluye el cero, por lo cual no podemos rechazar \(H_0\).

Prueba para la media poblacional con varianza desconocida: t de Student

Para aplicar la prueba de la media sobre una población con varianza desconocida, emplearemos el dataset Morley, cuyos valores son la velocidad de la luz medida por interferometría, restando 299.000 km/s.

Vamos a probar si la media de los datos difiere significativamente de 710.5, es decir:

\[\text{Prueba:} \quad \begin{cases} H_0 : \mu = 710.5 \\ H_1 : \mu \neq 710.5 \end{cases}\]

Y adicionalmente vamos a construir un intervalo de confianza del 99% para la media de la velocidad

data(morley)
data <- morley
attach(data)
head(data) %>% kable(align = "ccc") %>%
  kable_styling("striped",
                full_width = F)
Expt Run Speed
001 1 1 850
002 1 2 740
003 1 3 900
004 1 4 1070
005 1 5 930
006 1 6 850

Vamos a emplear la distribución t-student para el contraste de la hipótesis con o desconocida.

resultado <- t.test(x = Speed, mu = 710.5, conf.level = 0.99)

t <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int

resultado
## 
##  One Sample t-test
## 
## data:  Speed
## t = 17.96, df = 99, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 710.5
## 99 percent confidence interval:
##  831.6486 873.1514
## sample estimates:
## mean of x 
##     852.4

Valor t: El valor de t para la prueba fue de 17.9596274
Valor p: El valor p para la prueba, fue de 0 __ (6.5139572^{-33})

Conclusión

Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que la media de las velocidades difiere de 710.5 con significación estadística.

Adicionalmente, nuestra \(\mu_0\) = 710.5 está por fuera del IC de 99% obtenido para la media de las velocidades: 831.6486266, 873.1513734. Podemos ilustrar los resultados anteriores en un gráfico boxplot:

boxplot(Speed)
abline(h = 710.5,
       col = "red")

Volver al inicio

2. Prueba para 2 medias

Muestras independientes

Para el análisis de muestras independientes, emplearemos el dataset mtcars, el cual contiene entre otras, información sobre el consumo de combustible y el tipo de transmisión para diferentes modelos de carro.

data(mtcars)
data <- mtcars
attach(data)
## The following object is masked from package:ggplot2:
## 
##     mpg
head(data) %>% kable() %>%
  kable_styling("striped",
                full_width = F)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1

Vamos a generar dos vectores, uno para los autos con transmisión manual, y otro para los autos con transmisión automática:

mt <- mpg[am == "1"]
at <- mpg[am == "0"]

Queremos contrastar si existe alguna diferencia en el consumo de combustible, según la transmisión del auto. Nuestra prueba de hipótesis, se puede escribir como:

\[\text{Prueba:} \quad \begin{cases} H_0 : \mu_at \geq \mu_mt \\ H_1 : \mu_at < \mu_mt \end{cases}\]

Nuestra hipótesis nula afirma que el rendimiento de combustible (millas por galón, mpg) de los autos con transmisión automática (at), es igual o mayor que el rendimiento de los vehículos con transmisión manual (mt). Nuestra hipótesis alternativa, plantea que el rendimiento de los vehículos at, es menor que el rendimiento de los vehículos mt.

resultado <- t.test(x = at, y = mt,"less")

t <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int

resultado
## 
##  Welch Two Sample t-test
## 
## data:  at and mt
## t = -3.7671, df = 18.332, p-value = 0.0006868
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##       -Inf -3.913256
## sample estimates:
## mean of x mean of y 
##  17.14737  24.39231

Valor t: El valor de t para la prueba fue de -3.7671231
Valor p: El valor p para la prueba, fue de 0 __ (6.8681917^{-4})
Intervalo de confianza: El intervalo de confianza al 95%, para la diferencia de medias, es [-, -3.9132558]

Conclusión

Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que la media del rendimiento de combustible de los autos de transmisión manual, es mayor que los autos de transmisión automática. Adicionalmente, nuestro IC de 95% obtenido para la diferencia en los medias de rendimiento: -, -3.9132558, excluye el cero, y abarca sólo valores negativos. De esto también podemos concluir con un 95% de confianzas, que la diferencia de medias es menor que cero, y por lo tanto, los autos con transmisión manual tienen mejor rendimiento de combustible que los autos con transmisión automática.

Muestras pareadas

Para el análisis de muestras pareadas, vamos a emplear el dataset ToothGrowth, en el cual se estudia el tamaño de los dientes de conejillos de indias, en función del tipo y dosis de suplementos administrados.

data(ToothGrowth)
data <- ToothGrowth
attach(data)
data %>% head() %>% kable(align = "ccc") %>% 
  kable_styling("striped", 
                full_width = F)
len supp dose
4.2 VC 0.5
11.5 VC 0.5
7.3 VC 0.5
5.8 VC 0.5
6.4 VC 0.5
10.0 VC 0.5

Sabemos que las muestras son pareadas, pues cada individuo se sometió a las 3 dosis estudiadas (0.5, 1 y 2mg) de cada uno de los 2 suplementos considerados (Zumo de naranja (OJ) y vitamina C (VC)).

Vamos representar los datos en gráficos boxplot.

Primero veamos los boxplot agrupados por tipo de suplemento:

ggplot(data, aes(factor(dose), len))+ 
  geom_boxplot()+facet_grid( .~ supp)

Veamos ahora los boxplot agrupados por tamano de dosis:

ggplot(data, aes(factor(supp), len))+ 
  geom_boxplot()+facet_grid( .~ dose)

Queremos contrastar, si existe diferencia en la longitud de los dientes, para cada suplemento. Podemos expresar nuestra prueba:

\[\text{Prueba:} \quad \begin{cases} H_0 : \mu_oj \leq \mu_vc \\ H_1 : \mu_oj > \mu_vc \end{cases}\]

Vamos a transformar los datos, para una manipulación más sencilla de los mismos:

data <- transform(data, dose = as.factor(dose))

s <- split(data, list(supp,dose))

s
## $OJ.0.5
##     len supp dose
## 31 15.2   OJ  0.5
## 32 21.5   OJ  0.5
## 33 17.6   OJ  0.5
## 34  9.7   OJ  0.5
## 35 14.5   OJ  0.5
## 36 10.0   OJ  0.5
## 37  8.2   OJ  0.5
## 38  9.4   OJ  0.5
## 39 16.5   OJ  0.5
## 40  9.7   OJ  0.5
## 
## $VC.0.5
##     len supp dose
## 1   4.2   VC  0.5
## 2  11.5   VC  0.5
## 3   7.3   VC  0.5
## 4   5.8   VC  0.5
## 5   6.4   VC  0.5
## 6  10.0   VC  0.5
## 7  11.2   VC  0.5
## 8  11.2   VC  0.5
## 9   5.2   VC  0.5
## 10  7.0   VC  0.5
## 
## $OJ.1
##     len supp dose
## 41 19.7   OJ    1
## 42 23.3   OJ    1
## 43 23.6   OJ    1
## 44 26.4   OJ    1
## 45 20.0   OJ    1
## 46 25.2   OJ    1
## 47 25.8   OJ    1
## 48 21.2   OJ    1
## 49 14.5   OJ    1
## 50 27.3   OJ    1
## 
## $VC.1
##     len supp dose
## 11 16.5   VC    1
## 12 16.5   VC    1
## 13 15.2   VC    1
## 14 17.3   VC    1
## 15 22.5   VC    1
## 16 17.3   VC    1
## 17 13.6   VC    1
## 18 14.5   VC    1
## 19 18.8   VC    1
## 20 15.5   VC    1
## 
## $OJ.2
##     len supp dose
## 51 25.5   OJ    2
## 52 26.4   OJ    2
## 53 22.4   OJ    2
## 54 24.5   OJ    2
## 55 24.8   OJ    2
## 56 30.9   OJ    2
## 57 26.4   OJ    2
## 58 27.3   OJ    2
## 59 29.4   OJ    2
## 60 23.0   OJ    2
## 
## $VC.2
##     len supp dose
## 21 23.6   VC    2
## 22 18.5   VC    2
## 23 33.9   VC    2
## 24 25.5   VC    2
## 25 26.4   VC    2
## 26 32.5   VC    2
## 27 26.7   VC    2
## 28 21.5   VC    2
## 29 23.3   VC    2
## 30 29.5   VC    2

Vamos a hacer los contrastes de hipótesis de las medias según el tipo de suplemento, agrupados por dosis:

Nivel de dosis 1: 0.5mg

resultado <- t.test(s[[1]][[1]], s[[2]][[1]], paired = T, "greater")
t <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int

resultado
## 
##  Paired t-test
## 
## data:  s[[1]][[1]] and s[[2]][[1]]
## t = 2.9791, df = 9, p-value = 0.007736
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
##  2.019552      Inf
## sample estimates:
## mean difference 
##            5.25

Valor t: El valor de t para la prueba fue de 2.9791047
Valor p: El valor p para la prueba, fue de (0.007736)
Intervalo de confianza: El intervalo de confianza al 95%, para la diferencia de medias, es [2.019552, ]

Conclusión

: Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que si hay diferencia estadisticamente significativa, en la longitud de los dientes, siendo mayor para el jugo de naranja (OJ), para el nivel de dosis 1 (0.5mg). Adicionalmente, nuestro IC de 95% obtenido para la diferencia en la longitud de los dientes: 2.019552, , excluye el cero, y abarca sólo valores positivos. De esto también podemos concluir con un 95% de confianzas, que la diferencia de medias es mayor que cero, y por lo tanto, los dientes crecen más luego de una dosis de 0.5mg de jugo de naranja vs vitamina C.

Nivel de dosis 2: 1mg

resultado <- t.test(s[[3]][[1]], s[[4]][[1]], paired = T, "greater")
t <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int

resultado
## 
##  Paired t-test
## 
## data:  s[[3]][[1]] and s[[4]][[1]]
## t = 3.3721, df = 9, p-value = 0.004115
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
##  2.706401      Inf
## sample estimates:
## mean difference 
##            5.93

Valor t: El valor de t para la prueba fue de 3.3721195
Valor p: El valor p para la prueba, fue de (0.0041146)
Intervalo de confianza: El intervalo de confianza al 95%, para la diferencia de medias, es [2.7064014, ]

Conclusión

Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que si hay diferencia estadisticamente significativa, en la longitud de los dientes, siendo mayor para el jugo de naranja (OJ), para el nivel de dosis 2 (1mg). Adicionalmente, nuestro IC de 95% obtenido para la diferencia en la longitud de los dientes: 2.7064014, , excluye el cero, y abarca sólo valores positivos. De esto también podemos concluir con un 95% de confianzas, que la diferencia de medias es mayor que cero, y por lo tanto, los dientes crecen más luego de una dosis de 15mg de jugo de naranja vs vitamina C.

Nivel de dosis 3: 2mg

resultado <- t.test(s[[5]][[1]], s[[6]][[1]], paired = T, "greater")
t <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int

resultado
## 
##  Paired t-test
## 
## data:  s[[5]][[1]] and s[[6]][[1]]
## t = -0.042592, df = 9, p-value = 0.5165
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
##  -3.523109       Inf
## sample estimates:
## mean difference 
##           -0.08

Valor t: El valor de t para la prueba fue de -0.042592
Valor p: El valor p para la prueba, fue de (0.5165216)
Intervalo de confianza: El intervalo de confianza al 95%, para la diferencia de medias, es [-3.523109, ]

Conclusión

Dado el valor p obtenido, no podemos rechazar \(H_0\), por lo que concluimos que no hay diferencia estadísticamente significativa, en la longitud de los dientes según el tipo de supiemento administrado, para el nivel de dosis 3 (2mg). Adicionalmente, nuestro IC de 95% obtenido para la diferencia en la longitud de los dientes: [-3.523109, ], incluye el cero. Por lo tanto, no podemos rechazar la hipótesis nula, y no tenemos evidencia para concluir que en el nivel de dosis 3 (2mg), el suplemento de jugo de naranja (OJ) produzca un mayor crecimiento de los dientes.

Volver al inicio

3. Prueba para más de 2 medias

ANOVA inter-sujetos

Para el empleo del ANOVA inter-sujetos, vamos a emplear el dataset InsectSprays. Vamos a contrastar la hipótesis de la igualdad de las medias, es decir:

\[\text{Prueba:} \quad \begin{cases} H_0 : \text{Todos los grupos tienen la misma media}\\ H_1 : \text{Al menos un grupo difiere del resto} \end{cases}\]

data(InsectSprays)
data <- InsectSprays
attach(data)
head(data) %>% kable(align = "cc") %>%
  kable_styling("striped",
                full_width = F)
count spray
10 A
7 A
20 A
14 A
14 A
12 A

Vamos a visualizar los datos en boxplots, agrupados por el tipo de spray empleado.

boxplot(count ~ spray,
        data = data,
        xlab = "Tipo de spray",
        ylab = "Número de insectos",
        main = "InsectSprays",
        varwidth = T,
        col = "lightgrey")

Para inspeccionar si alguno de los sprays tiene una efectividad significativamente diferente de los demás, aplicamos un análisis ANOVA.

m1 <- aov(count ~ spray, data = data)
summary(m1)
##             Df Sum Sq Mean Sq F value Pr(>F)    
## spray        5   2669   533.8    34.7 <2e-16 ***
## Residuals   66   1015    15.4                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El valor P nos indica que en efecto existe diferencia en las medias. Para conocer cuáles son los sprays con diferencia en la efectividad, aplicamos la prueba posthoc de Tukey HSD (Honestly-significant-difference). El test posthoc de Tukey es el método más empleado y es el recomendado cuando hay igualdad en el tamano de las muestras y las varianzas.

plot(TukeyHSD(m1), las = 2)

El gráfico anterior nos permite visualizar los pares de grupos cuya diferencia de medias es, diferente de cero; ésto los podemos hacer, verificando visualmente cuáles intervalos de confianza excluyen el cero. Algunos ejemplos de esto, serian las comparaciones de medias entre los siguientes pares de insecticidas:

  • C-A
  • D-A
  • E-A
  • C-B

Entre otros.

Los resultados anteriores, son visibles en el gráfico de boxplot.

ANOVA intra-sujetos

Para la aplicación del análisis ANOVA intrasujetos, haremos uso del dataset VpineTasting. En este dataset, cada participante evalúa 3 tipos diferentes de vino. Vamos a contrastar si existen diferencias en los puntajes promedio de la valoración de los vino;

nuestro contraste se puede escribir como:

\[\text{Prueba:} \quad \begin{cases} H_0 : \text{Todos los grupos tienen la misma media}\\ H_1 : \text{Al menos un grupo difiere del resto} \end{cases}\]

data(WineTasting)
data <- WineTasting
attach(data)

head(data) %>% kable(align = "ccc") %>%
  kable_styling("striped",
                full_width = F)
Taste Wine Taster
5.40 Wine A 1
5.50 Wine B 1
5.55 Wine C 1
5.85 Wine A 2
5.70 Wine B 2
5.75 Wine C 2

Antes de aplicar el test de ANOVA, vames a transformar la variable Vino a factor, puesto que el tipo de vino será nuestra variable predictora. La variable Taste, será nuestra variable dependiente, y el identificador del sujeto, nuestra variable Taster.

Wine <- as.factor(Wine)

resultado <- ezANOVA(data = data,
                     dv = Taste,
                     wid = Taster,
                     within = Wine)

valor_f <- resultado$ANOVA$F
valor_p <- resultado$ANOVA$p

resultado
## $ANOVA
##   Effect DFn DFd        F           p p<.05        ges
## 2   Wine   2  42 6.288308 0.004084101     * 0.02026075
## 
## $`Mauchly's Test for Sphericity`
##   Effect         W          p p<.05
## 2   Wine 0.7071776 0.03128132     *
## 
## $`Sphericity Corrections`
##   Effect       GGe       p[GG] p[GG]<.05       HFe       p[HF] p[HF]<.05
## 2   Wine 0.7735015 0.008439799         * 0.8233709 0.007188822         *
test_2 <- pairwise.t.test(Taste,
                          Wine,
                          p.adjust.method = "bonferroni",
                          paired = T)

test_2
## 
##  Pairwise comparisons using paired t tests 
## 
## data:  Taste and Wine 
## 
##        Wine A Wine B
## Wine B 1.000  -     
## Wine C 0.043  0.002 
## 
## P value adjustment method: bonferroni

Valor F: El valor de F para la prueba ANOVA fue de 6.2883079
Valor p: El valor p para la prueba ANOVA, fue de 0.0040841

Conclusión

Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que al menos uno de los grupos posee un valor medio diferente del resto.

Analizando el resultado del t.test pareado, vemos que:
Vino A vs Vino B: El valor p para la diferencia de medias en los puntajes de este par de vinos, es 1, por cual no podemos rechazar. la hipótesis nula \(\mu_A = \mu_B\).
Vino A vs Vino C: El valor p para la diferencia de medias en los puntajes de este par de vinos, es 0.043, por cual si podemos rechazar la hipótesis nula\(\mu_A = \mu_C\), y concluir con una significación estadística (α = 0.05) que las medias de los puntajes de estos vinos son diferentes.
Vino B vs Vino C: El valor p para la diferencia de medias en los puntajes de este par.de vinos, es 0.002, por cual sí podemos rechazar la hipótesis nula \(\mu_B = \mu_C\), y concluir con una significación estadística (&alpha: = 0.05) que las medias de los puntajes de estos vinos son diferentes.

Volver al inicio

4. Prueba para 1 varianza

Para la prueba de 1 varianza, vamos a generar una muestra aleatoria de una variable normal con p = 15 y o = 7. Vamos a contrastar si σ = 6, es decir, nuestra prueba es:

\[\text{Prueba: } \begin{cases} H_0 : \sigma = 6 \\ H_1 : \sigma \neq 6 \end{cases}\]

library(TeachingDemos)
## 
## Adjuntando el paquete: 'TeachingDemos'
## The following object is masked from 'package:PASWR':
## 
##     z.test
set.seed(12345)
x <- rnorm(100, 15, 7)

resultado <- sigma.test(x, sigma = 6, conf.level = 0.99)

chi <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int

resultado
## 
##  One sample Chi-squared test for variance
## 
## data:  x
## X-squared = 167.44, df = 99, p-value = 4.188e-05
## alternative hypothesis: true variance is not equal to 36
## 99 percent confidence interval:
##  43.37084 90.63244
## sample estimates:
## var of x 
## 60.88862

Valor Chi: El valor de x2 para la prueba fue de 167.4436946
Valor p: El valor p para la prueba, fue de 0 (4.1880245^{-5})
Intervalo de confianza: El intervalo de confianza al 99%, para varianza, es: [43.3708361, 90.6324382]

Conclusión:

Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que hay significación estadística para decidir que σ ≠ 6. Adicionalmente, nuestro IC de 99% obtenido para la varianza: [43.3708361, 90.6324382], excluye nuestro valor de prueba σ2 = 36. Por lo tanto, podemos rechazar la hipótesis nula, y aceptar nuestra hipótesis alternativa: \(H_1\) : σ ≠ 6

Volver al inicio

5. Prueba para 2 varianzas

Para contrastar las varianzas de 2 poblaciones, emplearemos el dataset iris. Vamos a comparar las varianzas de la anchura de sépalo, para las variedades virgínica y versicolor. Nuestro contraste de hipótesis, sería:

\[\text{Prueba: } \begin{cases} H_0: & \sigma^2_{versicolor} \leq \sigma^2_{virginica} \\ H_1: & \sigma^2_{versicolor} > \sigma^2_{virginica} \end{cases}\]

data(iris)
data <- iris
attach(data)
head(data) %>% kable(align = "ccccc") %>%
  kable_styling("striped",
              full_width = F)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
5.4 3.9 1.7 0.4 setosa

Vamos a representar los datos mediante boxplots, agrupados por especie:

boxplot(Sepal.Width~Species,
        data = data)

resultado <- var.test(Sepal.Width~Species,
                      data,
                      Species %in% c("versicolor","virginica"),
                      alternative = "greater")

f_test <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int

resultado
## 
##  F test to compare two variances
## 
## data:  Sepal.Width by Species
## F = 0.94678, num df = 49, denom df = 49, p-value = 0.5755
## alternative hypothesis: true ratio of variances is greater than 1
## 95 percent confidence interval:
##  0.5890562       Inf
## sample estimates:
## ratio of variances 
##          0.9467839

Valor F: El valor de F para la prueba fue de 0.9467839
Valor p: El valor p para la prueba, fue de 0.575506
Intervalo de confianza: El intervalo de confianza al 95% para la razón de las varianzas, es: [0.5890562, ]

Conclusión

Dado el valor p obtenido, no podemos rechazar \(H_0\), por lo que concluimos que no hay significación estadística para decidir que σ versicolor2 > σvirginica2

Adicionalmente, nuestro IC de 95% obtenido para la razón de las varianzas: [0.5890562, ], incluye el 1. Por lo tanto, no podemos rechazar \(H_0\).

Volver al inicio

6. Prueba para más de 2 varianzas

Para comparar más de 2 varianzas, haremos uso del dataset InsectSprays, en el cual tenemos 6 grupos de medidas. Vamos a emplear el test de Bartlett para las varianzas.

Nuestro contraste de hipótesis, lo podemos escribir así:

\[\text{Prueba:} \quad \begin{cases} H_0 : \text{Todos los grupo tienen la misma varianza}\\ H_1 : \text{Al menos un grupo tiene una varianza diferente} \end{cases}\]

data(InsectSprays)
data <- InsectSprays
attach(data)
## The following objects are masked from data (pos = 6):
## 
##     count, spray
resultado <- bartlett.test(count~spray,
                           data = data)
                           
chi <- resultado$statistic
valor_p <- resultado$p.value
                           
resultado
## 
##  Bartlett test of homogeneity of variances
## 
## data:  count by spray
## Bartlett's K-squared = 25.96, df = 5, p-value = 9.085e-05

Valor k: El valor de x2 para la prueba fue de 25.9598253
Valor p: El valor p para la prueba, fue de 0 (9.0851223^{-5})

Conclusión

Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que al menos un grupo posee una varianza diferente a los demás grupos.

Volver al inicio

7. Prueba para 1 proporción

Vamos a lanzar una moneda 100 veces, y comprobar si la proporción de caras puede ser 50%.

Podemos expresar nuestra prueba así:

\[\text{Prueba: } \begin{cases} H_0 : p = 0.5 \\ H_1 : p \neq 0.5 \end{cases}\]

set.seed(12345)

caras <- rbinom(1,100,0.5)

resultado <- binom.test(caras, 100)

exitos <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int

resultado
## 
##  Exact binomial test
## 
## data:  caras and 100
## number of successes = 42, number of trials = 100, p-value = 0.1332
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.3219855 0.5228808
## sample estimates:
## probability of success 
##                   0.42

Éxitos: El valor de éxitos para la prueba fue de 42
Valor p: El valor p para la prueba, fue de 0.1332106
Intervalo de confianza: El intervalo de confianza al 95%, para proporción de éxitos, es [0.3219855, 0.5228808]

Conclusión:

Dado el valor p obtenido, no podemos rechazar \(H_0\), por lo que concluimos que no hay evidencia para decidir a favor de \(H_1\): p ≠ 0.5. Adicionalmente, nuestro IC de 95% obtenido para la proporción de éxitos: [0.3219855, 0.5228808], incluye el valor de \(H_0\) : p = 0.5. Por lo tanto, no podemos rechazar la hipótesis nula.

Volver al inicio

8. Prueba para 2 proporciones

Vamos a considerar la proporción de fumadores entre hombres y mujeres, y determinar si existe alguna diferencia entre éstas.

Podemos plantear nuestra prueba, de la siguiente manera:

\[\text{Prueba: } \begin{cases} H_0 : Phombres = Pmujeres \\ H_1 : Phombres \neq Pmujeres \end{cases}\]

Vamos a crear una matriz con los resultados de una encuesta.

data <- matrix(c(70, 120, 65, 140),
               ncol = 2,
               byrow = T)
rownames(data) <- c("hombres", "mujeres")
colnames(data) <- c("fuma","no_fuma")

data %>% kable(align = "cc") %>% kable_styling("striped",full_width = F)
fuma no_fuma
hombres 70 120
mujeres 65 140
resultado <- prop.test(data)

chi <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int

resultado
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  data
## X-squared = 0.93871, df = 1, p-value = 0.3326
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.04732922  0.15002498
## sample estimates:
##    prop 1    prop 2 
## 0.3684211 0.3170732

Valor Chi: El valor de x2 para la prueba fue de 0.9387135
Valor p: El valor p para la prueba, fue de 0.3326089
Intervalo de confianza: El intervalo de confianza al 95%, para la diferencia de proporciones, es [-0.0473292, 0.150025]

Conclusión

Dado el valor p obtenido, no podemos rechazar \(H_0\), por lo que concluimos que no hay significación estadística para decidir a favor de \(H_1\) : Phombres ≠ Pmujeres. Adicionalmente, nuestro IC de 95% obtenido para la diferencia de las proporciones: [-0.0473292, 0.150025], incluye el cero. Por lo tanto, no podemos rechazar la hipótesis nula.

Volver al inicio

9. Prueba para más de 2 proporciones

Para aplicar la prueba de propoprciones para más de 2 grupos, vamos a construir una matriz con los datos de fumadores y no fumadores, de muestras tomadas en cuatro ciudades diferentes

Nuestro contraste de hipótesis, equivale a:

\[\text{Prueba:} \quad \begin{cases} H_0 : \text{Las cuatro cuidades tienen la misma proporcion}\\ H_1 : \text{Al menos una ciudad presenta una proporción di ferente al resto} \end{cases}\]

fumadores <- c(83, 90, 129, 70)
no_fumadores <- c(86, 93, 136, 82)

resultado <- prop.test(fumadores, no_fumadores)

chi <- resultado$statistic
valor_p <- resultado$p.value

resultado
## 
##  4-sample test for equality of proportions without continuity correction
## 
## data:  fumadores out of no_fumadores
## X-squared = 12.6, df = 3, p-value = 0.005585
## alternative hypothesis: two.sided
## sample estimates:
##    prop 1    prop 2    prop 3    prop 4 
## 0.9651163 0.9677419 0.9485294 0.8536585

Valor Chi: El valor de x2para la prueba fue de 12.6004113
Valor p: El valor p para la prueba, fue de 0.0055855

Conclusión

Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que hay al menos alguna ciudad que tiene una proporción diferente a las demás. Revisando el resultado, podemos verificar que la ciudad 4 presenta una proporción que difiere de los demás y dado el valor p, esta diferencia es estadísticamente significativa para nuestra significación α = 0.05.

Volver al inicio