## [1] "LC_COLLATE=es_ES.UTF-8;LC_CTYPE=es_ES.UTF-8;LC_MONETARY=es_ES.UTF-8;LC_NUMERIC=C;LC_TIME=es_ES.UTF-8"
Presentar un resumen de las PRUEBAS PARAMÉTRICAS (enumeradas a continuación) con 1 EJEMPLO en R para cada una de ellas.
1. Prueba para 1 media
Prueba para la media poblacional con varianza conocida
Se empleara el dataset SBIQ Por definición el coeficiente intelectual tiene μ = 100 y σ = 15 vamos a contrastar la hipótesis de que la media población de IQ en el condado 1 es igual a la media poblacional del condado 2
data(SBIQ)
data <- SBIQ
attach(data)
head(data) %>% kable(align = "ccc") %>%
kable_styling("striped",
full_width = F)
County1 | County2 |
---|---|
130 | 127 |
126 | 125 |
139 | 127 |
126 | 132 |
124 | 139 |
149 | 132 |
## [1] 40 2
Podemos resumir nuestro contraste de hipótesis así:
\[\text{Prueba:} \quad \begin{cases} H_0 : \mu_1 = \mu_2 \\ H_1 : \mu_1 \neq \mu_2 \end{cases}\]
Vamos a aplicar un contraste de hipótesis sobre la media de distribuciones normales con varianza coincida , para esto vamos a emplear la prueba z, los parámetros de nuestra prueba serán:
x = county1 y = county2
sigma.x = 15 sigma.y = 15 *Por la definición de IQ
resultado <- z.test(x = County1, sigma.x = 15, y = County2, sigma.y = 15, mu = 0)
z = resultado$statistic
valor_p = resultado$p.value
intervalo =resultado$conf.int
resultado
##
## Two Sample z-test
##
## data: County1 and County2
## z = -0.18634, p-value = 0.8522
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -7.198919 5.948919
## sample estimates:
## mean of x mean of y
## 129.750 130.375
Valor z el valor z para la prueba fue de -0.186339 Valor p el valor p para la prueba fue de 0.8521789 El intervalo de confianza El intervalo de confianza al 95% para la diferencia de las medias es [-7.1989191, 5.9489191]
Conclusión
Teniendo en cuenta que nuestro p-valor es 0.8521789, mayor que nuestra significancia establecida en 0.05, podemos concluir que no hay una diferencia estadísticamente significativa en las medias de los IQ de los dos condados. Adicionalmente, nuestro intervalo de confianza al 95% para la diferencia de las medias [-7.1989191, 5.9489191] incluye el cero, por lo cual no podemos rechazar \(H_0\).
Prueba para la media poblacional con varianza desconocida: t de Student
Para aplicar la prueba de la media sobre una población con varianza desconocida, emplearemos el dataset Morley, cuyos valores son la velocidad de la luz medida por interferometría, restando 299.000 km/s.
Vamos a probar si la media de los datos difiere significativamente de 710.5, es decir:
\[\text{Prueba:} \quad \begin{cases} H_0 : \mu = 710.5 \\ H_1 : \mu \neq 710.5 \end{cases}\]
Y adicionalmente vamos a construir un intervalo de confianza del 99% para la media de la velocidad
data(morley)
data <- morley
attach(data)
head(data) %>% kable(align = "ccc") %>%
kable_styling("striped",
full_width = F)
Expt | Run | Speed | |
---|---|---|---|
001 | 1 | 1 | 850 |
002 | 1 | 2 | 740 |
003 | 1 | 3 | 900 |
004 | 1 | 4 | 1070 |
005 | 1 | 5 | 930 |
006 | 1 | 6 | 850 |
Vamos a emplear la distribución t-student para el contraste de la hipótesis con o desconocida.
resultado <- t.test(x = Speed, mu = 710.5, conf.level = 0.99)
t <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int
resultado
##
## One Sample t-test
##
## data: Speed
## t = 17.96, df = 99, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 710.5
## 99 percent confidence interval:
## 831.6486 873.1514
## sample estimates:
## mean of x
## 852.4
Valor t: El valor de t para la prueba fue de 17.9596274 Valor p: El valor p para la prueba, fue de 0 __ (6.5139572^{-33})
Conclusión
Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que la media de las velocidades difiere de 710.5 con significación estadística.
Adicionalmente, nuestra \(\mu_0\) = 710.5 está por fuera del IC de 99% obtenido para la media de las velocidades: 831.6486266, 873.1513734. Podemos ilustrar los resultados anteriores en un gráfico boxplot:
2. Prueba para 2 medias
Muestras independientes
Para el análisis de muestras independientes, emplearemos el dataset mtcars, el cual contiene entre otras, información sobre el consumo de combustible y el tipo de transmisión para diferentes modelos de carro.
## The following object is masked from package:ggplot2:
##
## mpg
mpg | cyl | disp | hp | drat | wt | qsec | vs | am | gear | carb | |
---|---|---|---|---|---|---|---|---|---|---|---|
Mazda RX4 | 21.0 | 6 | 160 | 110 | 3.90 | 2.620 | 16.46 | 0 | 1 | 4 | 4 |
Mazda RX4 Wag | 21.0 | 6 | 160 | 110 | 3.90 | 2.875 | 17.02 | 0 | 1 | 4 | 4 |
Datsun 710 | 22.8 | 4 | 108 | 93 | 3.85 | 2.320 | 18.61 | 1 | 1 | 4 | 1 |
Hornet 4 Drive | 21.4 | 6 | 258 | 110 | 3.08 | 3.215 | 19.44 | 1 | 0 | 3 | 1 |
Hornet Sportabout | 18.7 | 8 | 360 | 175 | 3.15 | 3.440 | 17.02 | 0 | 0 | 3 | 2 |
Valiant | 18.1 | 6 | 225 | 105 | 2.76 | 3.460 | 20.22 | 1 | 0 | 3 | 1 |
Vamos a generar dos vectores, uno para los autos con transmisión manual, y otro para los autos con transmisión automática:
Queremos contrastar si existe alguna diferencia en el consumo de combustible, según la transmisión del auto. Nuestra prueba de hipótesis, se puede escribir como:
\[\text{Prueba:} \quad \begin{cases} H_0 : \mu_at \geq \mu_mt \\ H_1 : \mu_at < \mu_mt \end{cases}\]
Nuestra hipótesis nula afirma que el rendimiento de combustible (millas por galón, mpg) de los autos con transmisión automática (at), es igual o mayor que el rendimiento de los vehículos con transmisión manual (mt). Nuestra hipótesis alternativa, plantea que el rendimiento de los vehículos at, es menor que el rendimiento de los vehículos mt.
resultado <- t.test(x = at, y = mt,"less")
t <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int
resultado
##
## Welch Two Sample t-test
##
## data: at and mt
## t = -3.7671, df = 18.332, p-value = 0.0006868
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf -3.913256
## sample estimates:
## mean of x mean of y
## 17.14737 24.39231
Valor t: El valor de t para la prueba fue de -3.7671231 Valor p: El valor p para la prueba, fue de 0 __ (6.8681917^{-4}) Intervalo de confianza: El intervalo de confianza al 95%, para la diferencia de medias, es [-, -3.9132558]
Conclusión
Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que la media del rendimiento de combustible de los autos de transmisión manual, es mayor que los autos de transmisión automática. Adicionalmente, nuestro IC de 95% obtenido para la diferencia en los medias de rendimiento: -, -3.9132558, excluye el cero, y abarca sólo valores negativos. De esto también podemos concluir con un 95% de confianzas, que la diferencia de medias es menor que cero, y por lo tanto, los autos con transmisión manual tienen mejor rendimiento de combustible que los autos con transmisión automática.
Muestras pareadas
Para el análisis de muestras pareadas, vamos a emplear el dataset ToothGrowth, en el cual se estudia el tamaño de los dientes de conejillos de indias, en función del tipo y dosis de suplementos administrados.
data(ToothGrowth)
data <- ToothGrowth
attach(data)
data %>% head() %>% kable(align = "ccc") %>%
kable_styling("striped",
full_width = F)
len | supp | dose |
---|---|---|
4.2 | VC | 0.5 |
11.5 | VC | 0.5 |
7.3 | VC | 0.5 |
5.8 | VC | 0.5 |
6.4 | VC | 0.5 |
10.0 | VC | 0.5 |
Sabemos que las muestras son pareadas, pues cada individuo se sometió a las 3 dosis estudiadas (0.5, 1 y 2mg) de cada uno de los 2 suplementos considerados (Zumo de naranja (OJ) y vitamina C (VC)).
Vamos representar los datos en gráficos boxplot.
Primero veamos los boxplot agrupados por tipo de suplemento:
Veamos ahora los boxplot agrupados por tamano de dosis:
Queremos contrastar, si existe diferencia en la longitud de los dientes, para cada suplemento. Podemos expresar nuestra prueba:
\[\text{Prueba:} \quad \begin{cases} H_0 : \mu_oj \leq \mu_vc \\ H_1 : \mu_oj > \mu_vc \end{cases}\]
Vamos a transformar los datos, para una manipulación más sencilla de los mismos:
## $OJ.0.5
## len supp dose
## 31 15.2 OJ 0.5
## 32 21.5 OJ 0.5
## 33 17.6 OJ 0.5
## 34 9.7 OJ 0.5
## 35 14.5 OJ 0.5
## 36 10.0 OJ 0.5
## 37 8.2 OJ 0.5
## 38 9.4 OJ 0.5
## 39 16.5 OJ 0.5
## 40 9.7 OJ 0.5
##
## $VC.0.5
## len supp dose
## 1 4.2 VC 0.5
## 2 11.5 VC 0.5
## 3 7.3 VC 0.5
## 4 5.8 VC 0.5
## 5 6.4 VC 0.5
## 6 10.0 VC 0.5
## 7 11.2 VC 0.5
## 8 11.2 VC 0.5
## 9 5.2 VC 0.5
## 10 7.0 VC 0.5
##
## $OJ.1
## len supp dose
## 41 19.7 OJ 1
## 42 23.3 OJ 1
## 43 23.6 OJ 1
## 44 26.4 OJ 1
## 45 20.0 OJ 1
## 46 25.2 OJ 1
## 47 25.8 OJ 1
## 48 21.2 OJ 1
## 49 14.5 OJ 1
## 50 27.3 OJ 1
##
## $VC.1
## len supp dose
## 11 16.5 VC 1
## 12 16.5 VC 1
## 13 15.2 VC 1
## 14 17.3 VC 1
## 15 22.5 VC 1
## 16 17.3 VC 1
## 17 13.6 VC 1
## 18 14.5 VC 1
## 19 18.8 VC 1
## 20 15.5 VC 1
##
## $OJ.2
## len supp dose
## 51 25.5 OJ 2
## 52 26.4 OJ 2
## 53 22.4 OJ 2
## 54 24.5 OJ 2
## 55 24.8 OJ 2
## 56 30.9 OJ 2
## 57 26.4 OJ 2
## 58 27.3 OJ 2
## 59 29.4 OJ 2
## 60 23.0 OJ 2
##
## $VC.2
## len supp dose
## 21 23.6 VC 2
## 22 18.5 VC 2
## 23 33.9 VC 2
## 24 25.5 VC 2
## 25 26.4 VC 2
## 26 32.5 VC 2
## 27 26.7 VC 2
## 28 21.5 VC 2
## 29 23.3 VC 2
## 30 29.5 VC 2
Vamos a hacer los contrastes de hipótesis de las medias según el tipo de suplemento, agrupados por dosis:
Nivel de dosis 1: 0.5mg
resultado <- t.test(s[[1]][[1]], s[[2]][[1]], paired = T, "greater")
t <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int
resultado
##
## Paired t-test
##
## data: s[[1]][[1]] and s[[2]][[1]]
## t = 2.9791, df = 9, p-value = 0.007736
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
## 2.019552 Inf
## sample estimates:
## mean difference
## 5.25
Valor t: El valor de t para la prueba fue de 2.9791047 Valor p: El valor p para la prueba, fue de (0.007736) Intervalo de confianza: El intervalo de confianza al 95%, para la diferencia de medias, es [2.019552, ]
Conclusión
: Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que si hay diferencia estadisticamente significativa, en la longitud de los dientes, siendo mayor para el jugo de naranja (OJ), para el nivel de dosis 1 (0.5mg). Adicionalmente, nuestro IC de 95% obtenido para la diferencia en la longitud de los dientes: 2.019552, , excluye el cero, y abarca sólo valores positivos. De esto también podemos concluir con un 95% de confianzas, que la diferencia de medias es mayor que cero, y por lo tanto, los dientes crecen más luego de una dosis de 0.5mg de jugo de naranja vs vitamina C.
Nivel de dosis 2: 1mg
resultado <- t.test(s[[3]][[1]], s[[4]][[1]], paired = T, "greater")
t <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int
resultado
##
## Paired t-test
##
## data: s[[3]][[1]] and s[[4]][[1]]
## t = 3.3721, df = 9, p-value = 0.004115
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
## 2.706401 Inf
## sample estimates:
## mean difference
## 5.93
Valor t: El valor de t para la prueba fue de 3.3721195 Valor p: El valor p para la prueba, fue de (0.0041146) Intervalo de confianza: El intervalo de confianza al 95%, para la diferencia de medias, es [2.7064014, ]
Conclusión
Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que si hay diferencia estadisticamente significativa, en la longitud de los dientes, siendo mayor para el jugo de naranja (OJ), para el nivel de dosis 2 (1mg). Adicionalmente, nuestro IC de 95% obtenido para la diferencia en la longitud de los dientes: 2.7064014, , excluye el cero, y abarca sólo valores positivos. De esto también podemos concluir con un 95% de confianzas, que la diferencia de medias es mayor que cero, y por lo tanto, los dientes crecen más luego de una dosis de 15mg de jugo de naranja vs vitamina C.
Nivel de dosis 3: 2mg
resultado <- t.test(s[[5]][[1]], s[[6]][[1]], paired = T, "greater")
t <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int
resultado
##
## Paired t-test
##
## data: s[[5]][[1]] and s[[6]][[1]]
## t = -0.042592, df = 9, p-value = 0.5165
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
## -3.523109 Inf
## sample estimates:
## mean difference
## -0.08
Valor t: El valor de t para la prueba fue de -0.042592 Valor p: El valor p para la prueba, fue de (0.5165216) Intervalo de confianza: El intervalo de confianza al 95%, para la diferencia de medias, es [-3.523109, ]
Conclusión
Dado el valor p obtenido, no podemos rechazar \(H_0\), por lo que concluimos que no hay diferencia estadísticamente significativa, en la longitud de los dientes según el tipo de supiemento administrado, para el nivel de dosis 3 (2mg). Adicionalmente, nuestro IC de 95% obtenido para la diferencia en la longitud de los dientes: [-3.523109, ], incluye el cero. Por lo tanto, no podemos rechazar la hipótesis nula, y no tenemos evidencia para concluir que en el nivel de dosis 3 (2mg), el suplemento de jugo de naranja (OJ) produzca un mayor crecimiento de los dientes.
3. Prueba para más de 2 medias
ANOVA inter-sujetos
Para el empleo del ANOVA inter-sujetos, vamos a emplear el dataset InsectSprays. Vamos a contrastar la hipótesis de la igualdad de las medias, es decir:
\[\text{Prueba:} \quad \begin{cases} H_0 : \text{Todos los grupos tienen la misma media}\\ H_1 : \text{Al menos un grupo difiere del resto} \end{cases}\]
data(InsectSprays)
data <- InsectSprays
attach(data)
head(data) %>% kable(align = "cc") %>%
kable_styling("striped",
full_width = F)
count | spray |
---|---|
10 | A |
7 | A |
20 | A |
14 | A |
14 | A |
12 | A |
Vamos a visualizar los datos en boxplots, agrupados por el tipo de spray empleado.
boxplot(count ~ spray,
data = data,
xlab = "Tipo de spray",
ylab = "Número de insectos",
main = "InsectSprays",
varwidth = T,
col = "lightgrey")
Para inspeccionar si alguno de los sprays tiene una efectividad significativamente diferente de los demás, aplicamos un análisis ANOVA.
## Df Sum Sq Mean Sq F value Pr(>F)
## spray 5 2669 533.8 34.7 <2e-16 ***
## Residuals 66 1015 15.4
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El valor P nos indica que en efecto existe diferencia en las medias. Para conocer cuáles son los sprays con diferencia en la efectividad, aplicamos la prueba posthoc de Tukey HSD (Honestly-significant-difference). El test posthoc de Tukey es el método más empleado y es el recomendado cuando hay igualdad en el tamano de las muestras y las varianzas.
El gráfico anterior nos permite visualizar los pares de grupos cuya diferencia de medias es, diferente de cero; ésto los podemos hacer, verificando visualmente cuáles intervalos de confianza excluyen el cero. Algunos ejemplos de esto, serian las comparaciones de medias entre los siguientes pares de insecticidas:
- C-A
- D-A
- E-A
- C-B
Entre otros.
Los resultados anteriores, son visibles en el gráfico de boxplot.
ANOVA intra-sujetos
Para la aplicación del análisis ANOVA intrasujetos, haremos uso del dataset VpineTasting. En este dataset, cada participante evalúa 3 tipos diferentes de vino. Vamos a contrastar si existen diferencias en los puntajes promedio de la valoración de los vino;
nuestro contraste se puede escribir como:
\[\text{Prueba:} \quad \begin{cases} H_0 : \text{Todos los grupos tienen la misma media}\\ H_1 : \text{Al menos un grupo difiere del resto} \end{cases}\]
data(WineTasting)
data <- WineTasting
attach(data)
head(data) %>% kable(align = "ccc") %>%
kable_styling("striped",
full_width = F)
Taste | Wine | Taster |
---|---|---|
5.40 | Wine A | 1 |
5.50 | Wine B | 1 |
5.55 | Wine C | 1 |
5.85 | Wine A | 2 |
5.70 | Wine B | 2 |
5.75 | Wine C | 2 |
Antes de aplicar el test de ANOVA, vames a transformar la variable Vino a factor, puesto que el tipo de vino será nuestra variable predictora. La variable Taste, será nuestra variable dependiente, y el identificador del sujeto, nuestra variable Taster.
Wine <- as.factor(Wine)
resultado <- ezANOVA(data = data,
dv = Taste,
wid = Taster,
within = Wine)
valor_f <- resultado$ANOVA$F
valor_p <- resultado$ANOVA$p
resultado
## $ANOVA
## Effect DFn DFd F p p<.05 ges
## 2 Wine 2 42 6.288308 0.004084101 * 0.02026075
##
## $`Mauchly's Test for Sphericity`
## Effect W p p<.05
## 2 Wine 0.7071776 0.03128132 *
##
## $`Sphericity Corrections`
## Effect GGe p[GG] p[GG]<.05 HFe p[HF] p[HF]<.05
## 2 Wine 0.7735015 0.008439799 * 0.8233709 0.007188822 *
##
## Pairwise comparisons using paired t tests
##
## data: Taste and Wine
##
## Wine A Wine B
## Wine B 1.000 -
## Wine C 0.043 0.002
##
## P value adjustment method: bonferroni
Valor F: El valor de F para la prueba ANOVA fue de 6.2883079 Valor p: El valor p para la prueba ANOVA, fue de 0.0040841
Conclusión
Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que al menos uno de los grupos posee un valor medio diferente del resto.
Analizando el resultado del t.test pareado, vemos que: Vino A vs Vino B: El valor p para la diferencia de medias en los puntajes de este par de vinos, es 1, por cual no podemos rechazar. la hipótesis nula \(\mu_A = \mu_B\). Vino A vs Vino C: El valor p para la diferencia de medias en los puntajes de este par de vinos, es 0.043, por cual si podemos rechazar la hipótesis nula\(\mu_A = \mu_C\), y concluir con una significación estadística (α = 0.05) que las medias de los puntajes de estos vinos son diferentes. Vino B vs Vino C: El valor p para la diferencia de medias en los puntajes de este par.de vinos, es 0.002, por cual sí podemos rechazar la hipótesis nula \(\mu_B = \mu_C\), y concluir con una significación estadística (&alpha: = 0.05) que las medias de los puntajes de estos vinos son diferentes.
4. Prueba para 1 varianza
Para la prueba de 1 varianza, vamos a generar una muestra aleatoria de una variable normal con p = 15 y o = 7. Vamos a contrastar si σ = 6, es decir, nuestra prueba es:
\[\text{Prueba: } \begin{cases} H_0 : \sigma = 6 \\ H_1 : \sigma \neq 6 \end{cases}\]
##
## Adjuntando el paquete: 'TeachingDemos'
## The following object is masked from 'package:PASWR':
##
## z.test
set.seed(12345)
x <- rnorm(100, 15, 7)
resultado <- sigma.test(x, sigma = 6, conf.level = 0.99)
chi <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int
resultado
##
## One sample Chi-squared test for variance
##
## data: x
## X-squared = 167.44, df = 99, p-value = 4.188e-05
## alternative hypothesis: true variance is not equal to 36
## 99 percent confidence interval:
## 43.37084 90.63244
## sample estimates:
## var of x
## 60.88862
Valor Chi: El valor de x2 para la prueba
fue de 167.4436946
Valor p: El valor p para la
prueba, fue de 0 (4.1880245^{-5})
Intervalo de
confianza: El intervalo de confianza al 99%, para varianza, es:
[43.3708361, 90.6324382]
Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que hay significación estadística para decidir que σ ≠ 6. Adicionalmente, nuestro IC de 99% obtenido para la varianza: [43.3708361, 90.6324382], excluye nuestro valor de prueba σ2 = 36. Por lo tanto, podemos rechazar la hipótesis nula, y aceptar nuestra hipótesis alternativa: \(H_1\) : σ ≠ 6
5. Prueba para 2 varianzas
Para contrastar las varianzas de 2 poblaciones, emplearemos el dataset iris. Vamos a comparar las varianzas de la anchura de sépalo, para las variedades virgínica y versicolor. Nuestro contraste de hipótesis, sería:
\[\text{Prueba: } \begin{cases} H_0: & \sigma^2_{versicolor} \leq \sigma^2_{virginica} \\ H_1: & \sigma^2_{versicolor} > \sigma^2_{virginica} \end{cases}\]
data(iris)
data <- iris
attach(data)
head(data) %>% kable(align = "ccccc") %>%
kable_styling("striped",
full_width = F)
Sepal.Length | Sepal.Width | Petal.Length | Petal.Width | Species |
---|---|---|---|---|
5.1 | 3.5 | 1.4 | 0.2 | setosa |
4.9 | 3.0 | 1.4 | 0.2 | setosa |
4.7 | 3.2 | 1.3 | 0.2 | setosa |
4.6 | 3.1 | 1.5 | 0.2 | setosa |
5.0 | 3.6 | 1.4 | 0.2 | setosa |
5.4 | 3.9 | 1.7 | 0.4 | setosa |
Vamos a representar los datos mediante boxplots, agrupados por especie:
resultado <- var.test(Sepal.Width~Species,
data,
Species %in% c("versicolor","virginica"),
alternative = "greater")
f_test <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int
resultado
##
## F test to compare two variances
##
## data: Sepal.Width by Species
## F = 0.94678, num df = 49, denom df = 49, p-value = 0.5755
## alternative hypothesis: true ratio of variances is greater than 1
## 95 percent confidence interval:
## 0.5890562 Inf
## sample estimates:
## ratio of variances
## 0.9467839
Valor F: El valor de F para la prueba fue de
0.9467839
Valor p: El valor p para la prueba, fue
de 0.575506
Intervalo de confianza: El intervalo
de confianza al 95% para la razón de las varianzas, es: [0.5890562,
]
Conclusión
Dado el valor p obtenido, no podemos rechazar \(H_0\), por lo que concluimos que no hay significación estadística para decidir que σ versicolor2 > σvirginica2
Adicionalmente, nuestro IC de 95% obtenido para la razón de las varianzas: [0.5890562, ], incluye el 1. Por lo tanto, no podemos rechazar \(H_0\).
6. Prueba para más de 2 varianzas
Para comparar más de 2 varianzas, haremos uso del dataset InsectSprays, en el cual tenemos 6 grupos de medidas. Vamos a emplear el test de Bartlett para las varianzas.
Nuestro contraste de hipótesis, lo podemos escribir así:
\[\text{Prueba:} \quad \begin{cases} H_0 : \text{Todos los grupo tienen la misma varianza}\\ H_1 : \text{Al menos un grupo tiene una varianza diferente} \end{cases}\]
## The following objects are masked from data (pos = 6):
##
## count, spray
resultado <- bartlett.test(count~spray,
data = data)
chi <- resultado$statistic
valor_p <- resultado$p.value
resultado
##
## Bartlett test of homogeneity of variances
##
## data: count by spray
## Bartlett's K-squared = 25.96, df = 5, p-value = 9.085e-05
Valor k: El valor de x2 para la prueba
fue de 25.9598253
Valor p: El valor p para la
prueba, fue de 0 (9.0851223^{-5})
Conclusión
Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que al menos un grupo posee una varianza diferente a los demás grupos.
7. Prueba para 1 proporción
Vamos a lanzar una moneda 100 veces, y comprobar si la proporción de caras puede ser 50%.
Podemos expresar nuestra prueba así:
\[\text{Prueba: } \begin{cases} H_0 : p = 0.5 \\ H_1 : p \neq 0.5 \end{cases}\]
set.seed(12345)
caras <- rbinom(1,100,0.5)
resultado <- binom.test(caras, 100)
exitos <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int
resultado
##
## Exact binomial test
##
## data: caras and 100
## number of successes = 42, number of trials = 100, p-value = 0.1332
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
## 0.3219855 0.5228808
## sample estimates:
## probability of success
## 0.42
Éxitos: El valor de éxitos para la prueba fue de
42
Valor p: El valor p para la prueba, fue de
0.1332106
Intervalo de confianza: El intervalo de
confianza al 95%, para proporción de éxitos, es [0.3219855,
0.5228808]
Dado el valor p obtenido, no podemos rechazar \(H_0\), por lo que concluimos que no hay evidencia para decidir a favor de \(H_1\): p ≠ 0.5. Adicionalmente, nuestro IC de 95% obtenido para la proporción de éxitos: [0.3219855, 0.5228808], incluye el valor de \(H_0\) : p = 0.5. Por lo tanto, no podemos rechazar la hipótesis nula.
8. Prueba para 2 proporciones
Vamos a considerar la proporción de fumadores entre hombres y mujeres, y determinar si existe alguna diferencia entre éstas.
Podemos plantear nuestra prueba, de la siguiente manera:
\[\text{Prueba: } \begin{cases} H_0 : Phombres = Pmujeres \\ H_1 : Phombres \neq Pmujeres \end{cases}\]
Vamos a crear una matriz con los resultados de una encuesta.
data <- matrix(c(70, 120, 65, 140),
ncol = 2,
byrow = T)
rownames(data) <- c("hombres", "mujeres")
colnames(data) <- c("fuma","no_fuma")
data %>% kable(align = "cc") %>% kable_styling("striped",full_width = F)
fuma | no_fuma | |
---|---|---|
hombres | 70 | 120 |
mujeres | 65 | 140 |
resultado <- prop.test(data)
chi <- resultado$statistic
valor_p <- resultado$p.value
intervalo <- resultado$conf.int
resultado
##
## 2-sample test for equality of proportions with continuity correction
##
## data: data
## X-squared = 0.93871, df = 1, p-value = 0.3326
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.04732922 0.15002498
## sample estimates:
## prop 1 prop 2
## 0.3684211 0.3170732
Valor Chi: El valor de x2 para la prueba
fue de 0.9387135
Valor p: El valor p para la
prueba, fue de 0.3326089
Intervalo de confianza:
El intervalo de confianza al 95%, para la diferencia de proporciones, es
[-0.0473292, 0.150025]
Conclusión
Dado el valor p obtenido, no podemos rechazar \(H_0\), por lo que concluimos que no hay significación estadística para decidir a favor de \(H_1\) : Phombres ≠ Pmujeres. Adicionalmente, nuestro IC de 95% obtenido para la diferencia de las proporciones: [-0.0473292, 0.150025], incluye el cero. Por lo tanto, no podemos rechazar la hipótesis nula.
9. Prueba para más de 2 proporciones
Para aplicar la prueba de propoprciones para más de 2 grupos, vamos a construir una matriz con los datos de fumadores y no fumadores, de muestras tomadas en cuatro ciudades diferentes
Nuestro contraste de hipótesis, equivale a:
\[\text{Prueba:} \quad \begin{cases} H_0 : \text{Las cuatro cuidades tienen la misma proporcion}\\ H_1 : \text{Al menos una ciudad presenta una proporción di ferente al resto} \end{cases}\]
fumadores <- c(83, 90, 129, 70)
no_fumadores <- c(86, 93, 136, 82)
resultado <- prop.test(fumadores, no_fumadores)
chi <- resultado$statistic
valor_p <- resultado$p.value
resultado
##
## 4-sample test for equality of proportions without continuity correction
##
## data: fumadores out of no_fumadores
## X-squared = 12.6, df = 3, p-value = 0.005585
## alternative hypothesis: two.sided
## sample estimates:
## prop 1 prop 2 prop 3 prop 4
## 0.9651163 0.9677419 0.9485294 0.8536585
Valor Chi: El valor de x2para la prueba fue de
12.6004113
Valor p: El valor p para la prueba, fue
de 0.0055855
Conclusión
Dado el valor p obtenido, podemos rechazar \(H_0\), por lo que concluimos que hay al menos alguna ciudad que tiene una proporción diferente a las demás. Revisando el resultado, podemos verificar que la ciudad 4 presenta una proporción que difiere de los demás y dado el valor p, esta diferencia es estadísticamente significativa para nuestra significación α = 0.05.