---
title: "CONTRASTES DE HIPÓTESIS PARAMÉTRICOS"
format:
html:
code-fold: true
code-tools: true
theme: zephyr
author: Jaime Turrión
date: last-modified
toc: true
self-contained: true
editor: visual
---
{width="135"}
{fig-align="right" width="65" height="64"}
# INTRODUCCIÓN
En la **Teoría de la Estimación** vista en los capítulos anteriores, la información que se desea conocer de la población es el valor de alguno de sus parámetros. Sin embargo, en los **Contrastes de Hipótesis** se establecen procedimientos para aceptar o rechazar una hipótesis que se plantea acerca de un parámetro u otra característica de la población.
En general, se pueden suponer las siguientes etapas en el proceso de realizar un contraste de hipótesis:
1. El investigador formula una hipótesis sobre un parámetro poblacional, por ejemplo, que la media poblacional toma un determinado valor.
2. Se selecciona una muestra representativa de la población.
3. Comprueba si los datos están o no "de acuerdo" con la hipótesis planteada, es decir, compara la observación con la hipótesis planteada (lo teórico).
- Si lo observado es incompatible con lo teórico entonces el investigador puede rechazar la hipótesis planteada (y quizá proponer una nueva teoría en base a sus resultados).
- Si lo observado es compatible con lo planteado en la hipótesis nula (lo teórico), entonces el investigador puede continuar como si la hipótesis fuera cierta.
Se trata, en general de un proceso continuo ya que se plantean nuevas teorías y se vuelven a realizar las comparaciones.
Pero, hay que hacerse las siguientes cuestiones:
- ¿Cuándo se debe rechazar la hipótesis planteada?
- ¿Cómo decidir si lo observado es compatible con lo teórico?
- ¿Cuál es la probabilidad de tomar una decisión equivocada?
- Qué estadístico muestral se debe utilizar en el contraste?....
Por tanto, el contraste de hipótesis es un procedimiento estadístico mediante el cual se investiga la verdad o falsedad de una hipótesis acerca de una característica de una población o un conjunto de poblaciones, para ello, se toman muestras representativas de la población y sobre ellas se toma la decisión acerca de la veracidad o falsedad de la hipótesis planteada.
# Idea básica de un Contraste de Hipótesis
En un contraste de hipótesis lo que se pretende es ver si la hipótesis planteada es cierta o no. Lo primero que se necesita por tanto es tener las hipótesis, es decir, la **Hipótesis Nula** y la **Hipótesis Alternativa**. Veamos un ejempolo para comprenderlo mejor.
Imaginaros que sospecho que la altura media de esta clase es superior a 155cm. En este caso las hipótesis que plantearías mis serían:
$H_0: \mu=155cm$
$H_1: \mu>155cm$
¿Como realizaría ese contraste? es decir, ¿cómo puedo saber si la afirmación que hago sobre la altura es cierta o no?
La idea sería tomar una muestra de la población y calcular una medida que me permitiera comprobar si esa afirmación es cierta o no. Para ello, tendría que comprobar si los datos (mi muestra) corroboran esa afirmación comparando el resultado de esa medida calculada con mis datos con los que se propone en dicha hipótesis.
Es decir, primero tomo los datos (muestra) y con ellos calculo el equivalente muestral al parámetro poblacional que quiero contrastar (a esto se le llama **Estadístico de Contraste**). En este ejemplo sería lógico calcular la media muestral ($\bar{x}$) puesto que la hipótesis se plantea sobre la media poblacional ($\mu$). Evidentemente, para poder realizar este contraste de una manera correcta, y saber desde el punto de vista estadístico si mi valor está cerca o lejos del planteado en la hipótesis, necesito saber como se distribuye ese estadístico (para ello necesito conocer la **distribución en el muestreo** del estadístico de contraste, la $\bar{x}$).
En este caso compararé la media muestral con el valor planteado en la hipótesis nula. De tal modo que si mi estadístico (la media muestral) está cerca del valor de la hipótesis nula, no podré rechazar esa hipótesis, pero si está **LEJOS** (en este caso por encima al tener esa hipótesis alternativa) rechazaré la hipótesis nula. A esto se le llama **Regla de Decisión**.
{fig-align="center" width="364"}
Como conocemos la distribución, podemos fijar el nivel de significación $\alfa$ y, a partir de él, delimitar la región crítica y de aceptación.
$\bar{x} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)$
Con esta distribución en el muestreo el estadístico de contraste sería:
$Z = \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}}$
Y con el, podría comparar en la distribución nuestro ejemplo[^1]:
[^1]: Los contrastes se pueden hacer de diferentes formas. En este caso, se compara el valor crítico en una distribución Normal, con el valor del estadístico de contraste, es decir, se comparan cuantiles de una distribución Normal.
{fig-align="center" width="426"}
# Conceptos fundamentales para la realización de contrastes de hipótesis
## Hipótesis estadística y tipos de hipótesis
Una hipótesis estadística ($H$) es una proposición acerca de una característica de la población de estudio. Ejemplo: Para contrastar el rendimiento académico de un grupo de alumnos en una determinada asignatura, podríamos platear la hipótesis de si el porcentaje de aprobados es mayor del 50%.
**Hipótesis paramétricas**: Una hipótesis paramétrica es una proposición sobre los valores que toma un parámetro.
- Hipótesis simple: aquella que especifica un único valor para el parámetro.
- Ejemplos: "$𝐻: \theta=0$", "$𝐻: \theta= −23º$" , etc.
- Hipótesis compuesta: aquella que especifica un intervalo de valores para el parámetro.
- Ejemplos: "$𝐻: 𝜃≥0$","$𝐻: 1≤𝜃≤4$" , etc.
- Hipótesis unilateral: "$𝐻: 𝜃≤4$","$𝐻: 𝜃>0$" , etc.
- Hipótesis bilateral: "$𝐻: 𝜃≠4$"
**Hipótesis no paramétricas**: Una hipótesis no paramétrica es una proposición sobre cualquier otra característica de la población que no tiene que ver con parámetros.
- Ejemplos: "$H: X\sim 𝑁(\mu, \sigma)$" ,"$H: X$ independiente de $Y$" , etc.
**Hipótesis Nula e Hipótesis Alternativa** En la mayoría de los casos un contraste supone tomar una decisión entre dos hipótesis antagonistas:
- Hipótesis nula: Es la hipótesis conservadora, ya que se mantendrá mientras que los datos de las muestras no reflejen claramente su falsedad. Se representa como $H_0$.
- Hipótesis alternativa: Es la negación de la hipótesis nula y generalmente representa la afirmación que se pretende probar. Se representa como $H_1$.
::: {style="background-color: #f0f0f0; color: black; padding: 10px; border-radius: 5px;"}
[**Elección de las hipótesis nula y alternativa**]{style="display: block; text-align: center;"}
Analogía con un juicio En el caso de un juicio, en el que el juez debe decidir si el acusado es culpable o inocente, la elección de hipótesis debería ser - $H_0$ :Inocente - $H_1$ :Culpable ya que la inocencia se asume, mientras que la culpabilidad hay que demostrarla. Según esto, el juez sólo aceptaría la hipótesis alternativa cuando hubiese pruebas significativas de la culpabilidad del acusado. El investigador jugaría el papel del fiscal, ya que su objetivo consistiría en intentar rechazar la hipótesis nula, es decir, demostrar culpabilidad del acusado.
[**¡Esta metodología siempre favorece a la hipótesis nula!**]{style="display: block; text-align: center;"}
:::
## Tipos de Error
Al final, el contraste se resuelve tomando una decisión de acuerdo a esta regla. El problema es que nunca se conocerá con absoluta certeza la veracidad o falsedad de una hipótesis, de modo que al aceptarla o rechazarla es posible que se esté tomando una decisión equivocada.
Los errores que se pueden cometer en un contraste de hipótesis son de dos tipos:
- Error de tipo I: Se comete cuando se rechaza la hipótesis nula siendo esta verdadera.
- Error de tipo II: Se comete cuando se acepta la hipótesis nula siendo esta falsa.
{fig-align="center"}
$H_0: Inocente$
$H_1: Culpable$
{fig-align="center"}
**RIESGOS DE LOS ERRORES DE UN CONTRASTE DE HIPÓTESIS**
Los riesgos de cometer cada tipo de error se cuantifican mediante probabilidades:
**Definición** - Riesgos $\alpha$ y $\beta$. En un contraste de hipótesis, se define el riesgo $\alpha$ (nivel de significación) como la máxima probabilidad de cometer un error de tipo I, es decir, $P(Rechazar H_0/H_0 cierta)=\alpha)$ y se define el riesgo $\beta$ como la máxima probabilidad de cometer un error de tipo II, es decir, $P(Aceptar H_0/H_1 cierta)=\beta$
**Interpretación del nivel de significación** $\alpha$. En principio, puesto que esta metodología favorece a la hipótesis nula, el error de tipo I suele ser más grave que el error de tipo II, y por tanto, el riesgo $\alpha$ o nivel de significación suele fijarse a niveles bajos de 0.1, 0.05 o 0.01, siendo 0.05 lo más habitual.
**Definición** - **Potencia de un contraste**. La potencia de un contraste de hipótesis se define como
$P(Rechazar H_0/H_1 cierta)=1-\beta$
Así pues, al reducir el riesgo $\beta$ se aumentará la potencia del contraste.
Se puede ver la relación entre $\alpha$ y $\beta$ en el siguiente gráfico.
{fig-align="center" width="488"}
Como están relacionados el nivel de significación $\alpha$, $\beta$ y la potencia del contraste $1-\beta$, se puede observar en la aplicación de geogebra [Relación entre nivel de significación, beta y potencia del contraste](https://www.geogebra.org/m/jadzpvmg).
## Contrastes de Hipótesis y Regiones de Aceptación y Rechazo
Un contraste de hipótesis es una regla que determina, a un cierto nivel de significación, $\alpha$, para que valores de la muestra se rechaza o no se rechaza la hipótesis nula. Es decir, un contraste de hipótesis es una partición del espacio muestral en dos regiones, una región crítica o de rechazo, RC, y una región de aceptación, RA.
$\Omega = RC \cup RA$
$RC \cap RA = \emptyset$
**Regiones de Aceptación (RA) y de Rechazo o Crítica (RC)** Una vez elegido el estadístico del contraste, lo siguiente es decidir para qué valores de este estadístico se decidirá aceptar la hipótesis nula y para que valores se rechazará. Esto divide del conjunto de valores posibles del estadístico en dos regiones:
- **Región de aceptación**: Es el conjunto de valores del estadístico del contraste a partir de los cuales se decidirá aceptar la hipótesis nula.
- **Región de rechazo**: Es el conjunto de valores del estadístico del contraste a partir de los cuales se decidirá rechazar la hipótesis nula, y por tanto, aceptar la hipótesis alternativa.
Dependiendo de la dirección del contraste, la región de rechazo quedará a un lado u otro del valor esperado del estadístico del contraste según la hipótesis nula:
**Contraste bilateral** $𝐻_0: \theta=\theta_0$ vs $H_1: \theta \neq \theta_0$
{fig-align="center"}
Contraste unilateral de menor $𝐻_0: \theta=\theta_0$ vs $H_1: \theta < \theta_0$
{fig-align="center"}
Contraste unilateral de mayor $𝐻_0: \theta=\theta_0$ vs $H_1: \theta > \theta_0$
{fig-align="center"}
## P-valor (p-value)
En general, siempre que la estimación del estadístico caiga dentro de la región de rechazo, rechazaremos la hipótesis nula, pero evidentemente, si dicha estimación se aleja bastante de la región de aceptación tendremos más confianza en el rechazo que si la estimación está cerca del límite entre las regiones de aceptación y rechazo.
Por este motivo, al realizar un contraste, también se calcula la probabilidad de obtener una discrepancia mayor o igual a la observada entre la estimación del estadístico del contraste y su valor esperado según la hipótesis nula (el valor crítico).
El $p-valor$ es el nivel de significación más pequeño para el que la muestra particular obtenida obligará a rechazar la hipótesis nula. Desde el punto de vista práctico, no es más que la probabilidad asociada al valor experimental (probabilidad asociada al cuantil del estadistico experimental).
Dicho de otra manera, en un contraste de hipótesis, para cada estimación $x_0$ del estadístico del contraste $X$ dependiendo del tipo de contraste, se define el p-valor del contraste como:
Contraste bilateral: $2P(X\geq x_0/H_0)$
Contraste unilateral de menor: $P(X\leq x_0/H_0)$
Contraste unilateral de mayor: $P(X \geq x_0/H_0)$
En cierto modo, el $p-valor$ expresa la confianza que se tiene al tomar la decisión de rechazar la hipótesis nula. Cuanto más próximo esté el $p-valor$ a 1, mayor confianza existe al aceptar la hipótesis nula, y cuanto más próximo esté a 0, mayor confianza hay al rechazarla.
Una vez fijado el nivel de significación $\alpha$, la regla de decisión para realizar un contraste también puede expresarse de la siguiente manera:
::: {style="background-color: #3498db; color: black; padding: 10px; border-radius: 5px;"}
[**Regla de decisión de un contraste con el p-valor**]{style="display: block; text-align: center;"}
[Si $p-valor\leq \alpha$ Rechazo $H_0$]{style="display: block; text-align: center;"}
[Si $p-valor>\alpha$ NO Rechazo $H_0$]{style="display: block; text-align: center;"}
:::
De este modo, el $p-valor$ nos da información de para qué niveles de significación puede rechazarse la hipótesis nula y para cuáles no.
## Pasos para la Realización de un Contraste de Hipótesis
1. Formular la hipótesis nula $H_0$ y la alternativa $H_1$.
2. Fijar el nivel de significación $\alpha$
3. Seleccionar el estadístico del contraste
4. Delimitar las regiones de aceptación y rechazo.
5. Tomar una muestra de tamaño $n$.
6. Calcular el estadístico del contraste en la muestra.
7. Solucionar el contraste con alguna regla de decisión.
En la práctica, se puede a reducir a cuatro pasos fundamentales, Hipótesis, estadístico de contraste, regla de decisión y solución del contraste, dado que el resto de pasos se pueden incluir dentro de alguno de los anteriores.
# CONTRASTES DE HIPÓTESIS CON R
En todos las explicaciones posteriores, la hipótesis alternativa es bilateral, por lo que la regla de decisión se verá condicionada por dicha hipótesis. Hay que tener en cuenta que las reglas de decisión cambian en función de hipótesis que se planteen así como el estadístico de contraste empleado, y son diferentes para cada caso concreto.
## Contrastes para una Población (contrastes de conformidad)
En este grupo de contraste tenemos:
- Contraste para la media de una población normal con varianza conocida.
- Contraste para la media de una población normal con varianza desconocida.
- Contraste para la varianza de una población normal.
- Contraste para una proporción de una población.
### Contraste para la media con VARIANZA CONOCIDA (`z.test`)
Sea $X$ una variable aleatoria que cumple las siguientes condiciones:
- Su distribución es normal: $X \sim N\left(\mu, \sigma\right)$
- La media $\mu$ es desconocida, pero su varianza $\sigma^2$ es conocida.
**Hipótesis:**
$H_0: \mu=\mu_0$
$H_1: \mu \neq \mu_0$
**Estadístico del contraste:**
$\bar{x} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)$ por lo que $Z = \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0, 1)$
**Regla de decisión:**
No rechazo $𝐻_0$ si: $-Z_{\alpha/2}<Z_{exp}<Z_{\alpha/2}$
Rechazo $H_0$ si: $Z_{exp}\geq Z_{\alpha/2}$ y $Z_{exp}\leq -Z_{\alpha/2}$
{fig-align="center" width="455"}
Notese, que en este caso, la regla de decisión es así, puesto que la hipótesis alternativa es bilateral, es decir, es $\neq$. Si fuera unilateral (mayor o menor), la regla de decisión iría en ese sentido.
::: {style="background-color: #3498db; color: black; padding: 10px; border-radius: 5px;"}
En general se van a resolver los contrastes con el **p-valor**. En este caso, la regla de decisión sería:
No rechazo $𝐻_0$ si: $p-valor>\alpha$
Rechazo $H_0$ si: $p-valor\leq \alpha$
:::
::: {style="background-color: #f0f0f0; padding: 10px; border: 1px solid #ccc;"}
**Ejemplo contraste para la media con Varianza Conocida en R .**
Un profesor unviersitario está analizando el peso de los alumnos de su facultad. Asegura que el peso medio de los chicos es de 70. Sabe, por otros años que ha realizado el mismo experimento, que la desviación típica es 10 ($\sigma=10$). Para ver si su suposición es cierta, toma una muestra de tamaño 25 ($n = 25$) y calcula la media muestral, obteniendo como resultado que es igual a 68 ($\bar{x} = 68$). Si se supone un nivel de significación es del 5% ($\alpha = 0.05$). ¿Tiene razón el profesor?
**Hipótesis:**
$$\begin{align*}
H_0 &: \mu = 70 \quad \text{(Hipótesis nula)} \\
H_1 &: \mu \neq 70 \quad \text{(Hipótesis alternativa)}
\end{align*}$$
**Estadístico de contraste (Z):**
$Z_{exp} = \frac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1)$
Donde $\bar{x}$ es la media muestral, $\mu_0$ es el valor propuesto por la hipótesis nula, $\sigma$ es la desviación estándar de la población, y $n$ es el tamaño de la muestra.
**Regla de decisión:**
Rechazamos la hipótesis nula si $Z_{exp} \leq -Z_{\alpha/2}$ o $Z_{exp} \geq Z_{\alpha/2}$ ,
**Cálculos:** Sustituimos los valores dados en la fórmula del estadístico de prueba y comparamos con el cuantil de la distribución normal estándar.
```{r}
#Datos
n <- 25
media_muestral <- 68
mu_0 <- 70
sigma <- 10
alpha <- 0.05
# Estadístico de prueba
z <- (media_muestral - mu_0) / (sigma / sqrt(n))
# Cuantil de la distribución normal estándar para el nivel de significación alpha/2
z_alpha2 <- qnorm(1 - alpha/2)
# Regla de decisión
decision <- ifelse(abs(z) > z_alpha2, "Rechazar H0", "No rechazar H0")
# Resultados
cat("Estadístico de prueba (z):", z, "\n")
cat("Cuantil de la distribución normal estándar para alpha/2:", z_alpha2, "\n")
cat("Decisión:", decision, "\n")
```
``` r
```
Si queremos emplear la función `z.test` del paquete `BSDA` no se puede dar el valor de la media muestral, si no que hay que tener los datos. En nuestro caso los datos serán los que aparecen con el código.
```{r include=FALSE}
install.packages("BSDA")
```
```{r}
library(BSDA)
datos<- c(60, 70, 72, 64, 66, 74, 62, 63, 70, 60, 68, 72, 79, 66, 66, 75, 60, 74, 76, 76, 60, 65, 71, 68, 73)
#contraste con la función z.test
resultado <- z.test(x = datos, sigma.x = 10, mu = 70, alternative = "two.sided")
resultado
```
:::
### Contraste para la media con VARIANZA DESCONOCIDA (`t.test`)
Sea $X$ una variable aleatoria que cumple las siguientes condiciones:
- Su distribución es normal: $X \sim N\left(\mu, \sigma\right)$
- Tando la media $\mu$ como la varianza $\sigma^2$ son desconocidas.
**Hipótesis:**
$$\begin{align*}
H_0 &: \mu = \mu_0 \quad \text{(Hipótesis nula)} \\
H_1 &: \mu \neq \mu_0 \quad \text{(Hipótesis alternativa)}
\end{align*}$$
**Estadístico del contraste:**
$T_{exp} = \frac{\bar{x} - \mu_0}{\frac{S}{\sqrt{n-1}}} \sim t_{n-1}$
**Regla de decisión**:
Rechazo $H_0$ si $|T_{exp}| \geq t_{n-1, \alpha/2}$
No Rechazo $H_0$ si $|T{exp}| < t_{n-1, \alpha/2}$
{fig-align="center" width="429"}
::: {style="background-color: #f0f0f0; padding: 10px; border: 1px solid #ccc;"}
**Ejemplo en R de Contraste para la media con varianza desconocida**
El mismo profesor que en el caso anterior afirma que la altura media de sus alumnos es de 175cm. Desconoce todo lo referente a esta variable, por lo que toma una muestra aleatoria para comprobar dicha afirmación. A un nivel de significación del 5% ¿Se puede sostener la afirmación del profesor?
Para resolver este ejemplo vamos a emplear la función `t.test` de `R`.
```{r}
altura <- c(170, 175, 166, 198, 171, 169, 194, 168, 179, 202,175, 163, 176, 184, 185,
166,148, 167,187,179,179, 170, 167, 176, 193, 175, 171, 174, 171, 178, 163,
176, 175, 181, 178)
#H0: mu=175
#H1: mu<=>175
mu0 <- 175
media <- mean(altura) #media muestral
var <-var(altura) #CUASIvarianza muestral
sd <- sd(altura)
n <- length(altura)
nc <- 0.95 #nivel de confianza
gl <- n-1 #grados de libertad de un t (n-1)
t.test(altura, alternative = "two.sided", mu=mu0)
#CON LA LIBRERÍA "BSDA" existe un test idéntico
#library(BSDA)
#tsum.test(mean.x=media, s.x=sd,n.x=n,conf.level=nc, alternative = "two.sided", mu=mu0)
```
:::
### Contraste para la Varianza (`varTest`)
Sea $X$ una variable aleatoria que cumple las siguientes condiciones:
- Su distribución es normal: $X \sim N\left(\mu, \sigma\right)$
- Tando la media $\mu$ como la varianza $\sigma^2$ son desconocidas.
**Hipótesis:**
$\begin{align*} H_0 &: \sigma = \sigma_0 \quad \text{(Hipótesis nula)} \\ H_1 &: \sigma \neq \sigma_0 \quad \text{(Hipótesis alternativa)} \end{align*}$
**Estadístico del contraste:**
$Q_{exp}=\frac{nS^2}{\sigma^2} \sim \chi^2_{n-1}$
**Regla de decisión:**
Rechazo $H_0$ si: $Q_{exp} \leq \chi^2_{\alpha/2, n-1}$ o $Q_{exp} \geq \chi^2_{(1-\alpha/2), n-1}$
No rechazo $𝐻_0$ si: $\chi^2_{(1-\alpha/2),n-1}<Q_{exp}<\chi^2_{\alpha/2, n-1}$
{fig-align="center" width="342"}
::: {style="background-color: #f0f0f0; padding: 10px; border: 1px solid #ccc;"}
**Ejemplo en R de Contraste para la Varianza**
Supongamos el mismo ejemplo que en el contraste anterior. En este caso, el profesor quiere realizar un contraste sobre la varianza de la altura de sus alumnos. Sostiene que la varianza de los alumnos es de $110 cm^2$. Va a contrastar dicha hipótesis con la misma muestra aleatoria obtenida en el ejemplo anterior. Con un nivel de significación del 10% ¿Se puede sostener la afirmación del profesor sobre la varianza?
Para resolver este ejemplo vamos a emplear la función `varTest` del paquete `EnvStats`de `R`.
**Hipótesis:**
$\begin{align*} H_0 &: \sigma = 110 \quad \text{(Hipótesis nula)} \\ H_1 &: \sigma \neq 110 \quad \text{(Hipótesis alternativa)} \end{align*}$
**Estadístico del contraste:**
$Q_{exp}=\frac{nS^2}{\sigma^2} \sim \chi^2_{34}$
**Regla de decisión:**
Rechazo $H_0$ si: $Q_{exp} \leq \chi^2_{0.05, 34}$ o $Q_{exp} \geq \chi^2_{0.95, 34}$
No rechazo $𝐻_0$ si: $\chi^2_{0.95,34}<Q_{exp}<\chi^2_{0.05, 34}$
```{r include=FALSE}
install.packages("EnvStats")
```
```{r}
library(EnvStats)
altura <- c(170, 175, 166, 198, 171, 169, 194, 168, 179, 202,175, 163, 176, 184, 185,
166,148, 167,187,179,179, 170, 167, 176, 193, 175, 171, 174, 171, 178, 163,
176, 175, 181, 178)
#H0: SIGMA=110
#H1: SIGMA<=>110
nc <- 0.90 #nivel de confianza
varTest(altura,alternative = "two.sided", nc, sigma.squared=110)
```
Dado que el p-valor es igual a 0.8429, y con un nivel de significación del 10%, no podemos rechazar la hipótesis nula de que la varianza es de 110. Si lo hacemos con la regla de decisión de los cuantiles, deberíamos comparar el valor del test ($Q_{exp}=34.978$) con los valores críticos (que estos test no los proporcionan, por lo que habría que calcularlos).
:::
### Contraste para la proporción (`prop.test`)
Sea $p$ la proporción de individuos de una población que tienen una determinada característica. Sabemos que
- $X$ es una variable que cuenta el número de individuos y se distribuye como $𝑋 \sim 𝐵(𝑛,𝑝_0)$
- Si $n$ es grande y por el *Teorema de Moivre* conocemos la distribución de la proporción muestral.
**Hipótesis:**
$𝐻_0: p=p_0$
$H_1: p \neq p_0$
**Estadístico del contraste:**
$\hat{p} \sim N\left(p_0, \sqrt{\frac{p_0q_0}{n}}\right)$ por lo que $P_{exp} = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0q_0}{n}}}\sim N(0, 1)$
**Regla de decisión:**
No rechazo $𝐻_0$ si: $-Z_{\alpha/2}<P_{exp}<Z_{\alpha/2}$
Rechazo $H_0$ si: $P_{exp}\geq Z_{\alpha/2}$ y $P_{exp}\leq -Z_{\alpha/2}$
{fig-align="center" width="416"}
::: {style="background-color: #f0f0f0; padding: 10px; border: 1px solid #ccc;"}
**Ejemplo en R de Contraste para la proporción**
Se está desarrollando un nuevo medicamento y se ha comprobado tomando una muestra aleatoria simple que ha sido efectivo en 42 de los 50 casos tratados. ¿Estos datos proporcionan suficiente evidencia para demostrar que el nuevo medicamento tiene una efectividad distinta a la de anteriores tratamientos que eran efectivos en un 72% de los casos? Utilice un 5% de nivel de significación.
Para resolver este ejemplo se pueden emplear varias funciones en función de si la muestra es exacta (`binom.test`) o si la muestra es suficientemente grande para que converja a una normal (`prop.test`). La que se ha explicado en estos apuntes es la segunda de ellas.
**Hipótesis:**
$\begin{align*} H_0 &: p = 0.72 \quad \text{(Hipótesis nula)} \\ H_1 &: p \neq 0.72 \quad \text{(Hipótesis alternativa)} \end{align*}$
**Estadístico del contraste:**
$\hat{p} \sim N\left(p_0, \sqrt{\frac{p_0q_0}{n}}\right)$ por lo que $P_{exp} = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0q_0}{n}}}\sim N(0, 1)$
**Regla de decisión:**
No rechazo $𝐻_0$ si: $-Z_{\alpha/2}<P_{exp}<Z_{\alpha/2}$
Rechazo $H_0$ si: $P_{exp}\geq Z_{\alpha/2}$ y $P_{exp}\leq -Z_{\alpha/2}$
```{r}
n <- 50
X <- 42
p <- X/n
alfa <- 0.05
nc <- 0.95
#Con prop.test
prop.test(X, n, p=0.72, alternative = c("two.sided"), conf.level=nc,correct=T)
#con binom.test
#binom.test(X,n, p=0.72, conf.level=nc)
```
Dado que el p-valor es igual a 0.08321, con un nivel de significación del 5%, no podemos rechazar la hipótesis nula de que la proporción es del 0.72, es decir, la efectividad de este medicamento es similar a la de medicamentos anteriores.
:::
## Contrastes para DOS poblaciones (contrastes de Homogeneidad)
En todos los casos, se asume que las poblaciones son normales (o tamaños suficientemente grandes) y las variables independientes.
En este grupo de contraste tenemos:
- Contraste para la diferencia de medias con varianzas conocidas.
- Contraste para la diferencia de medias con varianzas desconocidas pero iguales.
- Contraste para la diferencia de proporciones.
### Contraste para la diferencia de medias con varianzas conocidas (`zsum.test`)
Sean $X$ e $Y$ dos variables aleatorias que cumple las siguientes condiciones:
- Su distribución es normal: $X \sim N\left(\mu_x, \sigma_x\right)$, $Y \sim N\left(\mu_y, \sigma_y\right)$
- Las medias $\mu_x$ y $\mu_y$ son desconocidas, pero sus varianza $\sigma^2_x$ y $\sigma^2_y$ son conocidas.
- Las variables $X$ e $Y$ son independientes.
**Hipótesis:**
$H_0: \mu_x-\mu_y=0$
$H_1: \mu_x-\mu_y \neq 0$
**Estadístico del contraste:**
$\bar{x}-\bar{y} \sim N\left((\mu_x - \mu_y)_0, \sqrt{\frac{\sigma^2_x}{n_x}+\frac{\sigma^2_y}{n_y}}\right)$
por lo que $Z_exp = \frac{(\bar{x}-\bar{y}) -( \mu_x-\mu_y)_0}{\sqrt{\frac{\sigma^2_x}{n_x}+\frac{\sigma^2_y}{n_y}}}\sim N(0,1)$
**Regla de decisión:**
No rechazo $𝐻_0$ si: $-Z_{\alpha/2}<Z_{exp}<Z_{\alpha/2}$
**Rechazo** $H_0$ **si**: $Z_{exp}\geq Z_{\alpha/2}$ y $Z_{exp}\leq -Z_{\alpha/2}$
{fig-align="center" width="395"}
::: {style="background-color: #f0f0f0; padding: 10px; border: 1px solid #ccc;"}
**Ejemplo contraste para la Diferencia de medias con Varianzas Conocidas en R .**
Un profesor universitario quiere comprobar si existen diferencias entre las alturas de sus alumnos y alumnas. Sostiene que las alturas son diferentes según el género. Además sabe, que las desviaciones típicas de los chicos (que representa con $X$) es igual a ($\sigma_x=9$) y la de las chicas (que denomina $Y$) es igual a $\sigma_y=10$). Para ver si su suposición es cierta, toma una muestra dos muestras aleatorias simples. Si se supone un nivel de significación del 5% ($\alpha = 0.05$). ¿Tiene razón el profesor?
**Hipótesis:**
$$\begin{align*}
H_0 &: \mu_x = \mu_y \quad \text{(Hipótesis nula)} \\
H_1 &: \mu_x \neq \mu_y \quad \text{(Hipótesis alternativa)}
\end{align*}$$
**Estadístico de contraste (Z):**
$Z_exp = \frac{(\bar{x}-\bar{y}) -( \mu_x-\mu_y)_0}{\sqrt{\frac{\sigma^2_x}{n_x}+\frac{\sigma^2_y}{n_y}}}\sim N(0,1)$
**Regla de decisión:**
Rechazamos la hipótesis nula si $Z_{exp}\geq Z_{\alpha/2}$ y $Z_{exp}\leq -Z_{\alpha/2}$ ,
**Cálculos:** A partir de los siguientes datos, calculamos la información necesaria y realizamos el contraste.
Nota: Para poder realizar este contraste a partir de una función necesitamos instalar el paquete `BSDA`y utilizar la fórmula `zsum.test`
```{r include=FALSE}
install.packages("BSDA")
library(BSDA)
```
```{r}
#altura de los hombres=X=alt_H
alt_H <- c(178, 192, 170, 179, 162, 177, 182, 186, 194, 189, 187, 180, 180, 179, 169,
185, 194, 190, 195, 169, 198, 186)
#altura de las mujeres=Y=alt_Y
alt_M <- c(170, 175, 166, 198, 171, 169, 194, 168, 179, 202,175, 163, 176, 184, 185,
166,148, 167,187,179,179, 170, 167, 176, 193, 175, 171, 174, 171, 178, 163,
176, 175, 181, 178)
nx <- length(alt_H) # El tamaño de la muestra de x
ny <- length(alt_M) # El tamaño de la muestra de y
mediax <- mean(alt_H) # la media muestral de x
mediay <- mean(alt_M) # la media muestral de y
desvx <- 9 # La desviación poblacional de x
desvy <- 10 # La desviación poblacional de y
nc = 0.95 # nivel de confianza
zsum.test(mean.x=mediax,sigma.x=desvx,n.x=nx,mean.y=mediay,sigma.y=desvy,n.y=ny, conf.level=nc)
```
Como se puede comprobar, para un nivel de significación del 5%, se rechazaría la hipótesis nula de que la altura de los hombres es igual a la de las mujeres (p-value=0.005581\<0.05=alfa).
:::
### Contraste para la diferencia de medias con varianzas DESCONOCIDAS pero iguales (`t.test`)
Sean $X$ e $Y$ dos variables aleatorias que cumple las siguientes condiciones:
- Su distribución es normal: $X \sim N\left(\mu_x, \sigma_x\right)$, $Y \sim N\left(\mu_y, \sigma_y\right)$
- Las medias $\mu_x$ y $\mu_y$ son desconocidas, y sus varianzas $\sigma^2_x$ y $\sigma^2_y$ son DESCONOCIDAS pero iguales.
- Las variables $X$ e $Y$ son independientes.
**Hipótesis:**
$H_0: \mu_x-\mu_y=0$
$H_1: \mu_x-\mu_y \neq 0$
**Estadístico del contraste:**
$T_{exp} = \frac{(\bar{x}-\bar{y}) -( \mu_x-\mu_y)_0}{\sqrt{\frac{n_xS^2_x+n_yS^2_y}{n_x+n_y-2}}·\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}}\sim t_{nx+ny-2}$
**Regla de decisión:**
No rechazo $𝐻_0$ si: $-t_{(n_x+n_y-2),\alpha/2}<T_{exp}<t_{(n_x+n_y-2),\alpha/2}$
**Rechazo** $H_0$ **si**: $T_{exp}\geq t_{(n_x+n_y-2),\alpha/2}$ y $T_{exp}\leq -t_{(n_x+n_y-2),\alpha/2}$
{fig-align="center" width="378"}
### Contraste para la diferencia de proporciones (`prop.test`)
Sean $p_x$ y $p_y$ las respectivas proporciones de una determinada característica en dos poblaciones $X$ e $Y$ respectivamente. Sabemos que:
- $X$ e $Y$ son dos variables que cuentan el número de individuos y se distribuyen como $X \sim B(n_x, p_x)$ e $Y \sim B(n_y,p_y)$ respectivamente.
- Si los tamaños muestrales son grandes, por el Teorema de Moivre conocemos la distribución de la diferencia de proporciones muestrales.
**Hipótesis:**
$H_0: p_x-p_y=0$
$H_1: p_x-p_y \neq 0$
**Estadístico del contraste:**
$\hat{p_x}-\hat{p_y} \sim N\left(p_x - p_y, \sqrt{\frac{\hat{p_x}\hat{q_x}}{n_x}+\frac{\hat{p_y}\hat{q_y}}{n_y}}\right)$
por lo que $P_{exp} = \frac{(\hat{p_x}-\hat{p_y}) -(p_x-p_y)_0}{\sqrt{\frac{\hat{p_x}\hat{q_x}}{n_x}+\frac{\hat{p_y}\hat{q_y}}{n_y}}}\sim N(0,1)$
**Regla de decisión:**
No rechazo $𝐻_0$ si: $-Z_{\alpha/2}<P_{exp}<Z_{\alpha/2}$
**Rechazo** $H_0$ **si**: $P_{exp}\geq Z_{\alpha/2}$ y $P_{exp}\leq -Z_{\alpha/2}$
{fig-align="center" width="434"}
::: {style="background-color: #f0f0f0; padding: 10px; border: 1px solid #ccc;"}
**Ejemplo contraste para la Diferencia de proporciones en R .**
Un directivo quiere estimar la diferencia en la proporción de empleados que disponen de teléfono móvil de empresa en dos de sus centros principales. Para ello, realiza un estudio en ambos centros donde se pregunta a sus empleados si disponen de móvil de empresa. Los resultados muestrales son: en el centro A, 50 de los 125 empleados encuestados disponen de móvil de empresa, mientras que en el centro B, 65 de los 140 empleados encuestados tienen móvil de empresa. Con esta información, calcule el intervalo de confianza al 95% para la diferencia en las proporciones de empleados con móvil de empresa entre ambos centros.
Dado el siguiente escenario:
En el centro A: $X_A=50$ de $n_A=125$ empleados tienen móvil de empresa. En el centro B: $X_B=65$ de $n_B=140$ empleados tienen móvil de empresa.
```{r}
# Datos
x <- c(50, 65) # Éxitos en los centros A y B
n <- c(125, 140) # Tamaños muestrales de los centros A y B
# Intervalo de confianza para la diferencia de proporciones
IC_dif_prop <- prop.test(x = x, n = n, conf.level = 0.95, correct = FALSE)$conf.int
IC_dif_prop
```
:::