Inferencia estadística
El objetivo de estas notas es complementar los contenidos abordados en clase sobre inferencia estadística. Esto proporciona una guía práctica que ayude a las y los estudiantes a aplicar los conceptos clave del tema. Con estas notas, buscamos ofrecer un enfoque integral que incluye la formulación de hipótesis, la ejecución de pruebas en R y su interpretación.
La intención es guiar a los alumnos y alumnas en todo el proceso, desde el planteamiento de la pregunta de investigación hasta la toma de decisiones basada en la evidencia estadística. En estas notas presentamos ejercicios simulados que permitirán practicar la aplicación de pruebas de hipótesis.
Además, buscamos que los estudiantes se familiaricen con el software R, una herramienta que es ampliamente utilizada en el análisis estadístico. Así, al seguir estos pasos, las y los estudiantes podrán visualizar de manera estructurada la implementación de las pruebas de hipótesis que verémos en el curso.
Población
: Conjunto de objetos, individuos o cosas que
deseamos estudiarParámetro
: Valor numérico que describe una de las
característica de toda una población.Muestra
: Se trata de un subconjunto representativo de
una población.Estadístico
: Valor que se calcula a partir de una
muestra, la cual se utiliza para estimar un parámetro de la
población.La población es el conjunto completo de objetos, individuos o cosas que deseamos estudiar. Dentro de esta población, existen características específicas que nos gustaría medir, tales como la media o la proporción. Estas medidas reciben el nombre de parámetros, los cuales son valores numéricos que describen a la población en general.
Desafortunadamente, en la mayoría de las investigaciones es imposible estudiar a toda la población debido a limitaciones de tiempo, costos o accesibilidad. Es en este punto donde entra en juego lo que denominamos muestra, la cual es un subconjunto representativo de la población. Esto quiere decir que sus características son similares a los que tiene la población total.
Entonces, a partir de los datos de la muestra, podemos calcular un estadístico, el cual es un valor que se aproxima al parámetro poblacional. Por ejemplo, si estamos interesados en la media poblacional, calcularemos la media usando los datos de la muestra con el supuesto de que ese valor se parece al dato poblacional.
En la práctica, las pruebas de hipótesis y el análisis multivariado se lleva a cabo utilizado la muestra y los estadísticos. A través de estos análisis, podemos hacer estimaciones y tomar decisiones sobre las características de la población.
Al momento de que planteamos una prueba de hipótesis debemos considerar los siguientes elementos:
Formular las hipótesis:
Nivel de significancia (\(\alpha\)): Es la probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera. Comúnmente se utiliza un valor de \(\alpha = 0.05\).
Nivel de confianza: Se trata de la probabilidad de que, si repitiéramos el proceso de muestreo muchas veces, el valor verdadero del parámetro caería dentro del intervalo estimado. Usualmente se utiliza el valor de \(95%\) y quiere decir que si repetimos el experimento 100 veces, en 95 veces de esas veces el intervalo de confianza incluiría el valor verdadero del parámetro poblacional.
Estadístico de Prueba: Es un valor calculado con los datos de la muestra que usamos para decidir si rechazamos - o no - la hipótesis nula. Algunos ejemplos de estadísticos son: t, z, F, todo depende la prueba que estemos utilizando.
p-valor: Es un número que nos dice qué tan probable es obtener los resultados que observamos en un estudio, si la suposición inicial que hicimos ( hipótesis nula) fuera cierta. Si este número es muy pequeño, significa que los resultados que vimos son raros bajo esa suposición, lo que nos da motivos para pensar que la suposición inicial podría estar equivocada. En términos simples, un p-valor bajo sugiere que lo que observamos probablemente no es solo por casualidad.
Consiste en una prueba de hipótesis que se aplica a una sola población, con el objetivo de evaluar una afirmación específica sobre el parámetro 𝜇de esa población. Esta prueba es especialmente útil cuando el tamaño de la muestra es pequeño (generalmente menos de 30) y la desviación estándar de la población no es conocida.
El estadístico \(t\) se calcula usando la fórmula:
\[t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}}\]
Donde, \(\bar{x}\) es la media de la muestra, \(\mu_0\) es la media hipotética de la población, \(s\) es la desviación estándar de la muestra y \(n\) es el tamaño de la muestra.
Imaginemos que un laboratorio afirma que la cantidad promedio de una sustancia específica encontrada en una escena del crimen es superior a 5 miligramos. Sin embargo, un abogado defensor cuestiona esta afirmación y sugiere que la cantidad no es tan alta como la afirma el laboratorio.
Para respaldar su afirmación, el laboratorio recolecta 15 muestras de evidencia similar de otras escenas del crimen y decide realizar una prueba de hipótesis para analizar estos datos.
Primero, es importante notar que estamos trabajando con una sola muestra compuesta por 15 datos y el objetivo es analizar el promedio de la cantidad de sustancia. Dado este escenario, debemos elegir una prueba estadística que nos permita evaluar una sola muestra y su promedio, que en este caso es la prueba t de Student.
Para realizar la prueba, primero vamos a tomar como referencia el punto de vista del laboratorio. Para el laboratorio, el promedio de la cantidad de sustancia es superior a 5 miligramos. Así, las hipótesis se planean de la siguiente manera:
\[H_0=\mu\leq 5\text{ miligramos}\]
\[H_a=\mu> 5\text{ miligramos}\]
En este caso, la hipótesis alternativa \(H_a\) es lo que el laboratorio espera demostrar. Si los resultados de la prueba estadística nos llevan a rechazar \(H_0\), entonces podríamos concluir que hay suficiente evidencia para apoyar la afirmación del laboratorio de que la cantidad promedio de la sustancia en las escenas del crimen es realmente superior a 5 miligramos.
# Datos recolectados (en miligramos)
muestra <- c(5.2, 5.3, 5.1, 5.6, 5.4, 5.0, 5.3, 5.5, 5.1, 5.2, 5.3, 5.4, 5.6, 5.2, 5.5)
# Realización de la prueba t de Student
t.test(muestra, mu = 5, alternative = "greater")
##
## One Sample t-test
##
## data: muestra
## t = 6.5721, df = 14, p-value = 6.225e-06
## alternative hypothesis: true mean is greater than 5
## 95 percent confidence interval:
## 5.229361 Inf
## sample estimates:
## mean of x
## 5.313333
El p-valor obtenido en la prueba t es extremadamente pequeño (aproximadamente 0.000006) y, dado que este valor es mucho menor que el nivel de significancia comúnmente utilizado (0.05), tenemos suficiente evidencia para rechazar la hipótesis nula \(H_0\).
Al rechazar la hipótesis nula \(H_0\), concluimos que hay evidencia estadística suficiente para aceptar la hipótesis alternativa \(H_a\). Esto significa que, desde el punto de vista del laboratorio, se puede afirmar que la cantidad promedio de la sustancia encontrada en la escena del crimen es superior a 5 miligramos, lo que respalda su afirmación inicial.