Prueba de hipótesis para un experimento

Nuestro conocimiento solo puede ser finito, mientras que nuestra ignorancia debe ser necesariamente infinita. -Karl Popper

Karl Popper

Una hipótesis estadística es una afirmación respecto a alguna característica desconocida de una población (generalmente parámetros como la media o la proporción), basada en la evidencia muestral y en la teorìa de probabilidad

Muestreo

library(readr)
library(DT)
setwd("~/PYE1112ITSON")

Introducción

La distribución normal es un tema muy importante en estadística y durante esta clase se aplicará de forma práctica, como primera prueba antes de cualquier otra prueba estadística. Primeramente, se revisará la formulación y prueba de hipótesis, luego se revisarán las pruebas para asumir la normalidad de una muestra, pruebas estadísticas para una y dos muestras, dos muestras no normales y finalmente una alternativa a la prueba de hipótesis utilizando el intervalo de confianza del 95% (IC 95%) de la media.

Formulación y pruebas de hipótesis para 1 y 2 muestras

Normalmente, para iniciar con la resolución de un problema se aplica el método científico. De acurdo con Risk (2003), éste es un proceso con el cual se investiga de forma sistemática las observaciones, se resuelven problemas y se prueban hipótesis. Como parte del método científico la propuesta de una hipótesis y luego su comprobación, son temas bien definidos, y a pesar de la incertidumbre asociada al problema es posible cuantificar el error de la conclusión planteada por la hipótesis.

Los pasos del método científico son:

  1. Plantear un problema a resolver.
  2. Colectar una serie de observaciones.
  3. Formular una o más hipótesis.
  4. Probar dichas hipótesis.
  5. Declarar las conclusiones.

La estadística nos puede ayudar en los pasos 2 (diseño y colecta de las observaciones) y 4 (prueba de hipótesis). Una hipótesis se puede definir de la siguiente manera: Una explicación tentativa que cuenta con un conjunto de hechos que pueden ser probados con una investigación posterior.

Ejemplo

Un problema a resolver podría ser la importancia del efecto de las fertilizaciones de plántulas producidas en viveros forestales; ya contamos con el paso 1 del método científico. Luego efectuamos observaciones en dos grupos de plántulas, uno control (Sin fertilización, llamados de aquí en adelante Control) y otro de plántulas fertilizadas con un complejo complejo N:P:K (denominados de aquí en adelante como Fertilizados). El tamaño de dichas muestras se basa en estudios similares ya publicados como por ejemplo Fraysse and Crémière (1998) y también es valido de acuerdo con la experiencia del investigador.

Uno de los indicadores más comunes que miden el efecto de la fertilización de una plántula es el Índice de esbeltez (IE). Dicho índice relaciona la altura y el diámetro del tallo y se define con la siguiente ecuación (Olivo and Buduba 2006).

\[\begin{equation}\label{eq:IE} IE = \frac{\varnothing_{tallo}}{(h_{tallo}/10)+2} \end{equation}\]

El índice de Esbeltez (IE) alcanza valores máximos de 1.2 lo que indica que la plántulas tienen mayor probabilidad de éxito al llevarse a campo. Valores cercanos a 1 indica que la planta tendrá menos problemas en el establecimiento y valores por abajo de 0.5 son plántulas de mala calidad (Olivo and Buduba 2006).

library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr", "citr")
xfun::embed_file('plantas.csv')
Download plantas.csv
xfun::embed_file('hipotesis.rmd')
Download hipotesis.rmd
  • Importar datos
plantas <- read_csv("plantas.csv")
## Parsed with column specification:
## cols(
##   planta = col_double(),
##   IE = col_double(),
##   Tratamiento = col_character()
## )
View(plantas)
  • Para crear una tabla que muestre los datos
knitr::kable(plantas)
planta IE Tratamiento
1 0.80 Ctrl
2 0.66 Ctrl
3 0.65 Ctrl
4 0.87 Ctrl
5 0.63 Ctrl
6 0.94 Ctrl
7 0.78 Ctrl
8 0.71 Ctrl
9 0.70 Ctrl
10 0.71 Ctrl
11 0.76 Ctrl
12 0.93 Ctrl
13 0.55 Ctrl
14 0.70 Ctrl
15 0.95 Ctrl
16 0.78 Ctrl
17 0.90 Ctrl
18 0.79 Ctrl
19 0.63 Ctrl
20 0.91 Ctrl
21 0.77 Ctrl
22 0.56 Fert
23 0.67 Fert
24 0.65 Fert
25 0.69 Fert
26 1.04 Fert
27 0.95 Fert
28 0.74 Fert
29 1.10 Fert
30 0.91 Fert
31 1.09 Fert
32 0.79 Fert
33 0.90 Fert
34 1.15 Fert
35 1.04 Fert
36 1.00 Fert
37 0.88 Fert
38 1.15 Fert
39 0.88 Fert
40 0.78 Fert
41 1.16 Fert
42 0.91 Fert
  • Gráfico de caja y bigote para comparar las muestras
boxplot( plantas$IE~ plantas$Tratamiento, col="grey" )

  • Test de normalidad de shapiro wilk
shapiro.test(plantas$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  plantas$IE
## W = 0.96225, p-value = 0.1777

Error tipo I y error tipo II

$$ \[\begin{array}{l|l|l|c} \text{Conclusión} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso gráfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]

$$

Definición: Prueba de hipótesis

Procedimiento estadístico que, a través del estudio de una muestra aleatoria, permite determinar el cumplimiento de una hipótesis planteada sobre alguna característica de la población. En forma general, la hipótesis planteada involucra algún parámetro (por ejemplo \(µ\) o \(σ^2\), un parámetro en una regresión, la prevalencia de una enfermedad en cierta población, o la diferencia en la eficacia de diferentes tratamientos) de la distribución de la que proviene la muestra. La decisión acerca de si los datos muestrales apoyan estadísticamente la afirmación se toma en base en la probabilidad y si está es mínima, entonces la hipótesis sería rechazada.

Pasos para una prueba de hipótesis:

  • Se establece un sistema de hipotesis, compuesto por una hipótesis nula y una alternativa.
  • Selección del nivel de significancia \(\alpha\) estadístico de prueba (igual que en estimación puntual).
  • Se supone a priori que la distribución del parámetro en la población es conocido (bajo el supuesto que la hipótesis nula es cierta).
  • Región de rechazo de la hipótesis nula.
  • Se extrae una muestra aleatoria de dicha población.
  • Si la distribución de la muestra es “diferente” de la distribución de probabilidad (el estimador cae en la región de rechazo) que hemos asignado a priori a la población, concluimos que probablemente (\(\alpha\) nivel de confianza) sea errónea nuestra hipótesis.

En ningún caso debe confundirse una prueba de hipótesis estadística con una demostración matemática, pues el resultado de una prueba de hipótesis es solo una decisión razonable a partir la evidencia (información contenida en la muestra).

Según la estructura de las hipótesis se distinguen dos tipos de pruebas:

  • Pruebas bilaterales: En ellos se propone un valor puntual para el parámetro bajo estudio, de forma que se rechazará bien porque la evidencia muestral lleve a decidir que el valor es mayor o menor al propuesto. > Pruebas de hipótesis a dos colas es una forma de evitar hacer afirmaciones falsas, me puedo equivocar por exceso o por defecto. H0:θ=θ0 vs H1:θ≠θ0
  • Pruebas unilaterales: En ellos se propone que el valor del parámetro se encuentre por debajo del propuesto o en otros casos, por encima de ese valor. H0:θ=θ0 vs H1:θ>θ0 H0:θ=θ0 vs H1:θ<θ0

Conclusión

  • Una hipótesis es aquella suposición hecha a partir de ciertos datos, y que sirve de base para realizar una investigación, en la cual se pondrá a prueba y se descartará o probará su validez.
  • La hipótesis forma parte del método científico, y la ciencia de datos nos ayuda a formular y evaluar hipótesis.

Bibliografía