Puedes seguir el tutorial por vídeo en YouTube

1 Introducción al diseño de experimentos.

2 Elementos de inferencia estadística.

2.1 Población y muestra, parámetros y estadísticos.

2.2 Distribuciones de probabilidad e inferencia.

2.3 Estimación puntual y por intervalo.

2.4 Conceptos básicos de prueba de hipótesis.

2.4.1 Planteamiento de una hipótesis estadística.

En el caso más simple de la experimentación de campo, que consiste en comparar una técnica usual con otra nueva, las hipótesis que pueden establecerse son dos, la que considera que ambas dan el mismo resultado y la que considera que ambas difieren en los resultados. Se denomina hipótesis nula, y se designa por \(H_{0}\), a aquélla que se formula en el sentido de que no hay diferencia entre las técnicas, es decir, que las diferencias que puedan observarse se deben a diferencias en el muestreo de la misma población.

Esta suele ser la hipótesis de trabajo, en contraposición con la denominada hipótesis alternativa \(H_{1}\), que es la complementaria de la hipótesis nula, es decir, la que establece que ambas técnicas difieren. Cuando la hipótesis alternativa sólo establece que existe diferencia se la denomina hipótesis alternativa de dos lados (bilateral) y cuando afirma que los valores de los parámetros de una de las poblaciones son mayores o menores a los de otra población, entonces se la denomina hipótesis alternativa de un solo lado (unilateral).

2.4.2 Estadístico de prueba.

El estadístico de prueba es un número calculado a partir de los datos y la hipótesis nula, cuya magnitud permite discernir si se rechaza o no la hipótesis nula \(H_{0}\). Al conjunto de posibles valores del estadístico de prueba que llevan a rechazar \(H_{0}\), se le llama región o intervalo de rechazo para la prueba, y a los posibles valores donde no se rechaza \(H_{0}\) se les llama región o intervalo de aceptación.

Para el caso de la probabilidad, el estadístico \(z_{0}\) está dado por:

\[z_{0}=\dfrac {\widehat {p}-p } {\sqrt {p\left( 1-p \right) / n}}\]

Por ejemplo: Nos dicen que la proporción p de fruta afectada por granizo en una partida de N = 10000 (población) es del 10%. Y nosotros queremos comprobarlo personalmente. Tomamos n = 500 frutas y se encuentran 60 dañadas.

CantidadAfectada <- 60
TamMuestra <- 500
ProporcionAfectada <- (CantidadAfectada / TamMuestra) ; ProporcionAfectada
## [1] 0.12
ProporcionReferencia <- 0.10

\[\widehat {p} = x/n = 0.12\].

Veamos si el hecho de que la proporción de nuestra muestra sea 0.12 es suficiente para rechazar que p=0.10 (10%)

Calculamos el varlor estadístico de nuestra muestra.

z0 <- (ProporcionAfectada - ProporcionReferencia) / sqrt(ProporcionReferencia * (1 - ProporcionReferencia) / TamMuestra) ; z0
## [1] 1.490712

El valor estadístico es \(z_{0}\) = 1.490712.

2.4.3 Criterio de rechazo.

El estadístico de prueba, construido bajo el supuesto de que \(H_{0}\) es verdad, es una variable aleatoria con distribución conocida. Si efectivamente \(H_{0}\) es verdad, el valor del estadístico de prueba debería caer dentro del rango de valores más probables de su distribución asociada, el cual se conoce como región de aceptación. Si cae en una de las colas de su distribución asociada, fuera del rango de valores más probables (en a región de rechazo), es evidencia en contra de que este valor pertenece a dicha distribución. De aquí se deduce que debe estar mal el supuesto bajo el cual se construyó, es decir, \(H_{0}\) debe ser falsa.

Ejemplo

Continuando con el ejemplo de la fruta dañada por el granizo, teníamos que el valor del estadístico era 1.49 \(z_{0}\) = 1.490712.

Para saber si el estadístico está dentro o fuera de la región de rechazo, hay que obtener el valor de \(z_{\alpha /2}\) que depende a su vez del nivel de confianza con el que querramos trabajar, en el ejemplo 95%.

Se rechazará la \(H_{0}\) si \[/ z_{0} />z_{\alpha /2}\]. En la figura siguiente, esto equivale a que \(/ z_{0} /\) caiga en el rango de las áreas sombreadas, de acuerdo con la hipótesis de que se trate.

Calculamos estadístico \(z_{\alpha /2}\)

nivel.conf <- 0.95
z_alpha2 <- round(qnorm(((1 - nivel.conf) / 2), mean = 0, sd = 1, lower.tail = FALSE), 2) #Valor de z según una distribución normal.
z_alpha2
## [1] 1.96

Visualizamos la posición del estadístico \(/ z_{0} /\) con respecto a \(z_{\alpha /2}\).

if (!require(visualize)) {install.packages("visualize")}
library(visualize)
visualize.norm(stat = c(-1.96, 1.96), mu = 0, sd = 1, section = "tails")
abline(v = 1.49, col = "red", lwd = 3, lty = 2)
text(1.7, 0.2, expression(z[0]), col = "red")
text(2.5, 0.05, expression(alpha/2), col = "blue")
text(-2.5, 0.05, expression(alpha/2), col = "blue")
text(0, 0.2, expression(1 - alpha), col = "black")

Tenemos que para un nivel de confianza del 95%, \(z_{\alpha /2}\) = 1.96 y que para según nuestra muestra, con un \(\widehat {p}\) = 0.12, \(z_{0}\) = 1.490712. Por lo tanto no se cumple que \(/ z_{0} />z_{\alpha /2}\) (1.490712>1.96) y no se rechaza la \(H_{0}:p\) = 0.1. Es decir, en este caso \(\hat {p}\) = 0.12 no es evidencia suficiente contra \(H_{0}\):p = 0.1.

2.4.4 El riesgo de una decisión equivocada: errores de tipo I y tipo II.

Probar una hipótesis estadística es una decisión probabilística, por lo que existe el riesgo de cometer un error tipo I o un error tipo II. El primero ocurre cuando se rechaza H0 cuando ésta es verdadera, y el error tipo II es cuando se acepta H0 y ésta es falsa. En toda prueba de hipótesis cada tipo de error tiene una probabilidad de ocurrir.

\(\alpha\) = P{error tipo I} = probabilidad de rechazar H0 siendo verdadera. \(\beta\) = P{error tipo II} = probabilidad de aceptar H0 siendo falsa.

A 1 – b se le llama potencia de la prueba, y es la probabilidad de rechazar H0 cuando es falsa. A a también se le conoce como la significancia dada de la prueba y es la probabilidad de la región o intervalo de rechazo; su valor se especifica por parte del investi gador desde que planea el estudio.