Puedes seguir el tutorial por vídeo en YouTube

1 Introducción al diseño de experimentos.

2 Elementos de inferencia estadística.

2.1 Población y muestra, parámetros y estadísticos.

Tenemos que distinguir entre población y muestra. La población es el conjuto de indivíduos sobre el que queremos hacer un estudio. Una muestra representativa es una parte de ese conjunto, sobre el que realizaremos medidas para que, en bases a las mismas, podamos hacer afirmaciones sobre la población.

Parámetros y estadísticos. Un estadístico se define como cualquier función de los datos muestrales que no contiene parámetros desconocidos. Un ejemplo de estadístico es la media muestral \(\overline {X}\) con la cual se tratan de hacer afirmaciones sobre la media, \(\mu\), que es un parámetro poblacional. Son los datos conocidos de la muestra y varían de una muestra a otra. Estudiando la distribución de la probabilidad de un estadístico, se podrán hacer estimaciones sobre el valor equivalente de la población. Por ejemplo, en un ensayo de eficacia con un acaricida sobre Tetranichus urticae, podemos obtener 4 medias distintas de eficacia, correspondientes a cada una de las cuatro repeticiones que se hayan llevado a cabo. Estudiando las probabilidades de que se den esos resultados, podremos hacer algunas afirmaciones sobre la media de eficacia del tratamiento sobre la población de T. urticae.

2.2 Distribuciones de probabilidad e inferencia.

Cuando representamos en un gráfico la probabilidad de que un suceso ocurra, obtenemos un gráfico de distribución de probabilidades.

set.seed(8)
DistribucionNormal <- rnorm(100, mean = 5, sd = 1)
plot(density(DistribucionNormal))

El gráfico de distribución de este suceso imaginario nos dice aproximadamente que la probabilidad de que el suceso sea 5 es del 35%, que sea 4 es del 20% y que sea 2 es del 5%.

Las distribuciones de probabilidad que más se usan en análisis estadísticos de ensayos son; normal, T de Student (sirven para hacer inferencias sobre las medias), ji-cuadrada (inferencias sobre la varianza) y F (comparar varianzas).

2.2.1 Distribución normal.

Es la típica distribución con forma de campana usada para caracterizar muchos tipos diferentes de datos medibles como la altura, peso, producción, etc. La normal es también la distribución que se usa para modelar la distribución de las muestras.

Está definida por la media y la desviación estándar.

  1. Es simétrica respectos a su media, \(\mu\).
  2. Tanto la moda como la mediana son idénticas a la media.
  3. Los puntos de inflexión de la curva se dan para \(x = \mu - \sigma\) y \(x = \mu + \sigma\)
  4. Distribución de probabilidad en un entorno de la media: (datos aproximados)
  • en el intervalo [ \(\mu - \sigma\) , \(\mu + \sigma\) ] se encuentra comprendida, aproximadamente, 2/3 de la distribución
  • en el intervalo [ \(\mu - 2\sigma\) , \(\mu + 2\sigma\) ] se encuentra aproximadamente el 95%
  • en el intervalo [ \(\mu - 3\sigma\) , \(\mu + 3\sigma\) ] se encuentra aproximadamente el 99%
  1. … y otras características más que no voy a mencionar.

Además se le llama Distribución Normal Estándar cuando su media es 0 y su desviación estandar es 1.

Su representación tendría forma de campana.

xseq <- seq(-4,4,.01)
densities <- dnorm(xseq, 0,1)

plot(xseq, densities, col = "darkgreen",xlab = "", ylab = "Density", type = "l",lwd = 2, cex = 2, main = "Distribución normal", cex.axis = .8)

2.2.2 Distribución T de Student.

La distribución T de Student es muy similar a la Normal. Esta distribución describe la distribución de la media muestral, cuando la verdadera varianza de la población es desconocia, como es el caso habitual en un muestreo. En la gráfica, la línea roja representa una distribución T con 5 grados de libertad y la línea negra, una distribución normal estándar. Tanto las distribuciones normales como las de T de Student son simétricas y centradas en cero. Sirven para hacer inferencias sobre las medias. La distribución T de Student tiene a la distribución normal estándar cuando sus grados de libertad son mayores que 45.

par(mfrow = c(1,2))
curve(dnorm(x), -4, 4, col = "red", main = "Normal (negro) Vs. T Student (rojo, 5 gl")
curve(dt(x, df = 5), add = TRUE)

curve(dnorm(x), -4, 4, col = "red", main = "Normal (negro) Vs. T Student (rojo, 45 gl")
curve(dt(x, df = 45), add = TRUE)

2.2.3 Distribución Ji-cuadrada.

curve(dchisq(x, df = 5), 0, 20, main = "Distribución Ji-cuadrada", col = "green") 

#También conocida como distribución de Pearson

2.2.4 Distribución F.

curve(df(x, df1 = 5,df2 = 10), 0, 20, main = "Distribución F", col = "blue")

Ji-cuadrada y F en una misma gráfica.

curve(df(x, df1 = 5,df2 = 10), 0, 20, col = "blue", main = "Distribuciones Ji-cuadrada y F")
curve(dchisq(x, df = 5), col = "green", add = TRUE)