Introducción

La distribución normal es un tema muy importante en estadística y durante esta clase se aplicará de forma práctica, como primera prueba antes de cualquier otra prueba estadística. Primeramente, se revisará la formulación y prueba de hipótesis, luego se revisarán las pruebas para asumir la normalidad de una muestra, pruebas estadísticas para una y dos muestras, dos muestras no normales y finalmente una alternativa a la prueba de hipótesis utilizando el intervalo de confianza del 95% (IC 95%) de la media.

Formulación y pruebas de hipótesis para una y dos muestras

Normalmente, para iniciar con la resolución de un problema se aplica el método científico. De acurdo con Risk (2003), éste es un proceso con el cual se investiga de forma sistemática las observaciones, se resuelven problemas y se prueban hipótesis. Como parte del método científico la propuesta de una hipótesis y luego su comprobación, son temas bien definidos, y a pesar de la incertidumbre asociada al problema es posible cuantificar el error de la conclusión planteada por la hipótesis.

Los pasos del método científico son: 1) Plantear un problema a resolver, 2) Colectar una serie de observaciones, 3) formular una o más hipótesis, 4) probar dichas hipótesis y 5) declarar las conclusiones. La estadística nos puede ayudar en los pasos 2 (diseño y colecta de las observaciones) y 4 (prueba de hipótesis). Una hipótesis se puede definir de la siguiente manera: Una explicación tentativa que cuenta con un conjunto de hechos que pueden ser probados con una investigación posterior.

Ejemplo

Un problema a resolver podría ser la importancia del efecto de las fertilizaciones de plántulas producidas en viveros forestales; ya contamos con el paso 1 del método científico. Luego efectuamos observaciones en dos grupos de plántulas, uno control (Sin fertilización, llamados de aquí en adelante Control) y otro de plántulas fertilizadas con un complejo complejo N:P:K (denominados de aquí en adelante como Fertilizados). El tamaño de dichas muestras se basa en estudios similares ya publicados como por ejemplo Fraysse and Crémière (1998) y también es valido de acuerdo con la experiencia del investigador.

Uno de los indicadores más comunes que miden el efecto de la fertilización de una plántula es el Índice de esbeltez (IE). Dicho índice relaciona la altura y el diámetro del tallo y se define con la siguiente ecuación (Olivo and Buduba 2006).

\begin{equation}\label{eq:IE} IE = \frac{\varnothing_{tallo}}{(h_{tallo}/10)+2} \end{equation}

El índice de Esbeltez (IE) alcanza valores máximos de 1.2 lo que indica que la plántulas tienen mayor probabilidad de éxito al llevarse a campo. Valores cercanos a 1 indica que la planta tendrá menos problemas en el establecimiento y valores por abajo de 0.5 son plántulas de mala calidad (Olivo and Buduba 2006).

Una vez efectuado el experimento y colectado los datos en el vivero de las plántulas de acuerdo con el estudio de tesis de Licenciatura de Sánchez Hernández (2010), se presentan los datos en el cuadro con los valores de IE para cada plántula en cada grupo (Control y Fertilizados).

Índice de esbeltez (IE) proveniente de un experimento de fertilización con plántulas de la especie Pinus pseudostrobus en el vivero del Bosque Escuela, UANL.
planta IE Tratamiento planta IE Tratamiento
1 0.8 Ctrl 22 0.56 Fert
2 0.66 Ctrl 23 0.67 Fert
3 0.65 Ctrl 24 0.65 Fert
4 0.87 Ctrl 25 0.69 Fert
5 0.63 Ctrl 26 1.04 Fert
6 0.94 Ctrl 27 0.95 Fert
7 0.78 Ctrl 28 0.74 Fert
8 0.71 Ctrl 29 1.1 Fert
9 0.7 Ctrl 30 0.91 Fert
10 0.71 Ctrl 31 1.09 Fert
11 0.76 Ctrl 32 0.79 Fert
12 0.93 Ctrl 33 0.9 Fert
13 0.55 Ctrl 34 1.15 Fert
14 0.7 Ctrl 35 1.04 Fert
15 0.95 Ctrl 36 1 Fert
16 0.78 Ctrl 37 0.88 Fert
17 0.9 Ctrl 38 1.15 Fert
18 0.79 Ctrl 39 0.88 Fert
19 0.63 Ctrl 40 0.78 Fert
20 0.91 Ctrl 41 1.16 Fert
21 0.77 Ctrl 42 0.91 Fert

Como el espacio es limitado se presenta la tabla dividida en seis columnas, sin embargo la forma más apropiada y cómoda para procesar y analizar los datos en el ambiente R son a tres columnas: Columna 1 (Plántula), Columna 2 (IE) y Columna (3) Tratamiento como se observa a continuación.

##    planta   IE Tratamiento
## 1       1 0.80        Ctrl
## 2       2 0.66        Ctrl
## 3       3 0.65        Ctrl
## 4       4 0.87        Ctrl
## 39     39 0.88        Fert
## 40     40 0.78        Fert
## 41     41 1.16        Fert
## 42     42 0.91        Fert

Mediante la observación del cuadro y utilizando métodos de estadística descriptiva y representación gráfica (Fig. ), podríamos aventurarnos a decir que el IE en el tratamiento fertilizadas es más alto con respecto al grupo Control, a este punto es seguro plantear que el IE es distinto en lugar de mayor, aquí es donde formulamos la hipótesis:

boxplot(indice$IE ~ indice$Tratamiento, col="grey")
Representación del comportamiento del IE mediante un boxplot\label{fig:descripcion}

Representación del comportamiento del IE mediante un boxplot

El Índice de Esbeltez (IE) en plántulas con fertilizante (Fert) es diferente con respecto a las plántulas del tratamiento (Ctrl).

La formulación de una hipótesis en el método científico se inicia definiendo la hipótesis nula \((H_{0})\) y la hipótesis alternativa \((H_{1})\); generalmente la \(H_{0}\) establece que no hay diferencias entre los grupos a compararse, en este caso Ctrl y el grupo Fert. La hipótesis alternativa \((H_{1})\) por otra parte, se indica como el complemento de la \(H_{0}\), por lo tanto \(H_{1}\) establecerá que si existen diferencias significativas entre los grupos en estudio (Zar 2010; A. Field, Miles, and Field 2012). Por lo tanto mediante procedimientos estadísticos que veremos en esta clase, se tratará rechazar nuestra hipótesis \(H_{0}\).

\(H_{0}\): IE Ctrl = IE Fert; \(H_{1}\)= IE Ctrl \(\neq\) IE Fert

Normalmente cuando se toma la decisión final sobre la hipótesis nula, surgen situaciones que nos pueden llegar a cometer diferentes errores. Así, una vez realizadas las técnicas para probar esta hipótesis, puede que lleguemos a la conclusión de que el enunciado de nuestra \(H_{0}\) no se rechace (acepta) o bien que sea falso y se rechace la \(H_{0}\). En esta situación puede que hayamos rechazado la \(H_{0}\) cuando en realidad era cierta, o que la evidencia colectada para nuestro análisis no haya sido suficiente para rechazarla siendo falsa (Risk 2003). Estas diferentes situaciones plantean la existencia de diferentes tipos de errores (Köhler, Schachtel, and Voleske 2007) que se muestran a continuación:

Situaciones y conclusiones posibles en la prueba de hipótesis.
\(H_{0}\) verdadera \(H_{0}\) Falsa
Conclusión \(H_{0}\) no rechazada Decisión Correcta Error tipo II (\(\beta)\)
\(H_{0}\) rechazada Error tipo I (\(\alpha\)) Decisión Correcta

Risk (2003) en su texto describe ambos tipos de errores. El error tipo I, también conocido como error \(\alpha\), se produce cuando se rechazó la \(H_{0}\) y es verdadera. Éste, representa la probabilidad de haber cometido este tipo de error. Se establece a priori \(\alpha\) como nivel de significancia o error máximo aceptable para la conclusión. En experimentos forestales y en el manejo de los recursos naturales tradicionalmente se establece un \(\alpha\) de 0.05 en los estudios en general.

En el caso que \(H_{0}\) sea aceptada siendo falsa, se cometerá el error denominado tipo II o \(\beta\). El error tipo II esta asociado con la robustez del método estadístico utilizado para poder detectar diferencias. La robustez de un método estadístico es una determinada situación se calcula como \((1-\beta)\), lo que corresponde con la situación de haber rechazado correctamente \(H_{0}\) ya que esta era falsa. Al igual que el valor de significancia \(\alpha\), la robustez del método estadístico se establece por el tamaño de la muestra y la prueba estadística empleada.

El resultado final de un método estadístico para la prueba de una hipótesis es el valor de P, que indica la probabilidad de obtener un valor más extremo que el observado si la \(H_{0}\) es verdadera. Cuando el valor de P es menor que \(\alpha\) se procede a rechazar la \(H_{0}\).

Pruebas de normalidad de una muestra

Antes de iniciar con el análisis y probar una hipótesis se debe determinar la distribución de las variables consideradas en la muestra. La importancia de verificar la normalidad de las muestras en un estudio es fundamental en estadística porque si las muestras son normales se pueden aplicar métodos estadísticos parámetricos, en el caso contrario se deben o bien transformar los datos o bien utilizar métodos no parámetricos (Risk 2003). El paso inicial entonces, es determinar si las variables en estudio pueden ser representadas por una distribución normal. Es decir, si las variables medidas en la muestra pueden ser descritas con parámetros de tendencia central y dispersión alrededor de dichos parámetros.

Los métodos de la estadística descriptiva nos pueden ayudar a verificar en una primera instancia la normalidad de las variables, un histograma (Fig. A) y un gráfico de boxplot (Fig. B) nos representa en dos formas distintas la distribución de los datos. Para el ejemplo del Cuadro podemos decir por la forma del histograma y por los espacios intercuantiles similares del gráfico de boxplot que las muestras parecen tener una distribución normal.

Histograma (A) y boxplot (B)  para la muestra Ctrl\label{fig:Ctrl}

Histograma (A) y boxplot (B) para la muestra Ctrl

Pruebas de normalidad más formales son las pruebas de Shapiro-Wilk y de Kolmogorov-Smirnov (Dalgaard 2008; Zar 2010). En las pruebas de normalidad se busca aceptar la \(H_{0}\) dado que la mayoría de los métodos estadísticos es necesaria la suposición de la distribución normal de la variable de interés. Púes siendo así es posible conocer los parámetros que describen por completo (la media, su desviación estándar). Un valor de P\(\geq\) 0.05 en los tests de normalidad indican que no hay prueba suficiente para rechazar la normalidad de la variable.

Para la muestra del grupo Ctrl se obtuvieron los siguientes resultados: \(\mu\) = 0.77: \(\sigma\) = 0.12; Cinco números de Tukey (fivenum) = 0.55, 0.7, 0.77, 0.87, 0.95; valores bajo las áreas de 0.5%, 2.5%, 50%, 97.5% y 99.5% en la distribución normal son: 0.47, 0.54, 0.88, 0.99 y 1.06 respectivamente. La prueba de Shapiro-Wilk: P = 0.39 y la prueba de Kolmogorov-Smirnov: P =0.92.

Como se puede apreciar con los valores anteriores no hay evidencia para rechazar la normalidad de los datos. Las funciones en R para realizar la prueba de normalidad son: Primeramente se realizo un subconjunto de la muestra indice mediante el comando Ctrl <- subset(indice, Tratamiento == 'Ctrl').

 shapiro.test(Ctrl$IE)
## 
##  Shapiro-Wilk normality test
## 
## data:  Ctrl$IE
## W = 0.9532, p-value = 0.3908
 ks.test(Ctrl$IE, "pnorm", mean=mean(Ctrl$IE), sd=sd(Ctrl$IE))
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Ctrl$IE
## D = 0.11991, p-value = 0.9233
## alternative hypothesis: two-sided

Autoaprendizaje
Para darle continuidad al ejercicio realizado con anterioridad, se debe determinar para las observaciones de la muestra Fert si provienen de una distribución normal:

  • Crear mediante el comando subset la muestra Fert
  • Determinar la Media y desviación estándar
  • Determinar los cinco números de Tukey
  • Realizar un Histograma y Boxplot de la muestra Fert
  • Aplicar la prueba de Kolmogorv-Smirnov y Shapiro Wilk.

Prueba sobre una muestra

Una vez que se asume la normalidad de los datos, se puede proceder con la aplicación de la prueba estadística para verificar la \(H_{0}\), esto es, que la media del IE de ambas muestras son iguales.

La población y una muestra

Para este ejemplo vamos a considerar al grupo 1 Ctrl los valores para las plántulas de un vivero forestal y las del grupo 2 Fert una muestra de la población. Para este caso existe una prueba estadística que permite comparar la media de la muestra con la media poblacional. Una de las principales pruebas más robustas es la basada en la distribución normal, para la misma se debe calcular el estadistico z con la siguiente ecuación .

\begin{equation}\label{eq:normal} z=\frac{\bar{x} - \mu_0 }{ \sigma/\sqrt{n}} \end{equation}

donde \(\bar{x}\) es la media de la muestra, \(\mu_0\) es la media de la población y \(\sigma\) es la desviación estándar de la población y n es el tamaño de la muestra.

Para los datos del grupo Ctrl (muestra) y comparándolos con la muestra Fert (población) con \(\mu\) = 0.91, \(\sigma\) = 0.18 y un valor de z = -3.54.

El cuadro 3 muestra los valores críticos de la distribución normal para distintos niveles de significancia (\(\alpha\)). Como la \(H_{0}\) dice que la muestra es igual a la población , utilizamos la columna de dos colas; el valor de z obtenido es -3.54, el valor de P esta entre 0.0005 y 0.00005, por lo cual al ser P < 0.05 rechazamos la \(H_{0}\) y concluimos diciendo que la media de la muestra es distinta a la de la población.

valores críticos para una distribución normal estándar
\(\alpha\)
dos colas una cola z
0.00005 0.0001 3.7190165
0.0005 0.001 3.0902323
0.0025 0.005 2.5758293
0.005 0.01 2.3263479
0.025 0.05 1.6448536
0.05 0.1 1.2815516

Pruebas sobre dos muestras independientes

Para esta prueba vamos a considerar que las plántulas del grupo Ctrly Fert corresponden ambos a muestras de una población. El test implicado intentará probar si ambas medias no difieren (\(H_{0}\)) lo que implica que ambas muestras provienen de la misma población y caso contrario si difieren (\(H_{1}\)).

La prueba de t es la prueba paramétrica más utilizada; la misma esta basada en el cálculo del estadístico t y de los grados de libertad (gl), con estos dos resultados y utilizando una tabla o bien un cálculo de la distribución t se puede determinar el valor de P.

Para poder utilizar una prueba de t de student se tiene que cumplir tres supuestos: a) Que se ajuste a una distribución normal, b) La independencia de los datos y c) La homogeneidad de varianzas, considerando este como el más importante. La ecuación

La ecuación muestra como calcular el estadístico t:

\begin{equation}\label{eq:t_test} t= \frac{\bar{x}_{1}- \bar{x}_{2}}{\sqrt{\frac{s_1^{2}}{n_1}+ \frac{s_2^{2}}{n_2}}} \end{equation}

donde \(\bar{x}_{1}\) y \(\bar{x}_{2}\) son las medias de cada muestra (grupos); \(s_1^{2}\) y \(s_2^{2}\) son las varianzas de las muestras; \(n_1\) y \(n_2\) son los tamaños de las muestras.

Los grados de libertad se pueden calcular con la siguiente ecuación \begin{equation}\label{eq:t_test2} gl= \frac {\left( \frac{s_1^{2}}{n_1}+ \frac{s_2^{2}}{n_2} \right )^{2}}{ \frac{s_1^{2}}{n_1-1}+\frac{s_2^{2}}{n_2-1}} \end{equation}

De acuerdo con el ejercicio de auto-aprendizaje se encargo verificar si la muestra Fert proviene de una distribución normal. Para continuar con el ejercicio y como forma de control de la actividad, los resultados de la muestra Fert son los siguientes: Grupo Fert \(\mu\) = 0.91; \(\sigma\) = 0.12; Cinco números de Tukey (fivenum) = 0.56, 0.78, 0.91, 1.04, 1.16; La prueba de Shapiro-Wilk: P = 0.39 y la prueba de Kolmogorov-Smirnov: P =0.97; la normalidad de las muestras fueron verificadas con las dos pruebas. La figura muestra gráficamente los datos de ambas muestras ctrly Fert.

op <- par(mfrow=c(1,2), cex.axis=.7,  cex.lab=.9)
boxplot(indice$IE ~ indice$Tratamiento, col="grey", main="A")
barplot(tapply(indice$IE, list(indice$Tratamiento), mean ), beside=T, main="B")
 Representación del comportamiento del IE mediante un boxplot (A) y gráfico de barras con desviación estándar (B).\label{fig:indice}

Representación del comportamiento del IE mediante un boxplot (A) y gráfico de barras con desviación estándar (B).

En el lenguaje de R también esta implementada las pruebas de homogeneidad de variazas y la prueba de t y el código se muestra a continuación.

Prueba de normalidad de las varianzas

Para comprobar la homogeneidad de las varianzas se emplea la prueba de varianzas, en R se utiliza la función var.test. En esta prueba se busca que se acepte la \(H_{0}\) que implica que las varianzas de ambas muestras son iguales. Para este ejemplo tenemos los siguientes resultados.

var.test(Ctrl$IE, Fert$IE)
## 
##  F test to compare two variances
## 
## data:  Ctrl$IE and Fert$IE
## F = 0.41068, num df = 20, denom df = 20, p-value = 0.05304
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.1666376 1.0121038
## sample estimates:
## ratio of variances 
##          0.4106757

La prueba de F arroja para nuestras muestras Ctrl y Fert un valor de P = 0.053, mayor al \(\alpha\) establecido (0.05) para nuestro experimento, por lo tanto se acepta la \(H_{0}\) y ambas varianzas son iguales.

Prueba T de student en R

Como se confirmo anteriormente, la normalidad de los datos y la homogeneidad de las varianzas son iguales, por lo tanto se puede aplicar una prueba de t de muestras independientes de acuerdo con la siguiente función t.test:

# var.equal=T, supone que las varainzas son iguales
t.test(Ctrl$IE, Fert$IE, var.equal=T)
## 
##  Two Sample t-test
## 
## data:  Ctrl$IE and Fert$IE
## t = -2.9813, df = 40, p-value = 0.004868
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.23331192 -0.04478332
## sample estimates:
## mean of x mean of y 
## 0.7676190 0.9066667

Los datos relevantes del obtenidos de la prueba de t son los siguientes: los grados de libertad (df)= 40; los grados de libertad se pueden comprobar con la formula . El parámetro que debemos revisar para comprobar si aceptamos o rechazamos la \(H_{0}\) es el valor de P, para esta prueba fue de 0.0049 por lo cual al ser menor que \(\alpha\) 0.5 rechazamos la \(H_{0}\) y aceptamos la \(H_{1}\), es decir, existen diferencias entre las plántulas Ctrl y las plántulas que fueron fertilizadas Fert.

Para el caso que las varianzas no sean iguales, R tiene una ajuste para la fórmula anterior: Para este ejemplo el ajuste se puede notar en los grados de libertad 34.056 y el valor de P obtenido = 0.00527.

t.test(Ctrl$IE, Fert$IE)
## 
##  Welch Two Sample t-test
## 
## data:  Ctrl$IE and Fert$IE
## t = -2.9813, df = 34.056, p-value = 0.00527
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.23382707 -0.04426816
## sample estimates:
## mean of x mean of y 
## 0.7676190 0.9066667

De acuerdo con el valor de P obtenido es menor que 0.05, aceptamos la \(H_{1}\) es decir aún existen diferencias significativas entre ambos grupos Ctrl y Fert.

Pruebas sobre dos muestras apareadas

El ejemplo de la sección anterior fue sobre dos muestras provenientes de dos grupos de distintos sujetos, pero en ciertas ocasiones se necesita trabajar sobre un mismo grupo de sujetos al cual se los observa de manera repetida, por ejemplo antes y después de la aplicación de un tratamiento, en este caso los sujetos son controles de ellos mismos. La prueba de t es distinta para poder tener en cuenta que las observaciones son repetidas sobre el mismo grupo de sujetos. El primer paso es calcular la desviación estándar de las diferencia con la siguiente ecuación :

\begin{equation}\label{eq:apar} s=\sqrt{\sum_{i=1}^{n}\frac{(d-\bar{d})^{2}}{n-1}} \end{equation}

donde \(d_{1}\) es la diferencia entre dos mediciones consecutivas para cada sujeto; \(\bar{d}\) es la media de las diferencias; n es la cantidad de pares de observaciones. La ecuación muestra como calcular el estadístico t para el caso de muestras apareadas.

\begin{equation}\label{eq:t} t=\frac{\bar{x}_{1}-\bar{x}_{2}}{\frac{s}{\sqrt{n}}} \end{equation}

donde \(\bar{x}_{1}\) y \(\bar{x}_{2}\), son las medias de cada par de observaciones. Los grados de libertad se calculan de la siguiente formula .

\begin{equation}\label{eq:glt} gl= n-1 \end{equation}

El siguiente cuadro muestra los datos de un experimento de comparación de los kilogramos de semillas de Pinus pseudostrobes obtenidos de 10 árboles en el año 2010 (antes) y en el año 2013 (después).

Kilogranos de semillas obtenidas en dos años diferentes (2010 y 2013) de la especie Pinus pseudostrobus
Kilogramos tiempo Kilogramos tiempo Kilogramos tiempo Kilogramos tiempo
9 T2010 7 T2010 8 T2013 5 T2013
8 T2010 4 T2010 9 T2013 3 T2013
6 T2010 5 T2010 7 T2013 5 T2013
9 T2010 3 T2010 6 T2013 4 T2013
9 T2010 4 T2010 8 T2013 4 T2013
7 T2010 5 T2010 8 T2013 5 T2013
6 T2010 6 T2010 4 T2013 3 T2013
5 T2010 5 T2010 6 T2013 4 T2013

La \(H_{0}\) de este ejemplo dice que la cantidad de kilogramos obtenida en el año 2010 es igual a la cantidad obtenida en el año 2013, en el caso contrario estamos hablando de la \(H_{1}\). Importar los datos del archivo semillas.csv.

##    Kilogramos tiempo
## 1           9  T2010
## 2           8  T2010
## 28          4  T2013
## 29          4  T2013
## 30          5  T2013
## 31          3  T2013
## 32          4  T2013

Como siempre primero verificamos la normalidad de la variable de interés:

los resultados de la pruebas de normalidad para los datos T2010 son: a) Shapiro-Wilk fue P = 0.24, b) Kolmogorov Smirnov fue P = 0.8. De acuerdo a los resultados las observaciones de la variable T2010 son normales.

Autoaprendizaje

Determinar la normalidad para las observaciones de las muestra T2013 mediante:

  • Prueba de Shapiro Wilkins:
  • Prueba de Kolmogorov-Smirnov:

El código en R para calcular la prueba de t para dos muestras apareadas es el siguiente:

test.tiempo <- t.test(semillas$Kilogramos ~ semillas$tiempo, paired=TRUE)
test.tiempo
## 
##  Paired t-test
## 
## data:  semillas$Kilogramos by semillas$tiempo
## t = 1.5927, df = 15, p-value = 0.1321
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.1902958  1.3152958
## sample estimates:
## mean of the differences 
##                  0.5625

para este ejemplo, los resultados del análisis fueron guardados en el objeto test.tiempo y simplemente para llamar a los resultados se escribe en la consola el nombre del objeto.

Revisando los resultados de la prueba de t para muestras apareadas: El valor estadístico de t es 1.5927, los grados de libertad son \(n - 1\) es decir 16 pares de observaciones - 1 = 15 y el valor de P es 0.1321. Con estos valores rechazamos la \(H_{1}\) y por lo tanto podemos concluir que el efecto del tiempo no tiene efecto en la producción de semillas (para este ejemplo). También podemos verificar en la prueba que la diferencia entre las medias (mean of the differences) determinado por la prueba es de 0.5625 kg.

La siguiente figura muestra la forma correcta de representar gráficamente los estudios de dos muestras apareadas o repetidas, los gráficos de cajas y de barras no son apropiados para tal fin.

Representación del comportamiento de la cantidad de semillas en el año 2013 y 2014.\label{fig:paired}

Representación del comportamiento de la cantidad de semillas en el año 2013 y 2014.

Referencias

Dalgaard, Peter. 2008. Introductory Statistics with R /. New York: Springer-Verlag New York.

Field, Andy, Jeremy Miles, and Zoë Field. 2012. Discovering Statistics Using R. Thousand Oaks, CA: SAGE Publications.

Fraysse, Jean Yves, and Loïc Crémière. 1998. “Nursery Factors Influencing Containerized Pinus pinaster Seedlings’ Initial Growth.” Silva Fennica 32 (3): 261–70.

Köhler, Wolfgang, Gabriel Schachtel, and Peter Voleske. 2007. Biostatistik: Eine Einfürung Für Biologen Und Agrarwissenschaftler. 4th ed. Berlin Heidelberg New York: Springer-Verlag Berlin; Heidelberg GmbH.

Olivo, Verónica B, and Carlos G Buduba. 2006. “Influencia de seis sustratos en el crecimiento de Pinus ponderosa producido en contenedores bajo condiciones de invernáculo.” Bosque 27 (3): 267–71.

Risk, Marcelo R. 2003. Cartas Sobre Estadística de La Revista Argentina de Bioingeniería. Facultad Regional de Buenos Aires, Universidad tecnológica Nacional, Argentina.

Sánchez Hernández, Olivia. 2010. “Calidad de plántulas de Pinus pseoudostrobus Lindl. en vivero para fines de reforestación y restauración ecológica.” PhD thesis, Universidad Autónoma de Nuevo León.

Zar, J H. 2010. Biostatistical Analysis. doi:10.1037/0012764.