Durante esta clase revisaremos como realizar la descripción de un conjunto de datos mediante las medias de tendencia central, medidas de dispersión y la representación gráfica.
De acuerdo con la definición de Risk (2003), estadística descriptiva es: describir los datos en forma concisa y la forma más común de describir un conjunto de datos relacionados entre sí es reportar su valor medio y una medida de dispersión alrededor de dicho valor medio.
Primeramente, es necesario contar con un conjunto de datos para realizar la descripción básica del conjunto de datos (Dormann and Kühn 2009). El cuadro 1 muestra el diámetro medido a la altura de pecho (dbh) de 30 individuos de la especie Pinus pseudostrobus. Los datos fueron colectados mediante un inventario en el bosque escuela en el año 2014.
Trees | dbh | Trees | dbh | Trees | dbh |
---|---|---|---|---|---|
1 | 16.5 | 11 | 24.1 | 21 | 9.7 |
2 | 25.3 | 12 | 14.5 | 22 | 6.5 |
3 | 22.1 | 13 | 7.7 | 23 | 23.4 |
4 | 17.2 | 14 | 15.6 | 24 | 8.2 |
5 | 16.1 | 15 | 15.9 | 25 | 28.5 |
6 | 8.1 | 16 | 10 | 26 | 10.4 |
7 | 34.3 | 17 | 17.5 | 27 | 11.5 |
8 | 5.4 | 18 | 20.5 | 28 | 14.3 |
9 | 5.7 | 19 | 7.8 | 29 | 17.2 |
10 | 11.2 | 20 | 27.3 | 30 | 16.8 |
El conjunto de datos podemos ingresarlos en el lenguaje R de la siguiente forma:
dbh <- c(16.5, 25.3, 22.1, 17.2, 16.1, 8.1, 34.3, 5.4, 5.7, 11.2, 24.1, 14.5,
7.7, 15.6, 15.9, 10, 17.5, 20.5, 7.8, 27.3, 9.7, 6.5, 23.4, 8.2, 28.5,
10.4, 11.5, 14.3, 17.2, 16.8)
Al terminar de ingresar el conjunto de datos, podemos revisar por ejemplo que la cantidad de datos ingresados sea el correcto correcto (n= 30), para eso podemos utilizar la función length (Crawley 2007), que devuelve la longitud del vector creado, en este caso dbh.
length(dbh)
## [1] 30
La media es la medida básica para describir el valor central de un conjunto de datos (A. Field, Miles, and Field 2012) y es definido por la siguiente ecuación :
\begin{equation}\label{eq:med} \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i} \end{equation}En R se calcula de la siguiente manera:
mean(dbh)
## [1] 15.64333
Normalmente, no es necesario incluir tantas decimales en la descripción de la media del diámetro, para las cuestiones forestales es suficiente describir el dbh
con una decimal: \(\mu\)= 15.6.
la mediana, es otra medida del valor central de un conjunto de datos y es definida como: el valor medio cuando los datos son ordenados de mayor a mayor (A. Field, Miles, and Field 2012). En el lenguaje R se obtiene de la siguiente manera:
median(dbh)
## [1] 15.75
La media geométrica es otra forma de describir el valor central de un conjunto de datos (ecuación ). En realidad es una forma transformada de calcular la media.
\begin{equation}\label{eq:geo} \bar{logx}=\frac{1}{n}\sum_{i=1}^{n}logx_{i} \end{equation}En R podemos calcularla de la siguiente manera:
mean(log(dbh))
## [1] 2.634735
La media geométrica calculada de la ecuación está expresada en una escala logarítmica, por lo tanto es necesario regresarla a la escala original (Risk 2003), por lo cual el anti logaritmo del resultado de la ecuación nos proporciona el valor real:
exp(mean(log(dbh)))
## [1] 13.93962
La moda es otra forma de describir el valor central de un conjunto de datos (A. Field, Miles, and Field 2012) y se calcula como el valor más frecuente, siguiendo con nuestro ejemplo:
moda(dbh)
## [1] 17.2
En el caso que ningún dato del conjunto tenga una frecuencia mayor a 1, el resultado de la moda es nulo. El lenguaje R no proporciona una función para calcular la moda, por lo cual dicha función fue implementada mediante programación y el código proporcionado por Risk (2003).
moda=function(x)
{
#Funcion que encuentra la moda de un vector x
m1 <- sort(table(x),decreasing=T)
moda <- names(m1[m1==m1[1]])
moda <- as.numeric(moda)
return(moda)
}
Para poder describir con mayor precisión un conjunto de datos se necesita de una medida de dispersión, además de la del valor central. El rango es la medida más simple, el cual muestra los valores mínimo y máximo del conjunto de diámetros, en R, la función se aplica de la siguiente manera:
range(dbh)
## [1] 5.4 34.3
Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer también la desviación que presentan los datos en su distribución respecto de la media aritmética de dicha distribución, con objeto de tener una visión de los mismos más acorde con la realidad al momento de describirlos e interpretarlos para la toma de decisiones. La varianza y la desviación estándar son las medidas de dispersión más populares (A. Field, Miles, and Field 2012). La ecuación define la varianza de un conjunto de datos.
\begin{equation}\label{eq:var} s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left ( x_{i}-\bar{x} \right )^{2} \end{equation}La desviación estándar se define como la raíz cuadrada de la varianza (Ecuación ).
\begin{equation}\label{eq:sd} s=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}\left ( x_{i}-\bar{x} \right )^{2}} \end{equation}En el lenguaje R la varianza y la desviación estándar se puede calcular de la siguientes manera:
var(dbh)
## [1] 55.48599
sd(dbh)
## [1] 7.448892
Otras medidas de dispersión más complejas son los cuantiles o percentiles (Risk 2003), por ejemplo la mediana (equivalente al percentil 50) se puede interpretar como el valor que separa los datos del diámetro en dos mitades, es decir, el 50% de los valores en diámetro es menor que la mediana, y el otro 50% es mayor que la mediana. En el lenguaje R se calcula de esta forma:
quantile(dbh, 0.5)
## 50%
## 15.75
Como podemos apreciar, la función quantile
necesita un argumento adicional al conjunto de datos dbh
, en el ejemplo es 0.5 y se denomina probabilidad (debe de ser entre 0 y 1). La denominación percentil se utiliza cuando la probabilidad tiene un valor entre 0% y 100%, siendo los valores mínimo y máximo del conjunto de datos respectivamente. Por ejemplo el percentil 15 se puede calcular en R de la siguiente manera:
quantile(dbh, 0.15)
## 15%
## 7.905
El percentil 15 se interpreta entonces como el valor para el cual el 15% de los datos de los diámetros son menores al diámetro de referencia, en este caso 15.
El lenguaje R provee una función denominada fivenum que significa cinco números, propuesta por el estadístico John W. Tukey, la cual calcula cinco valores que describen concisamente un conjunto de datos (Risk 2003). Dichos valores son: mínimo, los percentiles 25%, 50% y 75%, y el valor máximo:
fivenum(dbh)
## [1] 5.40 9.70 15.75 20.50 34.30
El coeficiente de variación es otra medida de dispersión definido por la ecuación . El Coeficiente de variación es el resultado de dividir la desviación estándar (\(\sigma\)) entre la media (\(\mu\)) y multiplicado por 100 (A. Field, Miles, and Field 2012). Esta medida es fácil de interpretar, pero en la mayoría de los casos no es adecuada para comparar dos o más conjuntos de datos. En R se calcula así:
\begin{equation}\label{eq:cv} CV\%=100\%*\frac{S}{\bar{x}} \end{equation}100 * sd(dbh) / mean(dbh)
## [1] 47.61704
La estadística descriptiva nos permite caracterizar con números un conjunto de datos, sin embargo en ciertas ocasiones un gráfico permite comunicar mejor las características de un conjunto de datos (A. Field, Miles, and Field 2012). El gráfico de caja (boxplot en inglés) es la forma gráfica de representar los cinco números, como se puede ver en la figura . La caja muestra los percentiles 25 (9.775 cm) y 75 (19.75 cm), la línea en el medio de la caja representa la mediana (percentil 50%, 15.75 cm), los extremos muestran los valores mínimo y máximo (5.4 cm y 34.3 cm) respectivamente.
boxplot(dbh, main="Representación de los diámetros de 30 árboles",
ylab="dbh (cm)")
Ejemplo de un boxplot o de caja
Otra opción muy utilizada por estadísticos, es el gráfico de rama y hojas (stem and leaf plot en inglés), en el lenguaje R se puede calcular de esta forma:
stem(dbh, scale=2)
##
## The decimal point is at the |
##
## 4 | 47
## 6 | 578
## 8 | 127
## 10 | 0425
## 12 |
## 14 | 3569
## 16 | 158225
## 18 |
## 20 | 5
## 22 | 14
## 24 | 13
## 26 | 3
## 28 | 5
## 30 |
## 32 |
## 34 | 3
Los números que se muestran a la izquierda del carácter | son los dígitos más significativos y como describe el ejemplo anterior al gráfico el punto decimal está ubicado un dígito a la derecha del carácter |, es decir la primera línea 4|47
se lee como el primer valor 4.4 (4|4) y 4.7 (4|7), todos estos datos corresponden a los diámetros del cuadro 1.
La representación gráfica más usada para un conjunto de datos es el histograma, el cual representa la frecuencia de aparición de valores dentro del rango del conjunto de datos (A. Field, Miles, and Field 2012). La Figura muestra el histograma para los datos del cuadro 1. Las frecuencias de los diámetros se calcularon para cada intervalo de 5 cm, dentro del rango de 5.4 a 34.3 cm, totalizando 6 intervalos. Por ejemplo para el primer intervalo de 5 a 10 cm se encontraron 9 individuos (observaciones 6, 8, 9, 13, 16, 19, 21, 22, 24) del cuadro 1 y sus correspondientes valores (8.1, 5.4, 5.7, 7.7, 10, 7.8, 9.7, 6.5, 8.2).
hist(dbh, main="Histograma", xlab="Diámetro (cm)", ylab="Frecuencia",
ylim=c(0,10)) # ylim marca los límites del eje de las y.
Histograma de los datos cuadro 1
De acuerdo con Risk (2003), la distribución normal fue descrita por el matemático francés Abraham de Moivre (1667-1754), más tarde fue aplicada por Pierre Simon Laplace en una variedad de fenómenos de las ciencias naturales, pero su aplicación la realizó en realidad el alemán Karl Gauss (1777-1855) quien aplicó la distribución normal en el estudio de la forma de la tierra y los movimientos de los planetas.
La distribución normal se define con la función de densidad de la probabilidad como lo muestra la ecuación
\begin{equation}\label{eq:gauss} f(x)=\frac{1}{\sqrt{2\pi \sigma}}exp\left [ -\frac{1}{2\sigma ^{2}}\left ( x-\mu \right )^{2} \right ], para -\infty < x < \infty \end{equation}donde los parámetros \(\mu\) y \(\sigma\) son la media y la desviación estándar respectivamente. La figura fue generada con el siguiente código en R:
mu <- 0
sigma <-1
x <- c(-400:400)/100
fx <- (1/sqrt(2*pi*sigma))*exp((x-mu)*(x-mu)/(-2*sigma*sigma))
plot(x,fx, main="Distribución normal", type="l")
Distribución normal
Por definición para \(-\sigma<x<\sigma\) el área bajo la curva es el 68% del área total, para \(-1.96\sigma<x<1.96\sigma\) indica el 95% del área total (Dormann and Kühn 2009), esto se puede apreciar en la figura . La distribución normal es muy importante porque muchas pruebas estadísticas asumen que los datos tiene una distribución normal, por lo cual dicho conjunto de datos puede caracterizarse con dos parámetros (la media y la desviación estándar). Una población determinada puede tener una distribución normal, por lo cual dicha población podía ser eventualmente ser descrita con sus dos parámetros, una gráfica de la población en cuestión se parecería a la de la figura . Sin embargo esto no significa que una muestra de observaciones de la población tenga una distribución normal, esto sucede generalmente cuando la cantidad de observaciones es insuficiente. El siguiente ejemplo debe dejar claro como muestras de diferentes tamaños provenientes de una población normal (Figura ) presentan diferentes distribuciones.
Histogramas de 4 muestras con diferente número de observaciones
En los gráficos se pueden apreciar que dbh 10
es la muestra de 10 mediciones de diámetros (Fig. A), dbh 50
tiene 50 observaciones (Fig. B), dbh 500
contiene 500 observaciones (Fig. C) y finalmente dbh 1000
contiene 1000 diámetros medidos en campo (D).
Observe que a medida que aumentamos la cantidad de observaciones el histograma presenta una curva en forma de campana (otro nombre de la distribución normal) y se parece cada vez más a la distribución de la figura .
Como se puede observar, muestras de una misma población normal pueden ser diferentes, y por lo tanto la media de las mismas también será diferente, y dichas medias pueden tener una distribución propia. Un teorema fundamental de la estadística mencionada por A. Field, Miles, and Field (2012, 169) dice que: las medias de muestras aleatorias provenientes de cualquier distribución tiene una distribución normal, dicho teorema se conoce con el nombre de teorema del límite central . La principal consecuencia de este teorema es que cuando trabajamos con muestras de cientos de observaciones podemos olvidarnos de la distribución de la población y asumir que es normal. Una regla práctica muy utilizada dice que muestras con 30 o más observaciones tienen una distribución aceptablemente normal (A. Field, Miles, and Field 2012), como se puede verificar con nuestro experimento en R.
Una de las aplicaciones más importantes del teorema del límite central de acuerdo con Risk (2003), es la posibilidad de calcular los denominados intervalos de confianza (IC), el más utilizado es el IC del 95%, por ejemplo si conocemos la media y la desviación estándar de una muestra, por definición el 95% de los datos se encuentran dentro del intervalo determinado por \(-1.96\sigma<x<1.96\sigma\).
Crawley, Michael J. 2007. The R Book. 1st ed. United Kingdom: Wiley-Blackwell (an imprint of John Wiley & Sons Ltd).
Dormann, Carsten F, and Ingolf Kühn. 2009. “Angewandte Statistik für die biologischen Wissenschaften.” UFZ Umweltforschungszentrum Leipzig, Halle 2: 257. https://cran.r-project.org/doc/contrib/Dormann+Kuehn_AngewandteStatistik.pdf.
Field, Andy, Jeremy Miles, and Zoë Field. 2012. Discovering Statistics Using R. Thousand Oaks, CA: SAGE Publications.
Risk, Marcelo R. 2003. Cartas Sobre Estadística de La Revista Argentina de Bioingeniería. Facultad Regional de Buenos Aires, Universidad tecnológica Nacional, Argentina.