Capítulo II: Estadística descriptiva

Dr. Marco Aurelio González Tagle

19 de agosto de 2015

Introducción

De acuerdo con la definición de Risk (2003), Estadística descriptiva es: describir los datos en forma concisa y la forma más común de describir un conjunto de datos relacionados entre sí es reportar su valor medio y una medida de dispersión alrededor de dicho valor medio.

Base de datos

Primeramente, es necesario contar con un conjunto de datos para realizar la descripción básica del conjunto de datos (Dormann and Kühn 2009). El cuadro 1 muestra el diámetro medido a la altura de pecho (dbh) de 30 individuos de la especie Pinus pseudostrobus. Los datos fueron colectados mediante un inventario en el bosque escuela en el año 2014.

dbh <- c(16.5, 25.3, 22.1, 17.2, 16.1, 8.1, 34.3, 5.4, 5.7, 11.2, 
         24.1, 14.5, 7.7, 15.6, 15.9, 10.0, 17.5, 20.5, 7.8, 27.3, 
         9.7, 6.5, 23.4, 8.2, 28.5, 10.4, 11.5, 14.3, 17.2, 16.8)

Estadísticas básicas

Las medidas de tendencia central son las siguientes:

mean(dbh); sd(dbh); median(dbh); mean(log(dbh)); exp(mean(log(dbh)))
## [1] 15.64333
## [1] 7.448892
## [1] 15.75
## [1] 2.634735
## [1] 13.93962

Medidas de disperción

Para poder describir con mayor precisión un conjunto de datos se necesita de una medida de dispesión, además de la del valor central. El rango es la medida más simple, el cual muestra los valores mínimo y máximo del conjunto de diametros, en R, la función se aplica de la siguiente manera:

range(dbh)
## [1]  5.4 34.3

En el lenguaje R la varianza y la desviación estándar se puede calcular de la siguientes manera:

var(dbh)
## [1] 55.48599
sd(dbh)
## [1] 7.448892

Cinco valores

El lenguaje R provee una función denominada fivenum que significa cinco números, propuesta por el estadístico John W. Tukey, la cual calcula cinco valores que describen concisamente un conjunto de datos (Risk 2003). Dichos valores son: mínimo, los percentiles 25%, 50% y 75%, y el valor máximo:

fivenum(dbh)
## [1]  5.40  9.70 15.75 20.50 34.30

Representación gráfica

La estadística descriptiva nos permite caracterizar con números un conjuto de datos, sin embargo en ciertas ocaciones un gráfico permite comunicar mejor las características de un conjunto de datos (A. Field, Miles, and Field 2012). El gráfico de caja (boxplot en inglés) es la forma gráfica de representar los cinco números, como se puede ver en la figura .

boxplot(dbh, main="Representación de los diámetros de 30 árboles", 
        ylab="dbh (cm)")

Ejemplo de un boxplot o de caja\label{fig:boxplot}

Stem leaf plot

Otra opción muy utilizada por estadísticos, es el gráfico de rama y hojas (stem and leaf plot en inglés), en el lenguaje R se puede calcular de esta forma:

stem(dbh, scale=2)
## 
##   The decimal point is at the |
## 
##    4 | 47
##    6 | 578
##    8 | 127
##   10 | 0425
##   12 | 
##   14 | 3569
##   16 | 158225
##   18 | 
##   20 | 5
##   22 | 14
##   24 | 13
##   26 | 3
##   28 | 5
##   30 | 
##   32 | 
##   34 | 3

Histogramas

La representación gráfica más usada para un conjuto de datos es el histograma, el cual representa la frecuencia de aparción de valores dentro del rango del conjunto de datos (A. Field, Miles, and Field 2012).

hist(dbh, main="Histograma", xlab="Diámetro (cm)", ylab="Frecuencia", 
     ylim=c(0,10)) # ylim marca los límites del eje de las y.

Histograma de los datos cuadro 1\label{fig:hist}

Distribución normal

La distribución normal se define con la función de densidad de la probabilidad

mu <- 0
sigma <-1
x <- c(-400:400)/100
fx <- (1/sqrt(2*pi*sigma))*exp((x-mu)*(x-mu)/(-2*sigma*sigma))
plot(x,fx, main="Distribución normal", type="l")

Distribución normal\label{fig:gauss}

Ejemplos de distribución normal

Una población determinada puede tener una distribución normal, por lo cual dicha población podía ser eventualmente ser descrita con sus dos parámetros, una gráfica de la población en cuestión se parecería a la de la figura anterior. Sin embargo esto no significa que una muestra de observaciones de la población tenga una distribución normal, esto sucede generalmente cuando la cantidad de observaciones es insuficiente.

Histogramas de 4 muestras con diferente número de observaciones\label{fig:muestras}

Referencias

Dormann, Carsten F, and Ingolf Kühn. 2009. “Angewandte Statistik für die biologischen Wissenschaften.” UFZUmweltforschungszentrum LeipzigHalle 2: 257. http://www.macman.ufz.de/data/deutschstatswork7649.pdf.

Field, Andy, Jeremy Miles, and Zoë Field. 2012. Discovering Statistics Using R. Thousand Oaks, CA: SAGE Publications.

Risk, Marcelo R. 2003. Cartas Sobre Estadística de La Revista Argentina de Bioingeniería. Facultad Regional de Buenos Aires, Universidad tecnológica Nacional, Argentina.