Ver en : http://rpubs.com/CIENTIFICO_DE_DATOS
La función hist ( z ) proporciona un histograma convencional, donde z es un vector de valores númericos. La opción freq = FALSE sirve para trazar densidades de probabilidad en lugar de frecuencias. La opción breaks=controla el número de intervalos o los puntos de corte de los intervalos. Dos ejemplos sencillos utilizando datos aleatorios provenientes de una distribucción normal se presentan en la Figura 1 y Figura 2.
# Código de la Figura 1
z<-rnorm(10000,6,2)
hist(z,xlab="Figura 1: Histograma de datos aleatorios de una distribucció normal")
# Código de la Figura 2
hist(z, breaks = 50, col ="red", xlab="Figura 2: Histograma coloreado")
A un histograma le podemos sobreponer la función de densidad teórica de una distribucción. Para ello se ha de cambiar la opción freq para que la ordenada del gráfico muestre la densidad y no la frecuencia de los datos. A continuación se utiliza la función dnorm para la función de densidad de la distribucción normal. Ver Figura 3.
# Código de la Figura 3
hist(z, breaks = 50, col = "red", freq = F, main="Histogram with Normal Curve", xlab="Figura 3: Histograma con la función de densidad de la distribucion normal" )
dz<-seq(min(z), max(z), 0.001)
lines(dnorm(dz,6,2)~dz, type="l", lwd=3)
Los histogramas pueden ser un método pobre para determinar la forma de una distribución porque se ve muy afectada por la cantidad del número de intervalos o los puntos de corte de los intervalos utilizados. Por ejemplo.
set.seed(209) # Fijacion de la semilla
H <- round(rnorm(20, 175, 10)) ## Generamos 20 números seudo aleatorios
hist(rnorm(20, 175, 10)) # No se observa que sea normal
hist(rnorm(2e+6, 175, 10),breaks = 2000) ## Comprobamos que es normal
Una de las mejores formas de comparar la distribución de una muestra con la de una ley dada es mediante un Q-Q plot. Un Q-Q plot es un gráfico de los cuantiles de la distribución empírica versus los los cuantiles de la distribución teórica. En particular, cuando la distribución teórica es la normal podemos utilizar la función qqnorm. Para ver más claramente la calidad del ajuste se le puede añadir al gráfico una recta mediante la función qqline. Presentamos un ejemplos con datos provenientes de una distribución normal.
x<-rnorm(1000, 10, 3)
qqnorm(x, pch=19)
qqline(x, lwd=2)
Los gráficos de densidad de Kernel suelen ser una forma mucho más efectiva para ver la distribución de una variable. Se crea la gráfica usando plot (densidad ( z )) donde z es un vector numérico. Por ejemplo:
# Código de la Figura 4
W <- density(z)
plot(W, xlab="Figura 4: Densidad de Kernel")
# Gráfico de densidad de Kernel coloreado
plot(W, main="Figura 5: Densidad de Kernel coloreado")
polygon(W, col="blue", border="red")
La funcón boxplot(z) dibuja un diagrama de caja (boxplot) de los datos del vector z. Por ejemplo, dos diagramas de caja para 10000 datos aleatorios de una distribución normal.
z<-rnorm(10000,6,2)
factor<-gl(4, 2500) ## factor con 4 niveles de longitud 2500
boxplot(z)
boxplot(z~factor, col = 2:5, lwd = 2)
Klaus Langohr. “Introducción a R”. 2016
Página web: https://www.statmethods.net/graphs/line.html