Histograma

4.1 Histograma sencillo

Utilizamos ggplot2 para dibujar nuestro histograma. La forma más sencilla de hacerlo sería la siguiente:

library(ggplot2)

## Warning: replacing previous import 'lifecycle::last_warnings' by
## 'rlang::last_warnings' when loading 'tibble'

## Warning: replacing previous import 'lifecycle::last_warnings' by
## 'rlang::last_warnings' when loading 'pillar'

ggplot(data.frame(datos$Var1), aes(x = datos$Var1)) + 
       geom_histogram()

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

El resultado no es del todo igual a lo que nos había salido con R base, recordad que con R base habíamos obtenido lo siguiente:

hist(datos$Var1, col = "darkgreen")

Simplemente es la forma de calcular el número de barras del histograma, hay un método -que es el de Sturges- que se aplica para ello. Para obtener lo mismo que con R base haremos:

numbarras <- pretty(range(datos$Var1), n = nclass.Sturges(datos$Var1),
                  min.n = 1)

gr1<-ggplot(data.frame(datos$Var1), aes(x = datos$Var1)) + 
      geom_histogram(breaks = numbarras, color = "black", fill = "darkgreen")
gr1

4.2 Histograma y curvas de densidad

Ahora le podemos añadir una curva de densidad a nuestro histograma, para ello añadimos +geom_density():

gr2<-ggplot(data.frame(datos$Var1), aes(x = datos$Var1)) +
       geom_histogram(aes(y = ..density..), breaks = numbarras,
                      color = "black", fill = "darkgreen") +
       geom_density(fill = "black", alpha = 0.25) #con alpha elegimos el grado de transparencia
gr2

4.3 Mejorar fondo

Ahora vamos a cambiar el fondo de nuestra figura. Hay varias opciones theme_classic(), theme_minimal(), theme_light(), etc. Aquí un resumen:

4.4 Dos histogramas en uno

Ahora vamos a combinar dos histogramas en la misma figura. Para poder hacerlo tenemos que:

gr1<-ggplot(data.frame(datos$Var1), aes(x = datos$Var1)) + 
      geom_histogram(breaks = numbarras, color = "black", fill = "darkgreen") + 
  ylim(c(0,12))

gr3<-ggplot(data.frame(datos$Var2), aes(x = datos$Var2)) + 
      geom_histogram(breaks = numbarras, color = "black", fill = "darkred")

gr1+gr3

Es una primera aproximación, pero vamos a intentar juntar los dos histogramas en una única figura. Para ello tenemos que modificar ligeramente nuestros datos. Las dos variables deben ir en la misma columna con un identificador en otra columna. Utilizamos el paquete tidyr de manejo de matrices:

library("tidyr")

datos2 <- gather(datos,
                 key = "Factor",#nombre para la variable resultante de transponer todas las dos columnas Var1 y Var2
                value = "Variables",#variable que estamos agrupando y el nombre que tendrá la nueva columna
                 Var1:Var2)#desde que columna hasta que columna queremos transponer

datos2

##     Treatment Factor Variables
## 1           1   Var1        87
## 2           1   Var1        82
## 3           1   Var1        45
## 4           1   Var1        20
## 5           1   Var1        22
## 6           1   Var1        23
## 7           1   Var1        24
## 8           1   Var1        17
## 9           1   Var1         2
## 10          1   Var1         1
## 11          2   Var1        85
## 12          2   Var1        51
## 13          2   Var1        15
## 14          2   Var1        93
## 15          2   Var1        18
## 16          2   Var1        42
## 17          2   Var1        40
## 18          2   Var1        83
## 19          2   Var1        72
## 20          2   Var1         7
## 21          3   Var1        89
## 22          3   Var1        65
## 23          3   Var1        39
## 24          3   Var1        38
## 25          3   Var1        16
## 26          3   Var1        47
## 27          3   Var1        11
## 28          3   Var1        96
## 29          3   Var1        71
## 30          3   Var1        49
## 31          4   Var1        40
## 32          4   Var1        50
## 33          4   Var1        52
## 34          4   Var1        77
## 35          4   Var1        31
## 36          4   Var1        46
## 37          4   Var1        79
## 38          4   Var1         6
## 39          4   Var1        40
## 40          4   Var1        51
## 41          5   Var1        51
## 42          5   Var1        70
## 43          5   Var1        74
## 44          5   Var1        80
## 45          5   Var1        93
## 46          5   Var1        84
## 47          5   Var1        20
## 48          5   Var1        87
## 49          5   Var1        71
## 50          5   Var1        97
## 51          1   Var2        49
## 52          1   Var2        44
## 53          1   Var2        58
## 54          1   Var2        45
## 55          1   Var2        57
## 56          1   Var2        70
## 57          1   Var2        35
## 58          1   Var2        43
## 59          1   Var2        39
## 60          1   Var2        34
## 61          2   Var2        31
## 62          2   Var2        41
## 63          2   Var2        66
## 64          2   Var2        29
## 65          2   Var2        62
## 66          2   Var2        59
## 67          2   Var2        26
## 68          2   Var2        67
## 69          2   Var2        65
## 70          2   Var2        24
## 71          3   Var2        36
## 72          3   Var2        65
## 73          3   Var2        29
## 74          3   Var2        66
## 75          3   Var2        49
## 76          3   Var2        32
## 77          3   Var2        35
## 78          3   Var2        30
## 79          3   Var2        40
## 80          3   Var2        69
## 81          4   Var2        46
## 82          4   Var2        30
## 83          4   Var2        51
## 84          4   Var2        59
## 85          4   Var2        37
## 86          4   Var2        58
## 87          4   Var2        21
## 88          4   Var2        21
## 89          4   Var2        59
## 90          4   Var2        20
## 91          5   Var2        58
## 92          5   Var2        49
## 93          5   Var2        47
## 94          5   Var2        48
## 95          5   Var2        43
## 96          5   Var2        38
## 97          5   Var2        21
## 98          5   Var2        43
## 99          5   Var2        23
## 100         5   Var2        55

Ahora con nuestros nuevos datos2 vamos a poder realizar el histograma de frecuencias de las dos variables en una misma figura. Para ello haremos lo siguiente:

ggplot(datos2,aes(x=Variables)) +
  geom_histogram(data=subset(datos2,Factor == 'Var1'), breaks = numbarras,
                 color = "black", fill = "darkgreen", alpha = 0.25) +
  geom_histogram(data=subset(datos2,Factor == 'Var2'), breaks = numbarras,
                 color = "black", fill = "darkred", alpha = 0.25)

Y ahora añadimos la curva de densidad de las dos variables juntas:

ggplot(datos2,aes(x=Variables, y = ..density..)) +
  geom_histogram(data=subset(datos2,Factor == 'Var1'), breaks = numbarras,
                 color = "black", fill = "darkgreen", alpha = 0.25) +
         geom_histogram(data=subset(datos2,Factor == 'Var2'), breaks = numbarras,
                 color = "black", fill = "darkred", alpha = 0.25) +
       geom_density(fill = "black", alpha = 0.15)

4.5 Dos histogramas en uno con mucha información

Para añadir una curva de densidad a cada una de las variables lo que tenemos que hacer es utilizar gghistogram. Como puedes observar es diferente de lo que hemos hecho hasta ahora. Aquí le indicamos que queremos que nos muestre la media add="mean", que divida en función del factor fill="Factor" y que añada las curvas de densidad add_density=TRUE. Veamos el resultado:

library(ggpubr)

## Warning: replacing previous import 'lifecycle::last_warnings' by
## 'rlang::last_warnings' when loading 'hms'

library(cowplot)

## 
## Attaching package: 'cowplot'

## The following object is masked from 'package:ggpubr':
## 
##     get_legend

## The following object is masked from 'package:patchwork':
## 
##     align_plots

gghistogram(
  datos2, x = "Variables", y = "..density..", breaks = numbarras,
  add = "mean", rug = TRUE,
  fill = "Factor", palette = c("darkgreen", "darkred"),
  add_density = TRUE
  )

## Warning: Using `bins = 30` by default. Pick better value with the argument
## `bins`.

Las líneas verticales discontinuas nos muestran la *media de cada una de las variables. También se puede observar una curva de densidad para cada variable. Además, los valores originales aparecen con rayitas a lo largo del eje x. Es una forma muy visual de comprobar como es la distribución de frecuencias de nuestros datos.

Histograma

junio 30, 2022

1 Objetivo

2 Nuestros datos

3 Histograma con R base

3.1 Histograma sencillo

3.2 Comparar dos histogramas

3.3 Histograma y curvas de densidad

3.4 Histograma y boxplot

4 Histograma con ggplot2

4.1 Histograma sencillo

4.2 Histograma y curvas de densidad

4.3 Mejorar fondo

4.4 Dos histogramas en uno

4.5 Dos histogramas en uno con mucha información

5 CRÉDITOS