Archivo publicado: https://rpubs.com/sebascj/1215805


Tecnológico de Costa Rica

Curso: Introducción a la Programación con R.

Trabajo de Investigación 2: Librería ggplot2

Profesor: Luis Fernando Castro

Estudiantes:

Maricruz Vargas Ramírez

Laura Rodríguez Vargas

María Gabriela Severino Calderón

Sebastián Cabezas Jiménez


Introducción

Como parte de la investigación a la librería ggplot2 de R, se consultó el artículo “Una breve introducción a ggplot2” de José Ramón Berrendero (Universidad Autónoma de Madrid), quien introdujo de manera puntual y clara a esta librería. Los puntos introductorios que se dan a conocer con este artículo, sirven para descomponer el análisis y se expone a continuación.

La librería ggplot2 de R es un sistema organizado de visualización de datos. Forma parte del conjunto de librerías llamado tidyverse. En este documento se introduce su uso, principalmente a través de ejemplos.

Los elementos necesarios para representar un gráfico con ggplot2 son los siguientes:

Normalmente estos elementos se van añadiendo de forma consecutiva en distintas capas (layers). Para añadir una nueva capa se usa el signo +. La estructura general del código para obtener un gráfico es esta:

ggplot(data = 'nombre del fichero de datos') + geom_nombre1(aes(aesthetics1=var1, aesthetics2=var2, ...)) + geom_nombre2(...)

El comando ggplot se usa para generar el sistema de coordenadas (por defecto, rectangulares) y posteriormente vamos añadiendo los geoms con sus correspondientes aesthetics. En principio los aesthetics se pueden asignar individualmente para cada geom.

Considerando estos elementos es que iniciaremos nuestra investigación. Se van a contemplar varios puntos sobre la librería ggplot2, como su historia, funciones principales, descripción de las capas que conforman un gráfico y su utilización, ejemplos de uso, y graficaremos el histograma de cada una de las variables numéricas del dataset Iris.


Desarrollo

La librería ggplot2 se ha consolidado como una de las librerías más robustas y ampliamente utilizadas para la visualización de datos en el lenguaje de programación R. Formando parte integral del ecosistema tidyverse, esta herramienta ofrece a los usuarios la posibilidad de crear gráficos complejos de forma intuitiva y eficiente. En esta investigación, se abordará la historia de ggplot2, sus funciones más destacadas, la estructura de capas que compone un gráfico y se proporcionarán ejemplos prácticos para demostrar su utilidad en el contexto del análisis de datos.

1. Historia de la librería

La librería ggplot2 fue desarrollada por Hadley Wickham en 2005 durante sus estudios de doctorado en Estadística. Wickham se inspiró en el concepto de la Gramática de los Gráficos (“Grammar of Graphics”) de Leland Wilkinson, una teoría que sistematiza la construcción de gráficos estadísticos mediante la división en componentes fundamentales, tales como datos, geometrías y estéticas. Esta gramática aporta un marco coherente para la creación y descripción de visualizaciones, lo que permitió a Wickham concebir ggplot2 no solo como una herramienta para generar gráficos, sino también como un medio para mejorar la comprensión y comunicación de datos a través de visualizaciones claras y efectivas (Wickham, 2016).

Desde su lanzamiento inicial, ggplot2 ha evolucionado hasta convertirse en un estándar para la visualización de datos en R, apreciada por su flexibilidad, capacidad de personalización y el apoyo de una comunidad activa. Al ser una librería de código abierto, ha experimentado numerosas actualizaciones y expansiones, manteniendo su relevancia tanto en ámbitos académicos como en el sector industrial.

2. Funciones principales

La filosofía de ggplot2 se fundamenta en la gramática de los gráficos, lo que implica que los gráficos se construyen mediante la combinación de capas sucesivas, que incluyen datos, geometrías (geoms), estéticas (aesthetics), facetas, y otros elementos. A continuación, se detallan algunas de las funciones más representativas de la librería:

  1. ggplot(): Es la función central utilizada para iniciar un gráfico, estableciendo el conjunto de datos y las estéticas globales, como los ejes x e y.
ggplot(data = mtcars, aes(x = wt, y = mpg))
  1. geom_*: Las funciones geométricas, como geom_point(), geom_line(), geom_bar(), etc., se emplean para añadir elementos visuales que representan los datos. Cada función geométrica produce una forma visual específica, como puntos, líneas o barras.
ggplot(mtcars, aes(x = wt, y = mpg)) + geom_point()
  1. aes(): La función aes() se utiliza para asignar variables del conjunto de datos a propiedades visuales del gráfico, como la posición en los ejes, el color, el tamaño, etc.
ggplot(mtcars, aes(x = wt, y = mpg, color = factor(cyl))) + geom_point()
  1. facet_*: Las funciones de facetado, como facet_wrap() y facet_grid(), permiten crear subgráficos dentro de un gráfico principal, basados en los valores de una o más variables, lo cual es útil para comparar diferentes subconjuntos de datos.
ggplot(mtcars, aes(x = wt, y = mpg)) + geom_point() + facet_wrap(\~ cyl)
  1. labs() y ggtitle(): Estas funciones son utilizadas para añadir etiquetas y títulos a los gráficos, mejorando así su claridad y presentación.
ggplot(mtcars, aes(x = wt, y = mpg)) + geom_point() + ggtitle("Relación entre Peso y Consumo de Combustible")
  1. theme(): La función theme() ofrece la posibilidad de personalizar la apariencia del gráfico, permitiendo modificar elementos como los ej es, los textos y el fondo.
ggplot(mtcars, aes(x = wt, y = mpg)) + geom_point() + theme_minimal()
  1. scale_*(): Ajusta las escalas y mapeos estéticos, como colores, tamaños, y forma.

  2. coord_*(): Modifica el sistema de coordenadas del gráfico. Útil para cambiar la perspectiva, ajustar la proporción, o transformar ejes.

Estas funciones permiten construir gráficos desde lo más simple hasta lo más complejo, personalizando cada aspecto del gráfico para ajustarlo a las necesidades de la visualización.

3. Descripción de las capas que conforman un gráfico y su utilización

La construcción de gráficos en ggplot2 se basa en la adición de múltiples capas, cada una de las cuales contribuye con un elemento específico al gráfico final:

  • Capa de Datos (data): Esta capa corresponde al conjunto de datos utilizado para construir el gráfico. Se especifica en la función ggplot() o directamente en las funciones geométricas.

  • Capa de Estética (aes): Determina cómo se asignan las variables a las propiedades visuales del gráfico, tales como la posición (ejes x e y), el color, el tamaño, la forma, etc. Esta capa se define dentro de ggplot() o se puede añadir a nivel de capa geométrica.

  • Capa Geométrica (geom): Representa la forma visual de los datos en el gráfico. Cada tipo de gráfico (puntos, barras, líneas, etc.) corresponde a una función geométrica específica (geom_point(), geom_bar(), geom_line(), etc.).

  • Capa de Escalas (scale_): Ajusta cómo se representan las asignaciones estéticas, como la escala de colores, tamaños, o ejes. Permite personalizar la transformación y los límites de los datos visualizados

  • Capa Estadística (stat): ggplot2 incorpora funciones estadísticas predeterminadas que permiten calcular y representar visualmente estadísticas sobre los datos. Aunque muchas funciones geométricas tienen una función estadística por defecto, esta puede ser modificada según las necesidades.

  • Capa de Facetado (facet): Facilita la creación de gráficos divididos en múltiples paneles según los valores de una o más variables, lo que ayuda a comparar distintos subconjuntos de datos.

  • Capa de Coordenadas (coord): Define el sistema de coordenadas del gráfico. El sistema predeterminado es el cartesiano (coord_cartesian()), aunque también se pueden usar coordenadas polares (coord_polar()), entre otras opciones.

  • Capa de Etiquetas y Títulos (labs() y ggtitle()): Añade o modifica las etiquetas del gráfico, como los títulos de los ejes, el título principal del gráfico, y las etiquetas de las leyendas.

  • Capa de Tema (theme): Permite la personalización de elementos del gráfico que no están relacionados directamente con los datos, como fondos, bordes y textos de los ejes. Existen temas predefinidos como theme_minimal() o theme_classic(), que ofrecen estilos gráficos que pueden ajustarse aún más.

Resumen del Proceso

Al construir un gráfico en ggplot2, generalmente sigues este proceso:

  1. Define los datos y las asignaciones estéticas (ggplot() y aes()).

  2. Añade geometrías para visualizar los datos (geom_*).

  3. Ajusta escalas y coordenadas si es necesario (scale_, coord_).

  4. Añade facetas si deseas dividir el gráfico en múltiples subgráficos (facet_*).

  5. Personaliza etiquetas y títulos (labs()).

  6. Ajusta el tema del gráfico (theme_*).

Estas capas pueden ser combinadas de diferentes maneras para crear gráficos altamente personalizados y complejos en ggplot2.

4. Ejemplos de uso

Esta herramienta de visualización facilita la creación de gráficos complejos a partir de datos almacenados en marcos de datos. Dicha herramienta, tiene una gran variedad de funciones para utilizar y seleccionar las variables a representar y ajustar la apariencia de los gráficos. Este paquete es efectivo en situaciones que se trabaja con datos estructurados, como por ejemplo, cuando cada variable que se va a utilizar tiene una columna y cada observación tiene una fila. Crear visualizaciones precisas y eficientes será más sencillo si los datos están bien organizados.

Una vez escritos todos los códigos necesarios en R para cargar la información precisa del análisis que se deseaba en primera instancia, se debe de ejecutar el codigo ggplot(data =, mapping = aes ()) + que es útil para diferentes tipos de gráficos (). Según Nallar (n.d.) “usamos ggplot() y data para indicar a partir de qué datos se debe crear la gráfica. Luego, aes() (aesthetic) para seleccionar las variables a graficar y como presentarlas, e.g. ejes x e y o características como tamaño, forma, color, etc.”

Ejemplo 1:

ggplot(data = data, aes(x = shannon, y = evenness_camargo)) + geom_point()

Figura 1
Figura 1

Nallar, E. C., PhD. (n.d.). 6 Visualización de datos usando ggplot2 | Diseño experimental y análisis de datos. https://www.castrolab.org/teaching/data_analysis/visualizacion-de-datos-usando-ggplot2.html

Con respecto al grafico anterior se debe de saber que cualquier parámetro que se indique en esta función cuando configura un gráfico con ggplot(), se aplica a todas las capas del gráfico como se explicó anteriormente. Esto incluye mapeos estéticos como las variables para los ejes x e y que se definen con aes(). Por lo tanto, todas las capas (geoms) que se agreguen se considerarán cualquier ajuste hecho en ggplot(). Por otro lado, las funciones geométricas también se pueden utilizar para establecer parámetros específicos para cada capa. Estos parámetros solo afectan la capa en cuestión, sin alterar las configuraciones globales de ggplot(). Es de suma importancia tener en cuenta que el uso del signo + nos ayuda o permite agregar nuevas capas o cambiar las configuraciones de ggplot2. Como se puede observar con el ejemplo anterior, este símbolo se coloca al final de cada línea que contiene una función y se utiliza para encadenar varias funciones.

Ejemplo 2:

ggplot(data = data, aes(x = geo_loc_name, y = observed)) +
geom_boxplot()

Los boxplots o gráficos de caja son útiles para poder visualizar la distribución de los datos de acuerdo con una variable o condición de interés

Figura 2
Figura 2

Nallar, E. C., PhD. (n.d.). 6 Visualización de datos usando ggplot2 | Diseño experimental y análisis de datos. https://www.castrolab.org/teaching/data_analysis/visualizacion-de-datos-usando-ggplot2.html

Es importante saber que se puede utilizar geom_boxplot para generar un diagrama de cajas (box plot) en ggplot2 si tiene un frame de datos con una variable numérica. Este codigo nos ayuda específicamente a crear gráficos de caja que muestran la distribución de un conjunto de datos con medianas, cuartiles y valores posibles atípicos. Para hacerlo, al construir el gráfico, se debe especificar la variable numérica dentro de la función aes(), también conocida como mapeo estético. Un aspecto importante de tener en cuenta a la hora de graficar geom_boxplot() de ggplot2 es que según Coder, (2024) “alternativamente puedes establecer x =”“. Esto eliminará los valores del eje X y hará la caja más estrecha.” Estas y muchas alternativas existentes nos ayudan a crear el gráfico personalizada considerando todas nuestras preferencias respecto a cómo queremos que sea el resultado final.

Como se puede observar ggplot2 es una herramienta útil para la visualización de datos en R que permite crear gráficos complejos y personalizados a partir de marcos de datos. Su diseño, en el que cada columna representa una variable y cada fila una observación, destaca su capacidad para manejar datos estructurados de manera eficiente. La herramienta facilita la creación de visualizaciones precisas y efectivas al permitir la selección, representación y modificación de variables.

5. Histograma sobre las variables numéricas del dataset Iris

Se procede a graficar el histograma de cada una de las variables numéricas del dataset Iris usando ggplot2.

  1. Instalar paquetes.

  2. Install.packages(“ggplot2”).

  3. Install.packages(“tidyr”).

  4. Cargar las librerías necesarias.

tidyr se emplea para convertir el dataset iris a un formato largo (o “long format”), que es especialmente útil cuando se desea crear gráficos faceteados o comparar múltiples variables.

pivot_longer convierte el dataset iris de un formato ancho a un formato largo. En el código, se especifica que todas las columnas excepto ‘Species’ deben ser transformadas en dos columnas: Variable (contendrá el nombre de la variable original) y Value (contendrá los valores correspondientes).

  1. Graficar histogramas para cada variable numérica con personalizaciones.
ggplot(iris_long, aes(x = Value, fill = Species)) +  
  geom_histogram(binwidth = 0.3, color = "black", alpha = 0.7, position = "dodge") + 
  facet_wrap(~Variable, scales = "free_x") + 
  labs(
    title = "Variables numéricas dataset Iris", 
    x = "Valor", 
    y = "Frecuencia"
  ) + 
  theme_bw(base_size = 14, base_family = "Times New Roman") + 
  theme( plot.title = element_text(color = "purple", size = 16, face = "bold", hjust = 0.5),
    axis.title.x = element_text(color = "purple", size = 14, face = "bold"),
    axis.title.y = element_text(color = "purple", size = 14, face = "bold"),
    strip.background = element_rect(fill = "black"),
    strip.text = element_text(color = "white", size = 12, face = "bold")
  ) + 
  geom_density(aes(x = Value), color = "turquoise", size = 1, alpha = 0.6)

El resultado será una serie de histogramas que muestran la distribución de las cuatro variables numéricas en el dataset iris.


Conclusión

En conclusión, ggplot2 es una herramienta fundamental en el análisis y visualización de datos en R, debido a su estructura basada en capas y su gran versatilidad. Desde su creación, ha sido objeto de continuas mejoras, lo que ha permitido que siga siendo relevante tanto para usuarios novatos como para expertos en ciencia de datos. El dominio de su gramática de gráficos brinda a los analistas y científicos de datos una poderosa herramienta para explorar, visualizar y comunicar datos de manera efectiva.


Bibliografía

Berrendero, J. R. (n.d.). Una breve introducción a ggplot2. Universidad Autónoma de Madrid. https://verso.mat.uam.es/~joser.berrendero/R/introggplot2.html

Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York.

Nallar, E. C., PhD. (n.d.). 6 Visualización de datos usando ggplot2 | Diseño experimental y análisis de datos. https://www.castrolab.org/teaching/data_analysis/visualizacion-de-datos-usando-ggplot2.html

Coder, R. (2024, January 4). Box plot en ggplot2. R CHARTS | Una Colección De Gráficos Hechos Con El Lenguaje De Programación R. https://r-charts.com/es/distribucion/box-plot-ggplot2/

---
title: "Librería ggplot2"
output: 
  html_notebook: default
  pdf_document: default
  html_document: 
    df_print: paged
  word_document: default
---

**Archivo publicado:** <https://rpubs.com/sebascj/1215805>

------------------------------------------------------------------------

**Tecnológico de Costa Rica**

**Curso:** Introducción a la Programación con R.

**Trabajo de Investigación 2:** Librería ggplot2

**Profesor:** Luis Fernando Castro

**Estudiantes:**

Maricruz Vargas Ramírez

Laura Rodríguez Vargas

María Gabriela Severino Calderón

Sebastián Cabezas Jiménez

------------------------------------------------------------------------

# **Introducción**

Como parte de la investigación a la librería ggplot2 de R, se consultó el artículo “Una breve introducción a ggplot2” de José Ramón Berrendero (Universidad Autónoma de Madrid), quien introdujo de manera puntual y clara a esta librería. Los puntos introductorios que se dan a conocer con este artículo, sirven para descomponer el análisis y se expone a continuación.

La librería ggplot2 de R es un sistema organizado de visualización de datos. Forma parte del conjunto de librerías llamado tidyverse. En este documento se introduce su uso, principalmente a través de ejemplos.

Los elementos necesarios para representar un gráfico con ggplot2 son los siguientes:

-   Un data frame que contiene los datos que se quieren visualizar.

-   Los aesthetics, es decir, una lista de relaciones entre las variables del fichero de datos y determinados aspectos del gráfico (como por ejemplo coordenadas, formas o colores).

-   Los geoms, que especifican los elementos geométricos (puntos, líneas, círculos, etc.) que se van a representar.

Normalmente estos elementos se van añadiendo de forma consecutiva en distintas capas (layers). Para añadir una nueva capa se usa el signo +. La estructura general del código para obtener un gráfico es esta:

``` r
ggplot(data = 'nombre del fichero de datos') + geom_nombre1(aes(aesthetics1=var1, aesthetics2=var2, ...)) + geom_nombre2(...)
```

El comando ggplot se usa para generar el sistema de coordenadas (por defecto, rectangulares) y posteriormente vamos añadiendo los geoms con sus correspondientes aesthetics. En principio los aesthetics se pueden asignar individualmente para cada geom.

Considerando estos elementos es que iniciaremos nuestra investigación. Se van a contemplar varios puntos sobre la librería ggplot2, como su historia, funciones principales, descripción de las capas que conforman un gráfico y su utilización, ejemplos de uso, y graficaremos el histograma de cada una de las variables numéricas del dataset Iris.

------------------------------------------------------------------------

# **Desarrollo**

La librería ggplot2 se ha consolidado como una de las librerías más robustas y ampliamente utilizadas para la visualización de datos en el lenguaje de programación R. Formando parte integral del ecosistema tidyverse, esta herramienta ofrece a los usuarios la posibilidad de crear gráficos complejos de forma intuitiva y eficiente. En esta investigación, se abordará la historia de ggplot2, sus funciones más destacadas, la estructura de capas que compone un gráfico y se proporcionarán ejemplos prácticos para demostrar su utilidad en el contexto del análisis de datos.

## **1. Historia de la librería**

La librería ggplot2 fue desarrollada por Hadley Wickham en 2005 durante sus estudios de doctorado en Estadística. Wickham se inspiró en el concepto de la Gramática de los Gráficos ("Grammar of Graphics") de Leland Wilkinson, una teoría que sistematiza la construcción de gráficos estadísticos mediante la división en componentes fundamentales, tales como datos, geometrías y estéticas. Esta gramática aporta un marco coherente para la creación y descripción de visualizaciones, lo que permitió a Wickham concebir ggplot2 no solo como una herramienta para generar gráficos, sino también como un medio para mejorar la comprensión y comunicación de datos a través de visualizaciones claras y efectivas (Wickham, 2016).

Desde su lanzamiento inicial, ggplot2 ha evolucionado hasta convertirse en un estándar para la visualización de datos en R, apreciada por su flexibilidad, capacidad de personalización y el apoyo de una comunidad activa. Al ser una librería de código abierto, ha experimentado numerosas actualizaciones y expansiones, manteniendo su relevancia tanto en ámbitos académicos como en el sector industrial.

## **2. Funciones principales**

La filosofía de ggplot2 se fundamenta en la gramática de los gráficos, lo que implica que los gráficos se construyen mediante la combinación de capas sucesivas, que incluyen datos, geometrías (geoms), estéticas (aesthetics), facetas, y otros elementos. A continuación, se detallan algunas de las funciones más representativas de la librería:

1.  ggplot(): Es la función central utilizada para iniciar un gráfico, estableciendo el conjunto de datos y las estéticas globales, como los ejes x e y.

```{r}
ggplot(data = mtcars, aes(x = wt, y = mpg))
```

2.  geom\_\*: Las funciones geométricas, como geom_point(), geom_line(), geom_bar(), etc., se emplean para añadir elementos visuales que representan los datos. Cada función geométrica produce una forma visual específica, como puntos, líneas o barras.

```{r}
ggplot(mtcars, aes(x = wt, y = mpg)) + geom_point()
```

3.  aes(): La función aes() se utiliza para asignar variables del conjunto de datos a propiedades visuales del gráfico, como la posición en los ejes, el color, el tamaño, etc.

```{r}
ggplot(mtcars, aes(x = wt, y = mpg, color = factor(cyl))) + geom_point()
```

4.  facet\_\*: Las funciones de facetado, como facet_wrap() y facet_grid(), permiten crear subgráficos dentro de un gráfico principal, basados en los valores de una o más variables, lo cual es útil para comparar diferentes subconjuntos de datos.

```{r}
ggplot(mtcars, aes(x = wt, y = mpg)) + geom_point() + facet_wrap(\~ cyl)
```

5.  labs() y ggtitle(): Estas funciones son utilizadas para añadir etiquetas y títulos a los gráficos, mejorando así su claridad y presentación.

```{r}
ggplot(mtcars, aes(x = wt, y = mpg)) + geom_point() + ggtitle("Relación entre Peso y Consumo de Combustible")
```

6.  theme(): La función theme() ofrece la posibilidad de personalizar la apariencia del gráfico, permitiendo modificar elementos como los ej es, los textos y el fondo.

```{r}
ggplot(mtcars, aes(x = wt, y = mpg)) + geom_point() + theme_minimal()
```

7.  scale\_\*(): Ajusta las escalas y mapeos estéticos, como colores, tamaños, y forma.

8.  coord\_\*(): Modifica el sistema de coordenadas del gráfico. Útil para cambiar la perspectiva, ajustar la proporción, o transformar ejes.

Estas funciones permiten construir gráficos desde lo más simple hasta lo más complejo, personalizando cada aspecto del gráfico para ajustarlo a las necesidades de la visualización.

## **3. Descripción de las capas que conforman un gráfico y su utilización**

La construcción de gráficos en ggplot2 se basa en la adición de múltiples capas, cada una de las cuales contribuye con un elemento específico al gráfico final:

-   **Capa de Datos (data):** Esta capa corresponde al conjunto de datos utilizado para construir el gráfico. Se especifica en la función ggplot() o directamente en las funciones geométricas.

-   **Capa de Estética (aes):** Determina cómo se asignan las variables a las propiedades visuales del gráfico, tales como la posición (ejes x e y), el color, el tamaño, la forma, etc. Esta capa se define dentro de ggplot() o se puede añadir a nivel de capa geométrica.

-   **Capa Geométrica (geom):** Representa la forma visual de los datos en el gráfico. Cada tipo de gráfico (puntos, barras, líneas, etc.) corresponde a una función geométrica específica (geom_point(), geom_bar(), geom_line(), etc.).

-   **Capa de Escalas (scale\_):** Ajusta cómo se representan las asignaciones estéticas, como la escala de colores, tamaños, o ejes. Permite personalizar la transformación y los límites de los datos visualizados

-   **Capa Estadística (stat):** ggplot2 incorpora funciones estadísticas predeterminadas que permiten calcular y representar visualmente estadísticas sobre los datos. Aunque muchas funciones geométricas tienen una función estadística por defecto, esta puede ser modificada según las necesidades.

-   **Capa de Facetado (facet):** Facilita la creación de gráficos divididos en múltiples paneles según los valores de una o más variables, lo que ayuda a comparar distintos subconjuntos de datos.

-   **Capa de Coordenadas (coord):** Define el sistema de coordenadas del gráfico. El sistema predeterminado es el cartesiano (coord_cartesian()), aunque también se pueden usar coordenadas polares (coord_polar()), entre otras opciones.

-   **Capa de Etiquetas y Títulos (labs() y ggtitle()):** Añade o modifica las etiquetas del gráfico, como los títulos de los ejes, el título principal del gráfico, y las etiquetas de las leyendas.

-   **Capa de Tema (theme):** Permite la personalización de elementos del gráfico que no están relacionados directamente con los datos, como fondos, bordes y textos de los ejes. Existen temas predefinidos como theme_minimal() o theme_classic(), que ofrecen estilos gráficos que pueden ajustarse aún más.

### **Resumen del Proceso**

Al construir un gráfico en ggplot2, generalmente sigues este proceso:

1.  Define los datos y las asignaciones estéticas (ggplot() y aes()).

2.  Añade geometrías para visualizar los datos (geom\_\*).

3.  Ajusta escalas y coordenadas si es necesario (scale\_*, coord\_*).

4.  Añade facetas si deseas dividir el gráfico en múltiples subgráficos (facet\_\*).

5.  Personaliza etiquetas y títulos (labs()).

6.  Ajusta el tema del gráfico (theme\_\*).

Estas capas pueden ser combinadas de diferentes maneras para crear gráficos altamente personalizados y complejos en ggplot2.

## **4. Ejemplos de uso**

Esta herramienta de visualización facilita la creación de gráficos complejos a partir de datos almacenados en marcos de datos. Dicha herramienta, tiene una gran variedad de funciones para utilizar y seleccionar las variables a representar y ajustar la apariencia de los gráficos. Este paquete es efectivo en situaciones que se trabaja con datos estructurados, como por ejemplo, cuando cada variable que se va a utilizar tiene una columna y cada observación tiene una fila. Crear visualizaciones precisas y eficientes será más sencillo si los datos están bien organizados.

Una vez escritos todos los códigos necesarios en R para cargar la información precisa del análisis que se deseaba en primera instancia, se debe de ejecutar el codigo ggplot(data =, mapping = aes ()) + que es útil para diferentes tipos de gráficos (). Según Nallar (n.d.) “usamos ggplot() y data para indicar a partir de qué datos se debe crear la gráfica. Luego, aes() (aesthetic) para seleccionar las variables a graficar y como presentarlas, e.g. ejes x e y o características como tamaño, forma, color, etc.”

**Ejemplo 1:**

*ggplot(data = data, aes(x = shannon, y = evenness_camargo)) + geom_point()*

![**Figura 1**](Figura%201.png)

Nallar, E. C., PhD. (n.d.). 6 Visualización de datos usando ggplot2 \| Diseño experimental y análisis de datos. <https://www.castrolab.org/teaching/data_analysis/visualizacion-de-datos-usando-ggplot2.html>

Con respecto al grafico anterior se debe de saber que cualquier parámetro que se indique en esta función cuando configura un gráfico con ggplot(), se aplica a todas las capas del gráfico como se explicó anteriormente. Esto incluye mapeos estéticos como las variables para los ejes x e y que se definen con aes(). Por lo tanto, todas las capas (geoms) que se agreguen se considerarán cualquier ajuste hecho en ggplot(). Por otro lado, las funciones geométricas también se pueden utilizar para establecer parámetros específicos para cada capa. Estos parámetros solo afectan la capa en cuestión, sin alterar las configuraciones globales de ggplot(). Es de suma importancia tener en cuenta que el uso del signo + nos ayuda o permite agregar nuevas capas o cambiar las configuraciones de ggplot2. Como se puede observar con el ejemplo anterior, este símbolo se coloca al final de cada línea que contiene una función y se utiliza para encadenar varias funciones.

**Ejemplo 2:**

*ggplot(data = data, aes(x = geo_loc_name, y = observed)) +\
geom_boxplot()*

Los boxplots o gráficos de caja son útiles para poder visualizar la distribución de los datos de acuerdo con una variable o condición de interés

![**Figura 2**](Figura%202.png)

Nallar, E. C., PhD. (n.d.). 6 Visualización de datos usando ggplot2 \| Diseño experimental y análisis de datos. <https://www.castrolab.org/teaching/data_analysis/visualizacion-de-datos-usando-ggplot2.html>

Es importante saber que se puede utilizar geom_boxplot para generar un diagrama de cajas (box plot) en ggplot2 si tiene un frame de datos con una variable numérica. Este codigo nos ayuda específicamente a crear gráficos de caja que muestran la distribución de un conjunto de datos con medianas, cuartiles y valores posibles atípicos. Para hacerlo, al construir el gráfico, se debe especificar la variable numérica dentro de la función aes(), también conocida como mapeo estético. Un aspecto importante de tener en cuenta a la hora de graficar geom_boxplot() de ggplot2 es que según Coder, (2024) “alternativamente puedes establecer x = "". Esto eliminará los valores del eje X y hará la caja más estrecha.” Estas y muchas alternativas existentes nos ayudan a crear el gráfico personalizada considerando todas nuestras preferencias respecto a cómo queremos que sea el resultado final.

Como se puede observar ggplot2 es una herramienta útil para la visualización de datos en R que permite crear gráficos complejos y personalizados a partir de marcos de datos. Su diseño, en el que cada columna representa una variable y cada fila una observación, destaca su capacidad para manejar datos estructurados de manera eficiente. La herramienta facilita la creación de visualizaciones precisas y efectivas al permitir la selección, representación y modificación de variables.

## **5. Histograma sobre las variables numéricas del dataset Iris**

Se procede a graficar el histograma de cada una de las variables numéricas del dataset Iris usando ggplot2.

1.  Instalar paquetes.

2.  Install.packages("ggplot2").

3.  Install.packages("tidyr").

4.  Cargar las librerías necesarias.

```{r}
library(ggplot2) 

library(tidyr)
```

tidyr se emplea para convertir el dataset iris a un formato largo (o "long format"), que es especialmente útil cuando se desea crear gráficos faceteados o comparar múltiples variables.

```{r}
iris_long <- pivot_longer(iris, cols = -Species, names_to = "Variable", values_to = "Value") 
```

pivot_longer convierte el dataset iris de un formato ancho a un formato largo. En el código, se especifica que todas las columnas excepto 'Species' deben ser transformadas en dos columnas: Variable (contendrá el nombre de la variable original) y Value (contendrá los valores correspondientes).

5.  Graficar histogramas para cada variable numérica con personalizaciones.

```{r C3, message=FALSE, warning=FALSE, paged.print=TRUE}
ggplot(iris_long, aes(x = Value, fill = Species)) +  
  geom_histogram(binwidth = 0.3, color = "black", alpha = 0.7, position = "dodge") + 
  facet_wrap(~Variable, scales = "free_x") + 
  labs(
    title = "Variables numéricas dataset Iris", 
    x = "Valor", 
    y = "Frecuencia"
  ) + 
  theme_bw(base_size = 14, base_family = "Times New Roman") + 
  theme( plot.title = element_text(color = "purple", size = 16, face = "bold", hjust = 0.5),
    axis.title.x = element_text(color = "purple", size = 14, face = "bold"),
    axis.title.y = element_text(color = "purple", size = 14, face = "bold"),
    strip.background = element_rect(fill = "black"),
    strip.text = element_text(color = "white", size = 12, face = "bold")
  ) + 
  geom_density(aes(x = Value), color = "turquoise", size = 1, alpha = 0.6)

```

![](Histograma.jfif)

El resultado será una serie de histogramas que muestran la distribución de las cuatro variables numéricas en el dataset iris.

------------------------------------------------------------------------

# **Conclusión**

En conclusión, ggplot2 es una herramienta fundamental en el análisis y visualización de datos en R, debido a su estructura basada en capas y su gran versatilidad. Desde su creación, ha sido objeto de continuas mejoras, lo que ha permitido que siga siendo relevante tanto para usuarios novatos como para expertos en ciencia de datos. El dominio de su gramática de gráficos brinda a los analistas y científicos de datos una poderosa herramienta para explorar, visualizar y comunicar datos de manera efectiva.

------------------------------------------------------------------------

# **Bibliografía**

Berrendero, J. R. (n.d.). Una breve introducción a ggplot2. Universidad Autónoma de Madrid. <https://verso.mat.uam.es/~joser.berrendero/R/introggplot2.html>

Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York.

Nallar, E. C., PhD. (n.d.). 6 Visualización de datos usando ggplot2 \| Diseño experimental y análisis de datos. <https://www.castrolab.org/teaching/data_analysis/visualizacion-de-datos-usando-ggplot2.html>

Coder, R. (2024, January 4). Box plot en ggplot2. R CHARTS \| Una Colección De Gráficos Hechos Con El Lenguaje De Programación R. <https://r-charts.com/es/distribucion/box-plot-ggplot2/>
