hllinas

1 Introducción

Primero, debemos instalar y descargar las librerías que vamos a utilizar.

library(ggplot2)

2 La librería ggplot2

Con ggplot2 se pueden construir gráficos y su gramática está basado en un proceso de acumulación de capas o layers. Tiene un cierto nivel de complejidad, pero se obtienen resultados muy profesionales. Para una mejor aplicación de las funciones de este paquete, sugiero apoyarse en la hoja de referencia Data Visualization with ggplot2 :: Cheat Sheet o en la página de referencias ggplot2 :: Reference.

En general, los componentes básicos de ggplot2 se unen con el símbolo más (+) y son:

ggplot: para especificar los datos. Por lo general, la escritura es:

ggplot(datos.frame)

aes (estética), el cual nos indica qué variables van a ser analizadas.

ggplot(data.frame, aes(x = variable))

aes_functions (funciones de estéticas): Los siguientes temas de ayuda brindan una descripción general amplia de algunas de las formas en que puede usar cada estética:
- aes_colour_fill_alpha: Estéticas relacionadas con el color(colour, fill, alpha).
- aes_group_order: Estéticas de agurpamiento (grouping).
- aes_linetype_size_shape: Estéticas relacionadas para diferenciar (linetype, size, shape).
- aes_position: Estéticas relacionadas con la posición (x, y, xmin, xmax, ymin, ymax, xend, yend).
geom_functions (las funciones de la geometría): que son marcas visuales que representan los puntos de datos, la geometría o el tipo de gráfico. Algunos tipos de geometría son: geom_bar (diagrama de barras) , geom_histogram (histogramas), geom_boxplot (cajas y bigotes), geom_point (puntos), geom_line (líneas), geom_freqpoly (polígonos), etc. Por ejemplo, una escritura básica para crear un polígono sería:

ggplot(data.frame, aes(x = variable)) + 
        geom_freqpoly()

stat_functions (funciones estadísticas): Para transformaciones estadísticas. Algunas de estas funciones son: stat_count, stat_ellipse, stat_identity, stat_unique, etc. Por ejemplo, geom_bar(stat = “count”) es equivalente a stat_count(geom = “bar”).
position_function (funciones de juste de posición): Todas las capas tienen un ajuste de posición que resuelve la superposición de los geoms. Algunas de estas funciones son: position_dodge, position_identity, position_jitter, etc.
annotation_function (funciones de anotaciones): Las anotaciones son un tipo especial de capa que no hereda la configuración global del gráfico. Se utilizan para agregar datos de referencia fijos a los gráficos. Algunas de estas funciones son: annotate, annotation_custom, borders, etc.
scale_function (funciones de escalas): Las escalas controlan los detalles de cómo los valores de los datos se traducen en propiedades visuales. Algunas de estas funciones son: labs(), xlab(), ylab(), ggtitle, lims, xlim, ylim, scale_alpha, etc.
Guides of axes and legends functions (funciones de guías de ejes y leyendas): Se controlan principalmente a través de la escala (por ejemplo, con los argumentos limits, breaks y labels), pero a veces se necesita un control adicional sobre la apariencia de la guía. Algunas de estas funciones son: draw_key_timeseries, guide_colourbar, guide_colorbar, guide_legend, etc.
facet_functions (las facetas): dividen los gráficos en subgráficos a partir de los niveles de una o más variables categóricas. Los dos tipos básicos son (requieren siempre del argumento vars):

facet_grid: forma una matriz de paneles definidos por variables de facetas de filas y columnas. Es más útil cuando tiene dos variables discretas y todas las combinaciones de las variables existen en los datos. Para más detalles, puede consultar el documento Lay out panels in a grid.
facet_wrap: Es más apropiado si solo se tiene una variable con muchos niveles. Para más detalles, puede consultar el documento Wrap a 1d ribbon of panels into 2d.

p <- ggplot(data.frame, aes(x = variable)) + 
        geom_freqpoly()
          
p + facet_grid(rows = vars(variable))
p + facet_grid(cols = vars(variable))
p + facet_wrap(vars(variable))

themes_functions (funciones de los temas): Los temas son un conjunto de opciones predefinidas sobre la apariencia de los objetos. Por defecto, ggplot dibuja el gráfico sobre un fondo gris. Podemos cambiarlo añadiendo el comando theme_bw(), o elegir ajustar configuraciones individuales usando theme y las funciones element_. Algunas de estas funciones son: theme_minimal, theme_classic, theme_get, theme_set, element_rect element_line, etc.

ggplot(data.frame, aes(x = variable)) + 
        geom_freqpoly()+ 
        theme_bw()

Coordinate systems (Sistemas de coordenadas): El sistema de coordenadas determina cómo la estética \(X\) y \(Y\) se combinan para colocar elementos en el gráfico. El sistema de coordenadas predeterminado es cartesiano (coord_cartesian), que se puede modificar con coord_map, coord_fixed, coord_flip y coord_trans, o se puede reemplazar completamente con coord_polar.
Axis scales and transformations (escalas y transformaciones de los ejes): En este link se describen:
1. Cómo modificar los límites de los ejes X y Y (valores mínimo y máximo).
2. Las transformaciones de eje (escala logarítmica, sqrt,…) con las funciones:
  - scale_x_log10(), scale_y_log10(): para transformación logaritmo en base 10.
  - scale_x_sqrt(), scale_y_sqrt() : para transformación raíz cuadrada.
  - scale_x_reverse(), scale_y_reverse() : para invertir coordenadas.
  - coord_trans(x =“log10”, y=“log10”) : los posibles valores de X y Y son log2, log10, sqrt,…
  - scale_x_continuous(trans=‘log2’), scale_y_continuous(trans=‘log2’): otro valor permitido para el argumento trans es log10.
3. El formato del eje de fechas con las funciones scale_x_date y scale_y_date.

3 Datasets en ggplot2

ggplot2 viene con una selección de conjuntos de datos integrados que se pueden utilizar en algunos ejemplos con el fin de visualizar los datos. Estos son:

diamonds: Precios y otros atributos de más de 50.000 diamantes. Es un data frame con 53940 observaciones y 10 variables, las cuales se describen aquí.
economics, economics_long: Este conjunto de datos se produjo a partir de datos de series de tiempo económicas de Estados unidos (disponibles aquí. Se resalta que economics está en formato “amplio” y economics_long, en formato “largo”. Es un data frame con 574 observaciones y 6 variables.
faithfuld: Estimación de densidad bidimensional de los tiempos de espera entre erupciones y la duración de la erupción del géiser Old Faithful en el Parque Nacional Yellowstone, Wyoming, Estados Unidos. Es un data frame con 5625 observaciones y 3 variables.
midwest: Información demográfica de los condados del medio oeste del Censo 2000 de Estados Unidos. Es un data frame con 437 observaciones y 28 variables.
mpg: Este conjunto de datos contiene un subconjunto de los datos de economía de combustible que la EPA pone a disposición aquí. Contiene solo los 38 modelos que tuvieron un nuevo lanzamiento cada año entre 1999 y 2008. Esto se usó como un indicador de la popularidad del automóvil. Es un data frame con 234 observaciones y 11 variables.
msleep: Una versión actualizada y ampliada del conjunto de datos del sueño de los mamíferos. Es un data frame con 83 observaciones y 11 variables.
presidential: Los nombres de cada presidente, la fecha de inicio y finalización de su mandato y su partido de 11 presidentes en Estados Unidos (desde Eisenhower hasta Obama). Es un data frame con 11 observaciones y 4 variables.
seals: Campo de vector de movimientos de focas. Es un data frame con 115 observaciones y 4 variables.
txhousing: Información sobre el mercado de la vivienda en Texas (proporcionada por el centro inmobiliario de TAMU). Es un data frame con 8602 observaciones y 9 variables.
luv_colours: Colores en el espacio Luv. Es un data frame con 657 observaciones y 4 variables.
movies: Es un conjunto de datos sobre películas, el cual estaba contenido anteriormente en ggplot2, pero se ha movido su propio paquete ggplot2movies (para reducir el tamaño de descarga de ggplot2). Es un data frame con 28819 observaciones y 24 variables, las cuales se describen aquí.

4 Polígonos con ggplot2

Con la función geom_freqpoly de la librería ggplot2 es posible obtener polígonos a partir de un proceso de acumulación de capas o layers. Estos procedimientos no se explicarán en este documento, pero en RPubs :: Polígonos con ggplot2 (univariado) y RPubs :: Polígonos con ggplot2 (por grupos) se pueden encontrar documentos relacionados, con ejemplos aplicados. También, se puede revisar el documento Histograms and frequency polygons. La figura ?? muestra algunos ejemplos de diagramas de barras elaborados con ggplot2.

Figure 4.1: Ejemplos de polígonos elaborados con ggplot2. Fuente: Elaboración propia.

5 Ejercicios

Crear un nuevo documento R Markdown, realizando las siguientes actividades con ayuda de ggplot2: Describa con más detalles las funciones mencionadas en el documento.

Bibliografía

LLinás, H., Rojas, C. (2005); Estadística descriptiva y distribuciones de probabilidad. Barranquilla: Editorial Universidad del Norte.
Consultar el documento RPubs :: Enlace y materiales de ayuda.

If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.

ggplot2

Polígonos de frecuencias y ojivas (general)

Dr. rer. nat. Humberto LLinás Solano