#ggplot2

Uno de los paquetes más populares para la visualización de datos en R es ggplot2, cuyas iniciales se refieren a “Gramática de Gráficos”.

La particularidad de este paquete es que cada grafica que construye se conforma de una serie de capas y cada una de ellas, le aporta un atributo diferente a la misma.

Es necesario instalarlo para poder cubrir a detalle las capas más importantes de cada grafico pues es importante saber como se comportan y tener una mayor libertad al momento de graficar y obtener mejores resultados.

Hay una capa que especifica los datos del grafo, otra capa que determina las variables que van a ocupar los ejes y otra que determina la forma de la grafica (lineas, puntos, barras), entre otras.

Como instalar ggplot2

Para instalarlo hacemos los siguientes pasos.

1.- Nos dirijimos a ‘Herramientas’, ‘Tools’ en ingles. 2.- Seleccionamos ‘Instalar paquetes’, ‘Install Packeges’ en ingles. 3.- Escribimos ‘ggplot2’

Una vez instalado el paquete cargamos las funciones a la librería de R mediante el siguiente chunk.

library(ggplot2)

Gramática de ggplo2

Es muy importante conocer la gramática al momento de definir las graficas en R pues según el posicionamiento de nuestras instrucciones sera la grafica resultante.

Cada grafico en R se compone, principalmente, de 3 capas, también llamados gramática de gráficos:

1.-Datos 2.Estética 3.Geometría

Explicaremos cada uno.

Datos.

Los datos se refiere a la base de datos que queremos graficar.

Estética.

La estética se refiere a como queremos asignar las variables de nuestra base en la grafica.

EJEMPLO:

Cual variable estará en el eje X y cual en el eje Y.

Geometría.

La geometría se refiere a la figura geométrica que queremos utilizar en el grafico, es decir, si queremos hacer una grafica de dispersión utilizamos puntos, y un histograma utilizamos barras.

Aprenderemos a manejar esta gramática de datos.

NOTA: Existen otras capas que se pueden agregar al grafico como las facetas, estadísticas, coordenadas, temas, etc. Pero no serán comentadas en este apartado.

Importamos el archivo de Excel con nombre ‘Precios’

#DESIGNAMOS A LA VARIABLE Archivo_Excel_Precios EL ARCHIVO CSV

Archivo_Excel_Precios <- read.csv("Precios.csv")

#LA COLUMNA 'PETROLEO' CONTIENE INFORMACION SOBRE EL PRECIO DEL BARRIL EN DOLARES POR LITRO
#LA COLUMNA 'DOLAR' MARCA LA TASA DE CAMBIO DE DOLAR EN PESOS MEXICANOS
#LA COLUMNA 'DIA' Y 'MES' MARCA LA FECHA QUE FUE REALIZADO.

Archivo_Excel_Precios

Construiremos un grafico con los datos del precio del petroleo conforme transcurren los dias.


#PRIMERO AGREGAREMOS LA CAPA DE LOS DATOS, ES DECIR, LE DECIMOS A R DE DONDE OBTENER LOS DATOS

Grafico_Fluctuacion_Precio_Petroleo <- ggplot(Archivo_Excel_Precios)

#AGREGAMOS LA CAPA DE LA ESTETICA, INDICAMOS QUE 'INDICE' SERAN LAS X Y 'DOLAR' SERAN LAS Y

Grafico_Fluctuacion_Precio_Petroleo <- Grafico_Fluctuacion_Precio_Petroleo + aes( x = Indice, y = Dolar)

#AGREGAMOS LA CAPA DE LA GEOMETRIA, EN ESTE CASO VAMOS A ASIGNAR UNA VARIABLE QUE TENGA UNA GEOMETRIA CON LINEAS.

Grafico_Fluctuacion_Precio_Petroleo_Lineas <- Grafico_Fluctuacion_Precio_Petroleo + geom_line()

#IMPRIMIMOS EL GRAFICO Y NOTAMOS QUE CONTIENE LAS 3 CAPAS QUE LE ESPECIFICAMOS A R.

Grafico_Fluctuacion_Precio_Petroleo_Lineas

Veremos ahora, con una segunda grafica, como se relaciona el precio del dolar y del petroleo.


#AGREGAMOS LA CAPA DE LOS DATOS

Grafico_Relacion_Precio_Petroleo_Dolar <- ggplot(Archivo_Excel_Precios)

#AGREGAMOS LA CAPA DE LA ESTETICA

Grafico_Relacion_Precio_Petroleo_Dolar <- Grafico_Relacion_Precio_Petroleo_Dolar + aes(x = Petroleo, y = Dolar)

#AGREGAMOS LA CAPA DE LA GEOMETRIA CON UNA FIGURA DE PUNTOS

Grafico_Relacion_Precio_Petroleo_Dolar_Puntos <- Grafico_Relacion_Precio_Petroleo_Dolar + geom_point()

#IMPRIMIMOS EL GRAFICO Y NOTAMOS QUE CONTIENE LAS 3 CAPAS DESCRITAS.

Grafico_Relacion_Precio_Petroleo_Dolar_Puntos

Propiedades de la Geometría Line y Point

Nosotros sabemos ya que las tres capas principales de un gráfico son: Datos, Estética y Geometría. Ademas, vimos en particular la geometría de línea y puntos, geom_line() y geom_point() respectivamente, ambas tienen atributos que pueden ser modificados.

Vamos a rehacer el gráfico realizado en la leccion anterior.

#PONEMOS LA CAPA DE LOS DATOS

Grafico_Fluctuacion_Dolar <- ggplot(Archivo_Excel_Precios)

#PONEMOS LA CAPA DE LA ESTETICA

Grafico_Fluctuacion_Dolar <- Grafico_Fluctuacion_Dolar + aes( x = Indice, y = Dolar)

#PONEMOS LA CAPA DE LA GEOMETRIA

Grafico_Fluctuacion_Dolar_Lineas <- Grafico_Fluctuacion_Dolar + geom_line()

#IMPRIMIMOS EL GRAFICO

Grafico_Fluctuacion_Dolar_Lineas

La primera variación que podemos hacer en el apartado ‘geom_line()’ es el estilo de línea. Por defecto, la función dibuja una linea continua pero podemos pedirle a R que dibuje una linea punteada o con guiones.

Para hacer esto agregamos ‘linetype’ dentro de los parámetros de la función y, dependiendo de la línea que queramos es el numero que le vamos a asignar.

Sintaxis.

Variable_Grafo <- Variable_Grafo + geom_line(linetype = Numero)

Variable_Grafo hace referencia a la variable que almacena el grafo en si mismo, Numero hace referencia a la variacion que haremos a la linea.

A continuacion veremos los 6 tipos de modificaciones que acepta linetype.

  1. Línea sólida
  2. Línea guíon
  3. Línea punteada
  4. Línea punto-guíon
  5. Línea guíon largo
  6. Línea dos guiones
#ASIGNAMOS A LA VARIABLE 'Grafico_Fluctuacion_Dola_Linetype_6' LA MODIFICACION DE LINETYPE CON LINEA PUNTEADA.

Grafico_Fluctuacion_Dolar_Linetype_6 <- Grafico_Fluctuacion_Dolar + geom_line(linetype = 6)

#IMPRIMIMOS EL GRAFICO CON LA MODIFICACION EN LAS LINEAS TIPO 6.

Grafico_Fluctuacion_Dolar_Linetype_6

La segunda variacíon que podemos hacer al apartado ‘geom_line()’ es el grosor de la línea.

Para hacer esto agregamos ‘size’ al parametro de la función y entre más grande sea el valor otorgado, más sera el grosor de la línea.

#TOMAREMOS EL GRAFICO ANTERIOR Y SOLO AGRANDAREMOS EL GROSOR DE LA LINEA 3

Grafico_Fluctuacion_Dolar_Linetype_6_Size_3 <- Grafico_Fluctuacion_Dolar_Linetype_6 + geom_line(linetype = 6, size = 3)

#IMPRIMIMOS EL GRAFICO

Grafico_Fluctuacion_Dolar_Linetype_6_Size_3

La tercera variación que podemos hacer a ‘geom_line()’ es el color.

Para hacer esto agregamos ‘colour’ al parametro de la funcion y designando el nombre del color deseado en ingles.

EJEMPLO.

#TOMAREMOS EL GRAFICO ANTERIOR Y LE CAMBIAREMOS EL COLOR A AMARILLO

Grafico_Fluctuacion_Dolar_Linetype_6_Size_3_Colour_Red <- Grafico_Fluctuacion_Dolar_Linetype_6_Size_3 + geom_line(linetype = 6, size = 3, colour = "red")

#IMPRIMIMOS EL GRAFICO

Grafico_Fluctuacion_Dolar_Linetype_6_Size_3_Colour_Red

La cuarta variacion que podemos hacer a ‘geom_line()’ es la intensidad del color.

Para hacer esto tenemos que agregar ‘alpha’ al parametro de la funcion y escribiendo un numero entre 0 y 1 podemos designar la intensidad del color asignado.

EJEMPLO.

#TOMAREMOS EL GRAFICO ANTERIOR Y LE CAMBIAREMOS LA INTENSIDAD DEL COLOR AMARILLO

Grafico_Fluctuacion_Dolar_Linetype_6_Size_3_Colour_Red_Alpha_0.3 <- Grafico_Fluctuacion_Dolar_Linetype_6_Size_3_Colour_Red + geom_line(linetype = 6, size = 3, colour = "red", alpha = 0.3)

#IMPRIMIMOS EL GRAFICO

Grafico_Fluctuacion_Dolar_Linetype_6_Size_3_Colour_Red_Alpha_0.3

Una propiedad que puede ser muy util es la combinacion de ‘geom_line()’ y ‘geom_point()’. Es decir que si tenemos un grafo con lineas, es posible dibujarle puntos encima.

Para hacer esto se agrega la capa a la variable que contiene el grafico con ‘geom_line()’.

EJEMPLO.

#TOMAREMOS EL GRAFICO ANTERIOR Y LE ANEXAREMOS UN CAPA DE PUNTOS

Grafico_Fluctuacion_Dolar_Linetype_6_Size_3_Colour_Red_Alpha_0.3 <- Grafico_Fluctuacion_Dolar_Linetype_6_Size_3_Colour_Red_Alpha_0.3 + geom_point()

#IMPRIMIMOS EL GRAFO

Grafico_Fluctuacion_Dolar_Linetype_6_Size_3_Colour_Red_Alpha_0.3

Vamos a graficar ahora la fluctuacion del dolar pero con puntos, sin embargo, esta ocasion incluiremos en una misma linea todas las propiedades que pueden ser agregadas a la funcion ‘geom_point()’.

#AGREGAMOS LA CAPA DE LOS DATOS

Grafico_Fluctuacion_Dolar_Puntos <- ggplot(Archivo_Excel_Precios)

#AGREGAMOS LA CAPA DE LA ESTETICA

Grafico_Fluctuacion_Dolar_Puntos <- Grafico_Fluctuacion_Dolar_Puntos + aes( x = Indice, y = Dolar )

#AGREGAMOS LA CAPA DE LA GEOMETRIA

Grafico_Fluctuacion_Dolar_Puntos <- Grafico_Fluctuacion_Dolar_Puntos + geom_point(shape = 9, size = 3.5, colour = "blue", alpha = 0.72)

#IMPRIMIMOS EL GRAFICO

Grafico_Fluctuacion_Dolar_Puntos

Notemos que la funcion ‘geom_line()’ y ‘geom_point()’ comparten casi todas las variaciones, sin embargo, linetype no sirve con ‘geom_point’, en cambio, shape modifica la forma de los puntos. A continuacion enumeraremos las propiedades correspondientes a cada funcion:

FUNCION ‘geom_line()’.

  1. linetype. Modifica la forma de la linea, 6 tipos de lineas.
  2. size. Modifica el grosor de la linea.
  3. colour. Modifica el color de la linea.
  4. alpha. Modifica la intensidad del color.

FUNCION ‘geom_point()’.

  1. shape. Modifica la forma del punto.20 tipos de puntos.
  2. size. Modifica el grosor del punto.
  3. colour. Modifica el color del punto.
  4. alpha. Modifica la intensidad del punto.

Respecto a las formas que puede tomar el punto, se anexa un link que tiene las imagenes correspondientes a cada valor.

[Symbols point shapes][1] [1]: http://www.sthda.com/english/wiki/r-plot-pch-symbols-the-different-point-shapes-available-in-r

Notemos que al poner la capa de la Estetica agregamos la funcion ‘aes()’ donde declaramos los datos al eje x y los datos al eje y. En este mismo apartado podemos modificar la forma de los puntos, shape, y el color, colour, sin embargo, realizar esto otorga resultados diferentes a que lo hicieramos en la capa de Geometria.

La sintaxis es la siguiente.

Variable_Grafo <- Variable_Grafo + aes( x= Columna_i, y= Columna_j, colour= Columna_k, shape= Columna_n)

Variable_Grafo hace referencia a la variable que le asignamos la capa de los datos, cada ‘Columna_i’ simboliza el nombre de la columna que se representara con la indicacion correspondiente.

En particular, al asignar colour estamos diciendo que a los valores de dicha columna se le asignaran distintos colores, al asignar shape estamos diciendo que a los valores de dicha columna se le asignara distintas formas.

#PONEMOS LA CAPA DE LOS DATOS

Grafo <- ggplot(Archivo_Excel_Precios)

#PONEMOS LA CAPA ESTETICA

Grafo <- Grafo + aes(x = Petroleo, y = Dolar, colour = Mes, shape = Mes)

#PONEMOS LA CAPA GEOMETRICA

Grafo <- Grafo + geom_point()

#IMPRIMIMOS EL GRAFO.

Grafo

IMPORTANTE: Si nosotros modificamos ‘colour’ y ‘shape’ en ‘geom_point()’, entonces estos ajustes seran dados de manera general en el grafico, por lo tanto, es a decision del usuario donde modificar estos dos puntos.

Si el usuario implementó ‘shape’ y ‘colour’ en la capa de la Estetica y desea modificar alguna de las figuras y el color que R le asigno a un dato, se hace de la siguiente manera.

PARA LAS FIGURAS.

Variable_Grafo <- Variable_Grafo + scale_shape_manual( values = c(Numero1,Numero2,Numero3,...,NumeroK) )

PARA LOS COLORES

Variable_Grafo <- Variable_Grafo + scale_colour_manual( values = c("Color1","Color2",...,"ColorK") )

NOTA: Esto se asigna despues de declarar la capa de la Estetica, es decir, despues de añadir ‘shape’ y ‘color’ en el argumento de aes().

Variable_Grafo hace referencia a la variable que contiene el grafo en cuestion, NumeroI hace referencia a la figura que deseamos que le corresponda a cada uno de los valores contenidos en la columna que se le asigna el shape, “ColorI” hace referencia al color que deseamos que le corresponda a cada uno de los valores contenidos en la columna asignada a shape.

En el grafo anterior, tenemos 4 meses y R le asigno a cada uno una figura, recordemos que existen 20 tipos de puntos, por lo tanto, asignaremos 4 distintas formas a cada mes y 4 colores.

#LE ASIGNAREMOS A LA VARIABLE 'Grafo2' EL GRAFO CON LAS DIFERENTES FORMAS A CADA MES.

#AGREGAMOS LA CAPA DE LOS DATOS

Grafo2 <- ggplot(Archivo_Excel_Precios)

#AGREGAMOS LA CAPA DE ESTETICA

Grafo2 <- Grafo2 + aes( x = Petroleo, y = Dolar, colour = Mes, shape = Mes)

#Modificamos figura

Grafo2 <- Grafo2 + scale_shape_manual( values = c(16,17,15,18) ) #AL MES DE ABRIL LE ASIGNAMOS LA FORMA CON NUMERO 16, AL MES FEBRERO LE ASIGNAMOS EL DE 17 Y SUCESIVAMENTE.

#Modificamos color

Grafo2 <- Grafo2 + scale_colour_manual( values = c("green","red","blue","brown") )

#AGREGAMOS LA CAPA GEOMETRICA

Grafo2 <- Grafo2 + geom_point()

#IMPRIMIMOS EL GRAFO

Grafo2

Personalización de ejes

Con el paquete ggplot2 se puede editar los nombres de los ejes, es decir, tomar valores de cierta columna y al momento de graficar cambiar su nombre. Mas aun, se puede agregar titulo y subtitulo al grafo.

Para hacer lo anterior mencionado se utiliza los comandos ‘xlab(“Nombre deseado”)’ para dar nombre al eje de las X, ‘ylab(“Nombre deseado”)’ para dar nombre al eje de las Y, ‘ggtitle(“Nombre titulo”, subtitle = “Nombre subtitulo”)’

Diseñaremos un Data Frame que indique valores de la X y Y.

Valores_X=c(2,4,6,8,10,12,14)
Valores_Y=c(1,3,6,9,12,16,18)
Data_Frame=data.frame(Valores_X,Valores_Y)

Graficamos.

#PONEMOS LA CAPA DE LOS DATOS

Grafo_Data_Frame <- ggplot(Data_Frame)

#PONEMOS LA CAPA DE LA ESTETICA

Grafo_Data_Frame <- Grafo_Data_Frame + aes( x = Valores_X, y = Valores_Y)

#PONEMOS LA CAPA DE GEOMETRIA

Grafo_Data_Frame <- Grafo_Data_Frame + geom_line(size=2.5,colour="green", alpha = 0.5)

#IMPRIMIMOS EL GRAFICO

Grafo_Data_Frame

Modificaremos los nombres de los ejes, agregaremos un titulo y subtitulo al grafo.

#CAMBIAREMOS EL NOMBRES DE LOS EJES.

Grafo_Data_Frame <- Grafo_Data_Frame + xlab("Entradas")

Grafo_Data_Frame <- Grafo_Data_Frame + ylab("Salidas")

#AGREGAMOS TITULO Y SUBTITULO

Grafo_Data_Frame <- Grafo_Data_Frame + ggtitle("Consumo del mes", subtitle = "Agosto-2020")

#IMPRIMIMOS EL GRAFO

Grafo_Data_Frame

Gráfico de barras

Ademas de las lineas y puntos para graficar, en la parte geometrica, es posible hacer graficos de barras y pastel en R.

En este apartado nos enfocaremos a estudiar los graficos de barras.

Las graficas de barras al igual que las graficas de lineas y puntos consta de 3 capas, principalmente, es decir: Datos, Estetica y Geometria.

Su implementacion, respecto a la capa de los datos es exactamente igual a un grafico de lineas o puntos, sin embargo, al implementar la estetica solo especificamos la variable que esta en el eje x pues el eje y siempre sera un conteo de las veces que aparece dicha variable que escribimos en el eje x (ver el ejemplo), por ultimo pero no menos importante, la implementacion de la capa geometrica define que queremos un grafico de barras mediante ‘geom_bar()’.

IMPORTANTE: En los graficos de barras, la variable que se asigna al eje x debe ser categorica.

Para un uso practico, haremos uso de la base de datos contenida en el archivo Excel con nombre ‘COVID19MX’ que contiene informacion sobre personas contagiadas con coronavirus en dos entidades de la Republica Mexicana.

Los datos incluidos en la base de datos son: Sexo del paciente, entidad a la que pertenece, si fue hospitalizado, edad, enfermedades cronicas (obesidad, diabetes, hipertension) y deceso.

Es claro que tenemos diferentes variables para poder graficar, sin embargo, nos enfocaremos a graficar el numero de personas contagiadas que hay por entidad.

Asignamos a la variable COVIDMX la base de datos almacenada en el archivo Excel

COVIDMX <- read.csv("COVID19MX.csv")

Asignamos las capas al grafico de barras.

#ASIGNAMOS LA CAPA DE LOS DATOS

Barras_Covid <- ggplot(COVIDMX)

#ASIGNAMOS LA CAPA ESTETICA

Barras_Covid <- Barras_Covid + aes( x = ENTIDAD)

#ASIGNAMOS LA CAPA GEOMETRICA

Barras_Covid <- Barras_Covid + geom_bar()

#IMPRIMIMOS EL GRAFICO

Barras_Covid

Existe una analogia al cambio de color de cada barra al igual que el cambio de color de linea y punto, se hace mediante la condicion ‘fill’.

Es necesario recordar que depende del lugar donde declaremos fill es el resultado obtenido, es decir, si implementamos el color en la capa Geometrica este se aplicara a todo el grafo, sin embargo, si lo hacemos en la capa estetica este se implementara en el conteo de las variables de la columna asignada.

EJEMPLO CAMBIO GENERAL DE COLOR.

#A LA VARIABLE Barras_Covid_2 LE ASIGNAREMOS UN CAMBIO GENERAL DE COLOR.

Barras_Covid_2 <- Barras_Covid + geom_bar(fill = "green")

#IMPRIMIMOS

Barras_Covid_2

#A LA VARIABLE Barras_Covid_3 LE ASIGNAREMOS UN CAMBIO POR VARIABLE DE COLOR

Barras_Covid_3 <- Barras_Covid + aes(x = ENTIDAD, fill = ENTIDAD)

#LE ASIGNAMOS UNA GEOMETRIA DE BARRAS

Barras_Covid_3 <- Barras_Covid_3 + geom_bar()

#IMPRIMIMOS

Barras_Covid_3

Mas aun, podemos nosotros asignar a cada variable un color en especifico mediante la instruccion ‘scale_fill_manual()’.

La sintaxis es la siguiente.

Variable_Grafo <- Variable_Grafo + scale_fill_manual( values = c(“Color1”,“Color2”,…,“ColorN”) )

Variable_Grafo hace referencia a la variable que contiene el grafo en cuestion, “ColorI” hace referencia al color que le asignamos a la variable en la posicion I que corresponde al eje X.

EJEMPLO.

#A LA VARIABLE Barras_Covid_4 ASIGNAREMOS DOS COLORES DIFERENTES A LAS BARRAS MOSTRADAS.

Barras_Covid_4 <- Barras_Covid + aes(x = ENTIDAD, fill = ENTIDAD)

#ASIGNAMOS EL COLOR AZUL A CIUDAD DE MEXICO Y VERDE A ESTADO DE MEXIO

Barras_Covid_4 <- Barras_Covid_4 + scale_fill_manual( values = c("blue","green") )

#LE ASIGNAMOS UNA GEOMETRIA DE BARRAS

Barras_Covid_4 <- Barras_Covid_4 + geom_bar()

#IMPRIMIMOS EL GRAFO

Barras_Covid_4

De manera similar al cambio de ancho de una linea o punto, podemos modificar la anchura de las barras mediante la instruccion ‘width’ en el apartado Geometrico.

El valor de width tiene que estar entre 0 y 1.

#ASIGNAMOS LA CAPA DE LOS DATOS

Barras_Covid_5 <- ggplot(COVIDMX)

#ASIGNAMOS LA CAPA ESTETICA

Barras_Covid_5 <- Barras_Covid_5 + aes( x = ENTIDAD, fill = ENTIDAD)

#MODIFICAMOS LOS COLORES DE LAS BARRAS

Barras_Covid_5 <- Barras_Covid_5 + scale_fill_manual( values = c("red","brown"))

#ASIGNAMOS LA CAPA GEOMETRICA Y ACHICAMOS LAS BARRAS

Barras_Covid_5 <- Barras_Covid_5 + geom_bar(width = 0.2)

#IMPRIMIMOS EL GRAFO

Barras_Covid_5

Es importante señalar que podemos subdivir las barras, es decir, tener una barra que este contida en otra. Por ejemplo, sabemos que en la CDMX tenemos mas de 75000 contagiados y en el Estado de Mexico menos de 25000, queremos saber cuantos de ellos han muerto. Para ello utilizamos la instruccion ‘fill’ antes mencionada pero especificando que grafique y coloree los datos contenidos en dicha columna.

EJEMPLO.

#ASIGNAMOS LA CAPA DE LOS DATOS

Barras_Covid_6 <- ggplot(COVIDMX)

#ASIGNAMOS LA CAPA ESTETICA Y ESPECIFICAMOS QUE COLOREE LOS QUE HAN FALLECIDO Y LOS QUE NO.

Barras_Covid_6 <- Barras_Covid_6 + aes( x = ENTIDAD, fill = DEFUNCION)

#CAMBIAMOS EL COLOR DEL FILTRO REALIZADO

Barras_Covid_6 <- Barras_Covid_6 + scale_fill_manual( values = c("green","red") )

#ASIGNAMOS LA CAPA GEOMETRICA Y MODIFICAMOS LA ANCHURA

Barras_Covid_6 <- Barras_Covid_6 + geom_bar(width = 0.25)

#IMPRIMIMOS EL GRAFO

Barras_Covid_6

Por ultimo y solo como demostrativo, mostraremos un grafico que muestre la proporcion de diabeticos por entidad y agregaremos titulos y subtitulos al grafico.

Grafo <- ggplot(COVIDMX)
Grafo <- Grafo + aes(x=ENTIDAD,fill=DIABETES)
Grafo <- Grafo + scale_fill_manual( values = c("yellow","orange") )
Grafo <- Grafo + geom_bar(width = 0.2)
Grafo <- Grafo + xlab("Entidad Federativa de Mexico")
Grafo <- Grafo + ylab("Numero de infectados")
Grafo <- Grafo + ggtitle("Datos COVID19 MEXICO", subtitle="FEB-JUNIO 2020")
Grafo

Gráfico de pastel

Vimos los graficos de linea, puntos y barra, ahora toca analizar las graficas de pastel. Antes de empezar, es necesario aclarar que la libreria ‘ggplot2’ no tiene una geometria especifica para construir graficos de pastel, sin embargo, es posible hacerlos a partir de un grafico de barras.

Para poder crear un grafico de pastel en funcion de un grafico de barras, necesitamos diseñar primero nuestra grafica de barras, despues filtrar la barra que deseamos formar como pastel y despues agregar el comando ‘coord_polar()’ para diseñar el grafo correspondiente.

La sintaxis general es:

Datos <- read.csv("Nombre_Archivo_Excel")
Datos <- filter(Datos, Nombre_Columna_a_filtrar == "Nombre_Dato")
Variable_Grafo <- ggplot(Datos)
Variable_Grafo <- Variable_Grafo + aes(x = Nombre_Columna_a_filtrar, fill = Nombre_Columna)
Variable_Grafo <- Variable_Grafo + scale_fill_manual( values = c("Color1","Color2",...,"ColorN") )
Variable_Grafo <- Variable_Grafo + geom_bar(width = #)
Variable_Grafo <- Variable_Grafo + xlab("Nombre_eje_X")
Variable_Grafo <- Variable_Grafo + ylab("Nombre_eje_Y")
Variable_Grafo <- Variable_Grafo + ggtitle("Titulo_Grafo", subtitle="Subtitulo_Grafo")
Variable_Grafo <- Variable_Grafo + coord_polar("y")

Para efectos practicos, vamos a extraer la informacion de la base de datos almacenada en el Excel ‘COVID19MX’. Ademas, como vamos a diseñar un grafico de barras inicialmente, necesitamos importar la libreria ‘ggplot2’ y aparte la libreria ‘dplyr’ para agregar las modificaciones necesarias al momento de diseñar un grafico de pastel.

#IMPORTAMOS LA LIBRERIA
library(dplyr)

Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union

Leemos la base de datos.

Archivo_Excel <- read.csv("COVID19MX.csv")

Diseñamos el grafico de barras.

#CAPA DATOS
Grafo_Barra <- ggplot(Archivo_Excel)
#CAPA ESTETICA
Grafo_Barra <- Grafo_Barra + aes(x = ENTIDAD, fill= DIABETES)
#MODIFICAMOS EL COLOR DE 'fill'
Grafo_Barra <- Grafo_Barra + scale_fill_manual( values = c("green","red"))
#CAPA GEOMETRICA
Grafo_Barra <- Grafo_Barra + geom_bar(width = 0.25)
#AGREGAMOS NOMBRE A LOS EJES
Grafo_Barra <- Grafo_Barra + xlab("ENTIDAD FEDERATIVA")
Grafo_Barra <- Grafo_Barra + ylab("Numero de infectados")
#AGREGAMOS TITULO Y SUBTITULO
Grafo_Barra <- Grafo_Barra + ggtitle("COVID MEXICO", subtitle = "FEB-JUN 2020")
#IMPRIMIMOS EL GRAFICO
Grafo_Barra

Vamos a diseñar como grafica de pastel ambos estados.

CIUDAD DE MEXICO

Primero vamos a filtrar, para ello, volveremos a leer la base de datos.

#LEEMOS BASE DE DATOS
Datos_CDMX <- read.csv("COVID19MX.csv")
#FILTRAMOS ESTADO
Datos_CDMX <- filter(Datos_CDMX, ENTIDAD == "CIUDAD DE MEXICO")
#CAPA DATOS
G_CDMX <- ggplot(Datos_CDMX)
#CAPA ESTETICA
G_CDMX <- G_CDMX + aes(x = ENTIDAD, fill = DIABETES)
#CAPA GEOMETRICA
G_CDMX <- G_CDMX + geom_bar()
#NOMBRE DE EJES
G_CDMX <- G_CDMX + ylab("INFECTADOS")
#TITULO
G_CDMX <- G_CDMX + ggtitle("COVID MEXICO", subtitle="FEB_JUN 2020")
#DISEñAMOS GRAFICA DE PASTEL
G_CDMX <- G_CDMX + coord_polar("y")
#IMPRIMIMOS EL GRAFICO
G_CDMX

ESTADO DE MEXICO

#LEEMOS LOS DATOS
Datos_EMX <- read.csv("COVID19MX.csv")
#APLICAMOS EL FILTRO
Datos_EMX <- filter(Datos_EMX, ENTIDAD == "ESTADO DE MEXICO")
#APLICAMOS CAPA DE DATOS
G_EMX <- ggplot(Datos_EMX)
#APLICAMOS CAPA DE ESTETICA
G_EMX <- G_EMX + aes(x = ENTIDAD, fill = DIABETES)
#APLICAMOS CAPA DE GEOMETRIA
G_EMX <- G_EMX + geom_bar(width = 0.25)
#NOMBRE A LOS EJES
G_EMX <- G_EMX + ylab("INFECTADOS")
#TITULO
G_EMX <- G_EMX + ggtitle("COVID MEXICO", subtitle = "FEB_JUN 2020")
#DISEñAMOS GRAFICA DE PASTEL
G_EMX <- G_EMX + coord_polar("y")
#IMPRIMIMOS EL GRAFICO
G_EMX

Si no deseamos utilizar una grafica de barras para construir un grafico de pastel, podemos realizarlo mediante la funcion ‘pie()’ ajena a la paqueteria ‘ggplot2’, por lo tanto, no es necesario destacar las 3 capas (Datos, Estetica, Geometria).

Sintaxis.

pie(x = Variable_Numerica, labels = Variable_Nombres, col = Variable_Colores)

Variable_Numerica hace referencia a la variable que contiene los valores de los porcentaje a graficar, en decimal, es decir, 88.1, Variable_Nombres hace referencia a los nombres en porcentaje de la cantidad ingresada, es decir, “88.1%”, Variable_Colores hace referencia a los colores que nosotros le asignamos a cada variable a graficar.

La desventaja de este proceso es calcular de manera manual los porcentajes a mostrar.

Retomaremos el apartado anterior, en esta ocasion solo trabajaremos con la CIUDAD DE MEXICO.

Primero leemos el archivo, despues filtramos, luego filtramos columna y procedemos analizar los datos contenidos en dicha columna.

Esto lo hacemos para poder calcular el porcentaje de manera manual.

Archivo <- read.csv("COVID19MX.csv")
Archivo_CDMX <- filter(Archivo, ENTIDAD == "CIUDAD DE MEXICO")
Diabetes <- Archivo_CDMX$DIABETES
table(Diabetes)
Diabetes
   NO    SI 
76619 10161 

Podemos notar que existen 76619 personas SIN diabetes y 10161 CON diabetes, entonces, entre los dos tenemos un total de 86780, por lo tanto, 76619 corresponde a un 88% del total y 10161 corresponde a un 11% del total.

Por lo tanto, con los porcentajes, procedemos a diseñar 3 vectores, uno numerico, para indicar el numero del porcentaje, y uno categorico, para indicar el nombre correspondiente al pocentaje, el tercero es para indicar los colores.

Porcentajes <- c(88,11)
Etiquetas <- c("88%","11%")
Colores <- c("green","red")

Utilizamos la funcion pie con base a los 3 vectores diseñados con anterioridad.

Pastel1 <- pie(x = Porcentajes, labels = Etiquetas, col = Colores)

La grafica anterior se puede modifcar agregando un titulo, para hacerlo, en el mismo argumento de la funcion ‘pie()’ agregamos main y posteriormente escribimos el titulo deseado.

EJEMPLO

Pastel2 <- pie (x = Porcentajes, labels = Etiquetas, col = Colores, main = "Casos de diabetes COVID19 en la Ciudad de Mexico.")

Por ultimo, podemos agregar las categorias que le corresponde a cada seccion, para ello necesitamos diseñar un vector con las categorias deseadas, ademas, de usar la funcion ‘legend()’.

EJEMPLO

Diseñamos las categorias y usamos la funcion ‘legend()’.

Pastel3 <- pie (x = Porcentajes, labels = Etiquetas, col = Colores, main = "Casos de diabetes COVID19 en la Ciudad de Mexico.")
Categorias <- c("SI","NO")
legend("topright",legend = Categorias, fill = Colores)

Histograma

Los histogramas de frecuencia son similares a las graficas de barra con la diferencia de que la variable que se le asigna al eje x debe ser numerica, esta puede ser diseñada con la pqueteria ‘ggplot2’, eso significa que tenemos que especificar las 3 capas esenciales donde la capa de geometria viene con la instruccion ‘geom_histogram()’.

Es importante denotar que en la capa estetica especificamos solo el eje x pues las y sera un conteo de la misma generando un histograma de frecuencias.

Para ejemplificar lo anterior, usaremos la base de datos con nombre ‘COVID19MX’ de archivo tipo Excel.

Datos <- read.csv("COVID19MX.csv")

Al ver nuestra base de datos nos damos cuenta que la unica columna con datos numericos es la columna de la edad, por lo tanto, construiremos un Histograma con esos datos.

Realizamos las tres capas.

#CAPA DE DATOS
Histograma <- ggplot(Datos)
#CAPA ESTETICA
Histograma <- Histograma + aes(x = EDAD)
#CAPA GEOMETRICA
Histograma <- Histograma + geom_histogram()
#IMPRIMIMOS HISTOGRAMA
Histograma

Un atributo extra que podemos anexar al histograma es poder cambiar el color del contorno de las mismas barras, esto se hace con la instruccion ‘colour()’.

Sintaxis.

Variable_Grafo <- Variable_Grafo + aes( x = Nombre_Columna, colour = Nombre_Columna2)
Variable_Grafo <- Variable_Grafo + scale_color_manual( values = c("Color1","Color2",...,"ColorN") )

Dividiremos el histograma anterior en colores segun el sexo, esta instruccion lo haremos en la capa de Estetica.

Volvemos a construir todo con variables distintas.

#CAPA DATOS
Histograma2 <- ggplot(Datos)
#CAPA ESTETICA
Histograma2 <- Histograma2 + aes(x = EDAD, colour = SEXO)
Histograma2 <- Histograma2 + scale_color_manual( values = c("blue","pink") )
#CAPA GEOMETRIA
Histograma2 <- Histograma2 + geom_histogram()
#IMPRIMIMOS
Histograma2

Por ultimo, tenemos la opcion de cambiar el color dentro de las barras de manera general, tambien podemos cambiar el ancho de las barras y podemos agregar etiquetas a los ejes asi como titulo y subtitulos.

Diferencias con la grafica de barras.

En el histograma para para cambiar el ancho de las barras usamos la instruccion ‘binwith’ en el apartado geometrico.

El histograma anterior lo presentaremos con todas las caracteristicas enseñadas.

#CAPA DATOS
Histograma_Final <- ggplot(Datos)
#CAPA ESTETICA
Histograma_Final <- Histograma_Final + aes(x = EDAD, colour = SEXO)
Histograma_Final <- Histograma_Final + scale_color_manual( values = c("blue","pink") )
#CAPA GEOMETRIA
Histograma_Final <- Histograma_Final + geom_histogram(fill = "white", binwidth = 2)
#NOMBRES EJES
Histograma_Final <- Histograma_Final + xlab("Edad")
Histograma_Final <- Histograma_Final + ylab("Numero de infectados")
#TITULO
Histograma_Final <- Histograma_Final + ggtitle("Datos COVID19 MX",subtitle = "FEB - JUN 2020")
#IMPRIMIMOS
Histograma_Final

NOTA DEL AUTOR : Disculpe las faltas de ortografía, dado que el español no es el lenguaje natural de los lenguajes de programación y, por costumbre, escribir en inglés y sin acentos mientras programo olvido algunas reglas de escritura al español.

