1 ¿Qué es la estadística?

Son los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, permitiendo así obtener conclusiones, tomar decisiones y, en su caso, formular predicciones.

1.1 ¿Para qué sirve la estadística descriptiva?

La estadística descriptiva provee una serie de procedimientos dirigidos a procesar, resumir y presentar un conjunto de datos, para poder interpretarlos y extraer conclusiones de ellos.

1.2 ¿Qué son los gráficos y para que sirven?

Son la representación de datos numéricos en el plano, con el objetivo de obtener una impresión visual del conjunto, facilitar su comprensión, detectar anomalías o valores extremos y mostrar asociaciones entre variables. Es una herramienta visual que permite representar datos de forma clara y concisa. En lugar de leer largas tablas de números, un gráfico permite “ver” la información y entenderla rápidamente.

En el contexto de la ingeniería agronómica, esto es especialmente útil porque muchas veces se trabaja con grandes cantidades de datos: resultados de ensayos de campo, mediciones de suelos, producción de cultivos, condiciones climáticas, etc. Los gráficos ayudan a responder preguntas como:

  • ¿Cómo varió el rendimiento de un cultivo según el tipo de fertilizante?

  • ¿Qué relación hay entre la humedad del suelo y el desarrollo de las plantas?

  • ¿Qué parcelas tuvieron un comportamiento anormal?

  • ¿Hay una tendencia en los datos a lo largo del tiempo?

  • ¿Qué elementos componen un gráfico?

1.3 ¿Por qué es importante aprender a graficar con herramientas como R?

Porque en la práctica profesional, no solo es importante recolectar datos, sino también comunicarlos eficazmente. Hay que tener en cuenta que un buen gráfico permite:

  • Detectar errores o valores extremos que podrían pasar desapercibidos en una tabla.
  • Explorar los datos para generar hipótesis o tomar decisiones técnicas fundamentadas.
  • Presentar resultados de forma clara en informes técnicos, publicaciones científicas, presentaciones o charlas.

Además, al usar una herramienta como R, se pueden reproducir fácilmente los gráficos, trabajar con grandes volúmenes de datos y automatizar tareas repetitivas, lo cual es una ventaja clave en investigaciones agronómicas.

1.4 tipos de graficos

  • Gráficos de sectores, pie o torta: son apropiados para variales cualitativas, en estos se muestra la cantidad o porcentaje de elementos que pertenecen a una determinada categoría de la variable de estudio. En esta gráfica, la suma de todos los sectores es igual al 100%. Este tipo de gráficos no es recomendado cuando se tienen muchas categorías debido a su dificultad para diferenciar los tamaños de cada sector.
  • Gráficos de barras: son apropiados para variables cualitativas o cuantitativas discretas, en estos se observan las barras distanciadas entre sí; la base de cadsa barra debe ser del mismo ancho, mientras que su altura dependerá de la frecuencia o porcentaje de cada caso.
  • Gráfico de barras apiladas o barras subdivididas: son apropiados para variables cualitativas, en ellos se muestra una barra cuya area representa el total de los casos, la cual se encuentra subdividida en sectores o porciones que permiten visualizar la proporción de los casos en cada categoría de la variable.
  • Histograma: apropiado para variables ¨cuantitativas contínuas, es similar al gráfico de barras pero sin separación entre ellas. cada barra representa un intervalo de valores y su altura está dada por la frecuencia absoluta o relativa de cada intervalo. - pero… ¿Cuál es la diferencia entre el gráfico de barras y el histograma? la principal diferencia entre estos dos radica en que en el gráfico de barras, las barras se presentan separadas entre sí para indicar que no existe continuidad entre ellas. Mientras que en un histograma, las barras se ubican juntas, explicando todo lo contrario al caso anterior, aquí sí existe una continuidad entre los valores de cada categoría, debido a la presencia de intervalos.
  • Polígono de frecuencias: es adecuado para variables cuantitativas contínuas, en estos se grafican las llamadas “Marcas de clase”, que son los puntos medios de cada intervalo. Son útiles para comparar dos o más muestras o poblaciones.
  • Gráfico de líneas: útiles para variables cuantitativas discretas o contínuas. En el eje de las X se observa el tiempo (días, meses o años), y en el eje de las Y la frecuencia, porcentajes o valores absolutos.

2 El paquete ggplot2

ggplot2 es un paquete de R para generar gráficos estadísticos. A diferencia de la mayoría de los demás paquetes de gráficos, ggplot2 cuenta con una gramática subyacente, basada en la Gramática de Gráficos ( Wilkinson 2005 ), que permite componer gráficos combinando componentes independientes. En lugar de limitarse a conjuntos de gráficos predefinidos, permite crear gráficos novedosos adaptados a su problema específico. ggplot2 está diseñado para funcionar de forma interactiva. Se comienza con una capa que muestra los datos sin procesar. Luego se añaden capas de anotaciones y resúmenes estadísticos. Esto permite generar gráficos utilizando el mismo razonamiento estructurado que se usaría para diseñar un análisis y además reduce la distancia entre el gráfico que se tiene en la cabeza y el que se ve en la página.

En un gráfico generado con herramientas como RMarkdown y el paquete ggplot2 de R, lo que se hace es representar datos visualmente. Para esto, los valores de los datos se asignan a elementos visuales del gráfico, como el color, la forma o el tamaño.

Por ejemplo, un punto b en un gráfico puede representar una observación, y su color podría indicar una categoría, su posición mostrar una relación entre variables, y su tamaño representar una cantidad.

Además, se pueden aplicar transformaciones estadísticas (como promedios o tendencias), elegir distintos tipos de coordenadas (como ejes normales o mapas), y dividir el gráfico en paneles más pequeños (esto se llama facetado) para comparar distintos grupos de datos.

En resumen, un gráfico se construye combinando distintos componentes (datos, estética, tipo de gráfico, etc.), y cada parte se puede ajustar de manera independiente.

2.1 ¿Cuál es la gramática de los gráficos con ggplot2?

La gramática de los gráficos se define como un conjunto de reglas para construir gráficos estadísticos combinando diferentes tipos de capas. Esta gramática fue creada por Leland Wilkinson ( Wilkinson 2005 ) y se ha implementado en una variedad de plataformas de software de visualización de datos, como por ejemplo en R. En resumen, la gramática nos dice que: Un gráfico estadístico es una forma de representar visualmente datos, donde las variables se asocian con atributos estéticos de elementos geométricos. Por ejemplo, una variable puede representarse en el eje X, otra en el eje Y, y otras pueden expresarse a través del color, el tamaño o la forma de los puntos, líneas o barras. Esta representación permite interpretar rápidamente relaciones, tendencias o diferencias en los datos recolectados en estudios o experimentos agronómicos.

2.1.1 Podemos dividir un gráfico en los siguientes cuatro componentes esenciales:

  • data: es el conjunto de datos que contiene las variables de interés.
  • geom: Es el objeto geométrico en cuestión. Se refiere al tipo de objeto que podemos observar en un gráfico. Por ejemplo: puntos, líneas y barras.
  • aes: son los atributos estéticos del objeto geométrico. Por ejemplo, posición x/y, color, forma y tamaño. Los atributos estéticos se asignan a variables del conjunto de datos.
  • faceting: que divide una gráfica en varias gráficas, divididas por los valores de otra variable.

En este apunte, se llevarán acabo las demostraciones de los siguientes tipos de gráficos en ggplot2: - barras - barras subdivididas - histogramas - polígono de frecuencias - lineas - graficos de cajas y patillas - torta

3 Gráficos.

3.0.1 La base de datos utilizada.

En el desarrollo de la primer parte del apunte, se utilizará una base de datos obtenida de datos.gob.ar, donde se observan datos sobre los volumenes de tabaco por provincia en Argentina en la campaña de 2017/2018. Para acceder a esta base de datos, entrar al siguiente link: Volúmenes de tabaco por provincia. Campaña 2017/2018. Nótese que al descargar la base de datos, la misma se obtiene en formato Excel y se pueden visualizar columnas que no son de nuestro interés, como por ejemplo: pais_id, pais, provincia_id, cod_unimed, nom_unimed y campaña. Recomendamos eliminar estas columnas para tener una base de datos más limpia a la hora de trabajar, así como también se recomienda modificar los nombres de las columnas necesarias para poder ser reconocidas por el software en uso. También es importante destacar que al momento de guardar la base de datos en nuestro dispositivo, esta lo hace en formato “csv”, que es otro tipo de archivo con el que se puede trabajar en Posit Cloud sin problemas.

3.1 Primer paso: activación de paquetes y exploración de la base de datos.

Para comenzar, se descarga el paquete “tidyverse”, que nos servirá para leer el archivo guardado desde Excel.

install.packages("tidyverse") 
install.packages("readxl")

3.1.0.1 Se activan los paquetes necesarios.

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.1     ✔ stringr   1.5.2
## ✔ ggplot2   4.0.0     ✔ tibble    3.3.0
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.1.0     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(readxl)

3.1.0.2 Leemos la base de datos.

Con la función “read_excel” leemos la base de datos guardada en excel. Con la función “Glimpse” podemos observar los tipos de variables leídas por el programa y al mismo tiempo los nombres y datos de las variables, por ejemplo, “chr” significa que se lee una variable cualitativa y se encontraron “provincia” y “tipo_tabaco”, y “dbl” indicsa que se leyó una variable cuantitativa, siendo esta la variable “KG”.

TABACO <- read_excel("TABACO1.xlsx")
glimpse(TABACO)
## Rows: 17
## Columns: 3
## $ PROVINCIA   <chr> "Jujuy", "Jujuy", "Salta", "Misiones", "Misiones", "Mision…
## $ TIPO_TABACO <chr> "Virginia", "Criollo Argentino", "Virginia", "Burley", "Cr…
## $ KG          <dbl> 37181539, 727, 26114056, 29406457, 466346, 5111, 763596, 8…

La función “colnames” nos permite visualizar los nombres de las columnas.

colnames(TABACO)
## [1] "PROVINCIA"   "TIPO_TABACO" "KG"
TABACO <- TABACO %>%
  mutate(TONELADAS = KG / 1000)

Con la función “mutate”, perteneciente al paquete dplyr, podemos agregar una variable cambiando la unidad de otra perteneciente a la base de datos, sabiendo como realizar su conversión. En este caso, se obtuvieron los kilogramos en toneladas, conociendo que toneladas es igual a kilogramos dividido en 1000.

glimpse(TABACO)
## Rows: 17
## Columns: 4
## $ PROVINCIA   <chr> "Jujuy", "Jujuy", "Salta", "Misiones", "Misiones", "Mision…
## $ TIPO_TABACO <chr> "Virginia", "Criollo Argentino", "Virginia", "Burley", "Cr…
## $ KG          <dbl> 37181539, 727, 26114056, 29406457, 466346, 5111, 763596, 8…
## $ TONELADAS   <dbl> 37181.539, 0.727, 26114.056, 29406.457, 466.346, 5.111, 76…

Usando la función glimpse podemos observar que, en comparación a la primera visualización de las columnas, se agregó una nueva columna, esta vez con los nuevos datos obtenidos al convertir los kilogramos en toneladas. Teniendo ambas unidades podemos elegir la que nos convenga a la hora de hacer el analisis de los datos.

4 Gráfico de barras.

La estructura en capas de ggplot2 te anima a diseñar y construir gráficos de forma estructurada. Es útil considerar el propósito de cada capa antes de añadirla.

4.1 Gráfico de barras apiladas: provincias, variedad de tabaco y toneladas.

ggplot(TABACO, aes(x = TONELADAS, y = PROVINCIA, fill = TIPO_TABACO)) +
  geom_bar(stat = "identity") +
  labs(x = "Toneladas de tabaco", y = "Provincia", fill = "Variedad") +
  theme_minimal() +
  scale_x_continuous(limits = c(0, 40000)) 
Figura 1. Gráfico de barras apliadas.

Figura 1. Gráfico de barras apliadas.

La función “scale_x_continuous” nos permite modificar la escala y sus valores en el eje X, que en este caso representa las toneladas de tabaco. Es importante saber que, conociendo la base de datos, podemos determinar los valores máximos y mínimos que nos interesan. Por ejemplo, se puede determinar que los mismos no sobrepasan las 40000 toneladas de tabaco, por lo que ese será nuestro máximo en el intervalo.

4.2 Gráfico de barras apiladas: provincias, variedad de tabaco y porcentaje.

ggplot(TABACO, aes(x = TONELADAS, y = PROVINCIA, fill = TIPO_TABACO)) +
  geom_bar(stat = "identity", position = "fill") +
  scale_x_continuous(labels = scales::percent) +
  labs(x = "Porcentaje de tabaco", y = "Provincia", fill = "Variedad") +
  theme_minimal()

Análisis de los gráficos obtenidos: nótese que las dos gráficas realizadas muestran dos tipos de lecturas distintas de los datos.

- Gráfico de barras apiladas: provincias, variedad de tabaco y toneladas: este gráfico nos permite analizar de manera visual las toneladas por variedad de tabaco en cada provincia. Nos sirve para comparar qué provincias producen más tabaco en términos de volumen total, por ejemplo, Jujuy y Misiones producen mayor cantidad que Catamarca o Chaco. Se puede observar también que, en el caso de Catamarca, se produce la variedad Burley con una cantidad aproximada de 1000 toneladas. Si se presta atención, en este tipo de gráficas no podemos distinguir las demás variedades producidas en la provincia ni tampoco sus cantidades, puesto que al ser valores pequeños en comparación con las demás provincias, las subdiviciones de las barras son casi imperceptibles.

- Gráfico de barras apiladas: provincias, variedad de tabaco y porcentaje: en este gráfico, se observan los porcentajes de producción de cada variedad correspondiente a cada provincia. Cada barra equivale al 100% de la producción de tabaco y los colores a qué proporción del total corresponde a cada variedad. Esta gráfica sirve para comparar las cantidades porcentuales de producción en cada variedad.

5 Gráfico de torta: tipos de tabaco producidos en el país.

ggplot(TABACO, aes(x = " ", y = " ", fill = TIPO_TABACO)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar(theta = "y") +
  theme_sub_axis_bottom() +
  theme(plot.title = element_text(hjust = 0.5))

Los gráficos y analisis realizados fueron llevados a cabo con una base de datos que cuenta solo con variables cuantitativas discretas y variables cualitativas, pero ¿cómo podemos representar en gráficos variables cuantitativas contínuas?

6 Gráficos para variables cuantitativas contínuas.

Se seguirán los mismos pasos iniciales que para los gráficos anteriores, se instalan y se activan los paquetes correspondientes.

library(tidyverse)
library(readxl)

Cargamos la base de datos “iris”. En este caso, la base de datos usada ya está subida al software en su paquete base, lo que permite visualizar la misma solo mencionandola en la interfaz de la forma que se observa a continuación.

iris
glimpse(iris)
## Rows: 150
## Columns: 5
## $ Sepal.Length <dbl> 5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.…
## $ Sepal.Width  <dbl> 3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7, 3.…
## $ Petal.Length <dbl> 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.…
## $ Petal.Width  <dbl> 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.…
## $ Species      <fct> setosa, setosa, setosa, setosa, setosa, setosa, setosa, s…

Como se puede observar, la base de datos se encuentra en inglés, por lo que, de ser necesario, es recomendable cambiar los nombres de la base de datos al español.

Ordenamos la base de datos. En este paso renombramos las columnas de la base de datos, que originalmente se encontraba en inglés, para hacer más fácil su comprensión, por ejemplo, de “Sepal.Lenght” se pasó a “Longitud.Sepalo”. Nótese que también se renombró la base de datos propiamente dicha, pasando de “iris” a “IRIS” para evitar confusiones al momento de realizar los correspondientes análisis.

IRIS <- iris %>% 
  rename(Longitud.Sepalo = Sepal.Length,
         Ancho.Sepalo = Sepal.Width,
         Longitud.Petalo = Petal.Length,
         Ancho.Petalo = Petal.Width,
         ESPECIE = Species)
glimpse(IRIS)
## Rows: 150
## Columns: 5
## $ Longitud.Sepalo <dbl> 5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4,…
## $ Ancho.Sepalo    <dbl> 3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7,…
## $ Longitud.Petalo <dbl> 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5,…
## $ Ancho.Petalo    <dbl> 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2,…
## $ ESPECIE         <fct> setosa, setosa, setosa, setosa, setosa, setosa, setosa…

Como puede observarse, las variables de la base de datos luego del uso de la función “rename”, obtuvieron el nombre elegido por el operador.

6.1 Histograma.

ggplot(IRIS, aes(Ancho.Sepalo)) +
  geom_histogram(bins = 15, color = "black", fill = "pink")

En el eje X encontramos la variable del ancho de los sepalos, mientras que en el eje Y se observa una variable llamada “count” que corresponde a la cantidad de observaciones. Cada barra muestra cuantas flores u observaciones tienen un ancho del sépalo dentro de un intervalo específico (también llamado “bin”).

6.2 Polígono de frecuencias.

ggplot(IRIS, aes(Ancho.Sepalo)) + 
  geom_freqpoly(bins = 15, binwidth = 0.25)

Si se observa el polígono de frecuencias y el histograma, se puede determinar que ambas representaciones analizan las mismas variables: conteo (count) y Ancho del sepalo. Si se comparan detenidamente ambas gráficas, se puede destacar que tienen una forma similar aunque se traten de tipos de gráficos distintos. Es importante recordad que en los polígonos de frecuencias las líneas se trazan a partir de las “marcas de clase” de un histograma, es decir, de los puntos medios de cada intérvalo (nótese que ambas gráficas tienen la misma cantidad de intérvalos). Es por este motivo que ambas gráficas mantienen una lógica y una tendencia semejantes.

6.3 Diagramas de disperción.

ggplot(IRIS, aes(Longitud.Petalo, Ancho.Petalo, shape = ESPECIE, color = ESPECIE)) +
  geom_point(size= 3)

En este chunk, se determina al software que realice el gráfico en función a la longitud de los pétalos (eje X) y al ancho de los pétalos (eje Y). Al mismo tiempo, se le ordena al programa que cambie la forma y el color de los puntos en el gráfico en función a la especie.

6.4 Gráfico de cajas y patillas.

El gráfico de cajas o boxplot, es una herramienta útil para representar la distribución de una variable cuantitativa. Se construye a partir del resumen de cinco números: el valor mínimo, el primer cuartil (Q1), la mediana (Q2), el tercer cuartil (Q3) y el valor máximo. Además, en este tipo de gráficos pueden identificarse posibles valores atípicos, proporcionando una visión clara de la dispersión y la simetría de los datos.

ggplot(IRIS, aes(Longitud.Sepalo, ESPECIE, color = ESPECIE)) + 
  geom_boxplot() +
  stat_summary(fun = mean, color = "black")
## Warning: Removed 3 rows containing missing values or values outside the scale range
## (`geom_segment()`).

6.4.1 ¿Cómo podemos interpretar este grafico?

  • En el eje X: se observa la longitud de los sepalos.
  • Eje Y: se observa la especie en tres categorías: setosa, versicolor y virginica.
  • Los colores: indican que cada especie está diferenciada por color (rojo, verde y azul).
  • Los puntos de color negro: indican la media de los valores de la longitud del sepalo para cada especie. Si analizamos la especie Setosa (rojo): podemos destacar que presenta los valores más bajos de la variable medida; se observa una caja más compacta, es decir, menor variabilidad; no hay valores atípicos evidentes. Si analizamos la especie Versicolor (verde): en ella existen valores intermedios, con una dispersión moderada; representa una transición entre las otras dos especies (tiene los valores intermedios entre setosa y Virginica). Si analizamos la especie Virginica (azul): Esta muestra los valores más altos de la variable seleccionada, se observa una caja más amplia, es decir, mayor variabilidad dentro de la especie. En este caso, se observa un valor atípico (outlayer) a los 5cm. Si comparamos entre especies: Podemos destacar que existe una separación clara entre las medianas de las tres especies, lo que indica una diferenciación significativa entre especies, lo cual respalda su uso como variable discriminante en análisis estadísticos o modelos de clasificación.

6.5 Gráfico de lineas.

Para este tipo de gráficos tenemos que tener en cuenta que vamos a representar como varía una determinada variable (frecuencias, porcentajes, valores absolutos) en el tiempo, ya sea en días, meses o años. Se puede seleccionar un intervalo determinado para estudiar dicho cambio, ya sea para analizar la variabilidad en el pasado, o analizarla entre un momento del pasado y uno correspondiente al presente. Por ejemplo, para este gráfico se utilizará la base de datos “PP_77_22”, que tiene datos sobre la precipitación obtenidos en el periodo 1977-2022.

PP_77_22 <- read_excel("PP_77_22.xlsx")
glimpse(PP_77_22)
## Rows: 46
## Columns: 2
## $ ANIO <dbl> 1977, 1978, 1979, 1980, 1981, 1982, 1983, 1984, 1985, 1986, 1987,…
## $ PP   <dbl> 666.4, 553.2, 675.7, 532.4, 528.7, 410.9, 569.2, 484.0, 610.2, 37…
PP_77_22 <- PP_77_22 %>% 
  rename(AÑO = ANIO,
         PRECIPITACION = PP)

Se utiliza la opción “rename” para cambiar los nombres de las columnas.

glimpse(PP_77_22)
## Rows: 46
## Columns: 2
## $ AÑO           <dbl> 1977, 1978, 1979, 1980, 1981, 1982, 1983, 1984, 1985, 19…
## $ PRECIPITACION <dbl> 666.4, 553.2, 675.7, 532.4, 528.7, 410.9, 569.2, 484.0, …

Si se vuelve a utilizar la opción “glimpse”, se puede ver el cambio en los nombres de las variables de la manera que se indicó anteriormente.

ggplot(PP_77_22, aes(AÑO, PRECIPITACION)) +
  geom_line()

ggplot(PP_77_22, aes(AÑO, PRECIPITACION)) +
  geom_line(color = "blue", linetype = 2, lwd = 1 )

Con la opción “linetype” perteneciente al script presentado anteriormente se puede cambiar el tipo de lineas del gráfico, como se observa en el ejemplo.

6.5.1 Gráfico de líneas para un periodo de año determinado.

Como se mencionó anteriormente, es posible determinar un intervalo de tiempo en el cual se quiera analizar el cambio de una variable, por ejemplo: la variación de la precipitación de 1999 a 2022.

PP_00_22 <- PP_77_22 %>%
  filter(AÑO >= 2000 & AÑO <= 2022)
PP_00_22

Es importante destacar que en este momento se determina un nuevo nombre para la base de datos (PP_00_22 <- PP_77_22), la cual contiene datos que se encuentran comprendidos solamente en el periodo determinado, en este caso de 1999 a 2022. Este intervalo se determina con la función “filter(AÑO >= 1999 & AÑO <= 2022)” colocando en primer lugar el año de inicio del intérvalo y en segundo el año final.

Seguidamente pueden aparecer nuevas incógnitas, como por ejemplo: la precipitación prfomedio para dicho periodo.

PP_00_22 %>%
  filter(AÑO >= 2000 & AÑO <= 2022) %>% 
  summarise(mean(PRECIPITACION))

En este momento, se sigue la misma lógica que antes, utilizando la base de datos y filtrando los mismos con un periodo de tiempo comprendido de 1999 a 2022. Se le agrega la opción “summarise”, que es utilizada para determinar el valor de la precipitación promedio, o la media. Una información tan importante como el promedio de precipitaciones también puede ser representado gráficamente.

6.6 Gráfico de lineas con representación de la media.

ggplot(PP_00_22, aes(AÑO, PRECIPITACION)) +
  geom_line(color = "blue") +
  geom_hline(yintercept = 414.55, color = "red")

Como se observa en el script, representar la media en un gráfico de lineas es tan fácil como agregar la opción “geom_hline(yintercept = 414,55)”, IMPORTANTE: el número agregado en el script corresponde al número obtenido al calcular la media anteriormente.

¿Cómo se puede interpretar este gráfico? En los primeros años (desde fines de los 90s a comienzo de los 2000) se observa una marcada dismiución de la precipitacón, alcanzando su punto más bajo en el año 2003. Sim embargo, desde 2010 se puede destacar un aumento progresivo de la misma aunque con algunas fluctuaciones notabes. En el periodo 2015-2020, las precipitaciones parecen estabilizarse alrededor o por encima de la media. El gráfico evidencia una alta variabilidad interanual, ya que se observan años muy secos (por debajo de los 300mm/año) y otros muy húmedos (por encima de los 600mm/año). Esto sugiere un régimen de precipitaciones irregular, lo cual podría estar influido por fenómenos climáticos como: el niño, la niña, o el cambio climático. Respecto a la media (414,55mm/año), la precipitación de los años entre los 2000 y 2010 pueden observarse debajo de la misma, y en los años posteriores a 2010 se presentan valores picos por encima de ella, indicando un posible cambio o recuperaciónen el régimen hídrico.