_________________________________________________________________________________________________________________________
La estadística desempeña un papel fundamental en el campo de las Ciencias Agrarias al permitirnos comprender y analizar los datos que surgen de investigaciones y estudios relacionados con los sistemas agropecuarios. Con el propósito de proporcionar a nuestros estudiantes las herramientas necesarias para enfrentar estos desafíos con rigor y precisión, el presente material se presenta como una guía inicial en el uso de dos herramientas fundamentales para el análisis estadístico y la manipulación de datos: el lenguaje de programación R y el entorno de desarrollo integrado RStudio. Desde la Cátedra de Biometría, estamos convencidos de que el camino hacia la excelencia se construye a través del trabajo constante y la mejora continua. Basados en esta premisa, consideramos de suma importancia que los estudiantes adquieran competencias en el uso de un software de vanguardia a nivel mundial para el análisis de datos, como lo son R y RStudio. De esta forma esperamos contribuir en la formación integral de los futuros profesionales.
El software R es un lenguaje de programación y un entorno de software ampliamente utilizado en el análisis estadístico de datos y su visualización. Actualmente es uno de los más utilizados debido a su flexibilidad y la gran cantidad de paquetes disponibles para realizar una variedad de tareas estadísticas y de modelado.
RStudio, por otro lado, es un entorno de desarrollo integrado (IDE) para R que proporciona una interfaz de usuario amigable y diversas herramientas para facilitar la escritura de código, la visualización de datos, la depuración y la colaboración en proyectos de análisis de datos. A continuación se describe el procedimiento para instalar R y RStudio bajo Windows.
Al respecto, los autores del libro Moderndive (2024) realizan la siguiente analogía que permite comprender el funcionamiento de estos softwares: “en su forma más simple, R es como el motor de un automóvil, mientras que RStudio es como el tablero de instrumentos de un automóvil” (Figura 1).
Podemos descargar la versión de escritorio de R y RStudio desde el siguiente link:
A continuación verá la siguiente página:
Deberá presionar en “DESCARGAR RSTUDIO” y seguir los pasos que indica el software para su instalación.
Posit Cloud es una solución disponible en la nube que permite a cualquier usuario realizar, compartir, enseñar y aprender en línea. Anteriormente conocido como RStudio Cloud, Posit Cloud le permite acceder directamente en su navegador, sin necesidad de instalar el software estadístico R y RStudio en su computadora.
Para acceder al sitio y loguearse ingrese al siguiente link:
RStudio, como entorno de desarrollo integrado (IDE) para el lenguaje de programación R, presenta cuatro ventanas principales que estructuran y facilitan el flujo de trabajo del usuario.
Estas ventanas son:
Ventana 1: Editor de sintaxis (scripts). Esta ventana proporciona un espacio de trabajo interactivo donde los usuarios pueden escribir, editar y ejecutar código en R. El editor de scripts es fundamental para la creación y modificación de programas, análisis de datos y desarrollo de algoritmos. Además, ofrece características como resaltado de sintaxis, autocompletado de código y sugerencias contextuales para mejorar la eficiencia y precisión del proceso de codificación.
Ventana 2: Consola de R. La consola de R es el entorno de ejecución donde se procesan y muestran los resultados de las operaciones y comandos introducidos por el usuario. Aquí es donde se interactúa directamente con el sistema R, permitiendo la evaluación de expresiones, la visualización de resultados y la interacción con objetos y funciones. La consola de R facilita la exploración dinámica de datos y el desarrollo iterativo de código.
Ventana 3: Panel de entorno e historial. Este panel proporciona información sobre el entorno de trabajo actual en R, incluyendo los objetos creados (como vectores, matrices, data frames) y funciones definidas, así como el historial de comandos previamente ejecutados. Permite una visión general de los elementos disponibles en la sesión actual, lo que facilita la gestión y exploración de objetos, y proporciona un registro de las acciones realizadas durante la sesión.
Ventana 4: Panel de Archivos, Gráficos, Paquetes, Ayuda y Visor. Este panel ofrece acceso a diferentes recursos y herramientas que complementan el desarrollo y análisis en R. Permite la navegación y gestión de archivos en el sistema de archivos, la visualización de gráficos generados por R, y la administración de paquetes instalados. Este panel es especialmente útil para la exploración de datos, la generación de visualizaciones y la gestión de la infraestructura de software asociada al análisis de datos en R. Además permite obtener ayuda sobre una determinada función o paquete.
En conjunto, estas ventanas proporcionan un entorno integrado y funcional que facilita la escritura de código, la ejecución de comandos, la exploración de datos y la generación de resultados en R, contribuyendo así a mejorar la eficiencia y productividad en el desarrollo y análisis de proyectos estadísticos
Los scripts son archivos de texto que contienen una serie de instrucciones o comandos que se ejecutan secuencialmente en el entorno de R. Estas instrucciones pueden incluir la manipulación de datos, operaciones estadísticas, visualizaciones, y también la definición y llamado de funciones.
Los objetos son estructuras de datos que almacenan información y resultados generados durante el proceso de análisis. Estos objetos pueden contener datos simples, como números o texto, así como también estructuras de datos más complejas, como matrices, data frames o listas. Sirven como contenedores flexibles que permiten a los usuarios almacenar, manipular y acceder a los datos de manera eficiente. Además, proporcionan una forma organizada y estructurada de trabajar con la información, lo que facilita la realización de operaciones estadísticas, cálculos matemáticos, generación de gráficos y otras tareas analíticas.
Al utilizar objetos en R, los usuarios pueden realizar operaciones sobre los datos de manera coherente y reproducible, lo que promueve un flujo de trabajo eficiente y facilita la comunicación de resultados en contextos académicos y científicos. Imagina que estos objetos son como cajas donde guardamos diferentes tipos de información, como números, palabras o incluso conjuntos de datos completos. Por ejemplo, podemos almacenar información sobre la temperatura del suelo, la humedad del aire o el rendimiento de los cultivos en diferentes objetos, lo que nos facilita realizar cálculos, generar gráficos y obtener conclusiones significativas a partir de estos datos.
Para crear un objeto, utilizamos el “operador de asignación” <-, que guarda un valor o resultado en una variable. Por ejemplo, el código x <- 5 asigna el valor 5 al objeto llamado x. Esto permite reutilizar el valor o los datos asignados en operaciones posteriores. Es importante dar nombres significativos a los objetos, ya que facilita la comprensión y lectura del código. Una buena práctica es revisar el entorno de trabajo (Environment) para ver qué objetos se han creado y qué tipo de datos almacenan.
Las funciones en R son unidades de código que ejecutan una tarea específica cuando se llaman o invocan. Son esenciales para realizar operaciones, manipulaciones y análisis de datos de manera eficiente y estructurada en el entorno de programación R. Estas funciones pueden aceptar argumentos como entrada, realizar operaciones y devolver resultados como salida. Las funciones en R, en general, tienen al menos tres elementos fundamentales:
Un nombre en minúsculas: Este nombre identifica de manera única la función y se emplea para invocarla y ejecutarla.
Paréntesis: La presencia de un par de paréntesis que encierran los argumentos que la función puede recibir.
Argumentos: Estos representan los valores que se entregan a la función para que esta lleve a cabo su tarea. Los argumentos pueden ser opcionales o requeridos, y algunos pueden contar con valores predeterminados.
nombre_de_la_funcion(argumento1, argumento2, ...)
Los paquetes representan colecciones sistemáticas de funciones, conjuntos de datos y documentación que extienden la funcionalidad de R. Estos recursos son desarrollados y mantenidos tanto por la comunidad de usuarios como por instituciones especializadas en análisis de datos y estadística.
Dichos paquetes o librerías, abarcan una amplia gama de utilidades, incluyendo, pero no limitándose a, herramientas para llevar a cabo análisis estadísticos complejos, manipulación eficiente de datos y visualización de resultados. Asimismo, pueden incluir conjuntos de datos de muestra que ejemplifican el uso de las funciones implementadas, así como documentación detallada que describe exhaustivamente el uso y la implementación de las funciones disponibles.
La instalación y carga selectiva de paquetes en R permite a los usuarios expandir de manera significativa las capacidades y la versatilidad del software, proporcionando así una solución eficaz para abordar problemas específicos de análisis de datos y estadística en diversos contextos académicos y de investigación.
Los paquetes se instalan de la siguiente manera:
install.packages(“nombre_del_paquete”)
Después de haber instalado un paquete, debes “cargarlo” para que esten disponibles las funciones que integran el paquete de interés. Esto lo hacemos usando el comando:
library(nombre_del_paquete)
En este caso, observa que el nombre_del_paquete no lleva comillas, es decir, estas se usan para instalar el paquete pero no para cargarlo.
Los principales paquetes de interés que utilizaremos que utilizaremos en el presente curso son:
R base: constituyen el conjunto fundamental de funciones y herramientas que forman el núcleo del entorno de programación R. Estos paquetes proporcionan funcionalidades esenciales para la manipulación de datos, estadísticas básicas, visualización y programación. Incluyen funciones para la gestión de objetos de datos, cálculos estadísticos básicos, generación de gráficos, entre otros. Dentro de este paquete, se incluyen funcionalidades como operaciones aritméticas básicas, estructuras de datos como vectores y matrices, funciones para lectura y escritura de archivos, generación de gráficos básicos, estadísticas descriptivas y funciones para programación y control de flujo, entre otros. Es importante tener en cuenta que R base proporciona un conjunto sólido de funciones para comenzar a trabajar en R, la mayoría de los análisis y visualizaciones más avanzados requieren el uso de paquetes adicionales.
readxl: proporciona funciones para leer datos en formato Excel (.xls y .xlsx) directamente en R. Permite importar hojas de cálculo de Excel de manera eficiente y sencilla, preservando la estructura de los datos y facilitando su posterior manipulación y análisis en el entorno R.
summarytools: ofrece herramientas para generar resúmenes descriptivos de datos de forma rápida y concisa en R. Permite obtener estadísticas descriptivas clave, como medidas de tendencia central, dispersión y distribución, así como tablas de frecuencia y matrices de correlación, facilitando la exploración inicial y la comprensión de conjuntos de datos. Estos resúmenes descriptivos son fundamentales en el análisis exploratorio de datos y en la presentación de resultados.
agricolae: diseñado específicamente para la realización de análisis de experimentos agrícolas en R. Proporciona funciones para la planificación, diseño y análisis de experimentos agrícolas, incluyendo la comparación de tratamientos, la evaluación de la significancia estadística y la generación de gráficos especializados para la presentación de resultados. Este paquete es especialmente útil en el ámbito agropecuario que necesita analizar datos experimentales y tomar decisiones basadas en evidencia estadística.
ggplot2: paquete para la visualización de datos en R que se basa en la gramática de gráficos (Grammar of Graphics). Permite crear gráficos de alta calidad y flexibilidad mediante la especificación de capas estéticas y geométricas, lo que facilita la personalización y la creación de visualizaciones complejas. ggplot2 se utiliza ampliamente en entornos académicos y profesionales para la exploración y comunicación de datos, ofreciendo una amplia gama de gráficos estáticos y dinámicos para representar diferentes tipos de datos y relaciones.
Tenga en cuenta las siguientes recomendaciones para una correcta sintaxis:
las funciones se escriben preferentemente en minúscula, aunque puede ser una buena idea nombrar a los objetos con letras mayúsculas, de esa forma al ver el Script de trabajo será más sencillo determinar visualmente qué función estamos utilizando y qué objetos estamos usando.
No puede utilizar espacios para nombrar un objeto. Por ejemplo, no se puede llamar “ALUMNOS 2024”, pero en cambio puede usar el guión bajo como separador o el punto. De esta forma “ALUMNOS_2024” o ALUMNOS.2024 son nombres válidos.
Tampoco puede utilizarse el guión medio (-), ya que el guión medio es un signo menos. Si usted indica “ALUMNOS-2024” lo que intentará hacer R es:
No puede usar como nombre de un objeto ningún símbolo matemático. Evite utilizar, para dar nombre a objetos, cualquier tipo de símbolo. Los símbolos se utilizarán para realizar otras acciones. Utilice sólo letras, guiones bajos y números.
No utilice la letra “ñ” para nombrar objetos. Es posible que el software no los reconozca correctamente y los codifique de manera errónea.
No utilice tildes para crear objetos dentro de R.
Los siguientes son algunos de los errores comunes que se cometen al trabajar con R:
Los proyectos en RStudio permiten organizar todo el trabajo relacionado con un análisis o investigación en un solo espacio de trabajo. Un proyecto agrupa archivos de scripts, datos, gráficos y documentos de resultados en carpetas, lo que facilita la navegación y evita la dispersión de archivos. Usar proyectos fomenta buenas prácticas de organización y reproducibilidad en el análisis de datos, permitiendo un flujo de trabajo eficiente.
Chester Ismay y Albert Y. Kim. ModernDive: Una inmersión moderna en R y Tidyverse. Recuperado de: https://moderndive.com/index.html
Chester Ismay and Patrick C. Kennedy. Acostumbrarse a R, RStudio y R Markdown. https://rbasics.netlify.app/
Mendoza Vega, J. B. R para Principiantes. Recuperado de: https://bookdown.org/jboscomendoza/r-principiantes4/
Yihui Xie, JJ Allaire, Garrett Grolemund. R Markdown: la guía definitiva. Recuperado de: https://bookdown.org/yihui/rmarkdown/