XLSX es uno de los potentes paquetes de R para leer, escribir y formatear archivos de Excel. Es una solución basada en java y está disponible para Windows, Mac y Linux. Funciona tanto para los formatos de archivo Excel 2007 y Excel 97/2000 / XP / 2003 (formatos de archivo xls y xlsx). El paquete xlsx proporciona un control programático de los archivos de Excel utilizando R.

Este artículo es una guía de inicio rápido para manipular archivos de Excel en R utilizando el paquete xlsx.

Instalar y cargar el paquete xlsx

Para empezar a utilizar el paquete xlsx, debes iniciar con la instalación del mismo, ejecutando la instrucción siguiente:

install.packages(“xlsx”) library(“xlsx”)

alt text

alt text

Leer un archivo de Excel

alt text

alt text

Las funciones R read.xlsx () y read.xlsx2 () se pueden utilizar para leer el contenido de una hoja de cálculo de Excel en un data.frame de R.

La diferencia entre estas dos funciones es que: . read.xlsx conserva el tipo de datos. Intenta adivinar el tipo de clase de la variable correspondiente a cada columna de la hoja de cálculo. Tenga en cuenta que la función read.xlsx es lenta para conjuntos de datos grandes (hoja de cálculo con más de 100 000 células). . read.xlsx2 es más rápido en archivos grandes en comparación con la función read.xlsx.

Los formatos simplificados de estas dos funciones son:

read.xlsx(file, sheetIndex, header=TRUE, colClasses=NA)

read.xlsx2(file, sheetIndex, header=TRUE, colClasses=“character”)

. File : la ruta al archivo para leer

. SheetIndex : un número que indica el índice de la hoja a leer; Por ejemplo: use sheetIndex = 1 para leer la primera hoja

. Header : un valor lógico. Si TRUE, la primera fila se utiliza como los nombres de las variables

. ColClasses : un vector de caracteres que representa la clase de cada columna

El argumento File será en este caso el nombre del archivo donde está almacenada la información, siendo obligatorio indicar un número de hoja en el segundo argumento sheetIndex o bien su nombre con el parámetro sheetName. Sin más parámetros la función leerá todo el contenido de la hoja indicada, generará un data.frame incluyendo títulos de columnas y lo devolverá. En caso de que nos interese leer un conjunto concreto de celdillas, no la hoja completa, recurriremos a los parámetros colIndex y rowIndex para especificar qué columnas y qué filas han de recuperarse. Estas no tienen necesariamente que ser contiguas.

Ejemplos:

library(xlsx) read.xlsx(“Estudiantes.xlsx”), sheetIndex=“1”, header=TRUE, colClasses=NA)

alt text

alt text

Escribir en Archivo de Excel

Las funciones write.xlsx() y write.xlsx2(), se usan para exportar datos del lenguaje R a una hoja de trabajo de Ms Excel.

La forma de llamar estas funciones son:

write.xlsx(x, file, sheetName=“Sheet1”, col.names=TRUE, row.names=TRUE, append=FALSE)

write.xlsx2(x, file, sheetName=“Sheet1”, col.names=TRUE, row.names=TRUE, append=FALSE)

Los parámetros que usa la función es:

. x: Bloque de datos a escribir en el libro de Excel.

. file: Nombre del archivo . sheetName : Nombre de la hoja.

. col.names, row.names : Especifica si los nombre de las columnas y filas se escribirán en el archivo.

. append: Especifica si el bloque de datos se agregara a un archive existente.

Ejemplos:

library(xlsx) write.xlsx(Estudiantes, file=“Estudiantes.xlsx”, sheetName=“Base”)

En resumen, el paquete xlsx es un programa que ofrece soluciones mas alla de un excel y sin duda su utilización y alcance será de gran ayuda y soporte para trabajos altamente especializados en cualquier ambito profesional.