Marcos Alberto Rosas Lara

Introducción

Microsoft Excel es la hoja de cálculo más utilizada en el mundo, algunos sitios de dependencias de gobierno como el INEGI, SCT, etc. Nos permiten exportar información en este tipo de archivos, asimismo son muchísimas las empresas y personas que utilizan este programa para guardar sus bases de datos.

De ahí lo importante que conozcamos la manera de importar y exportar información desde R a archivos de Microsoft Excel.

Aunado a la función de exportar información y gráficos a archivos de Excel, se tiene la posibilidad de crear estos archivos y editarlos. El presente trabajo pretende dar una guía rápida en la utilización del paquete XLSX para R.

Requerimientos del sistema

Para poder empezar a utilizar el paquete XLSX en R, se necesita tener previamente instalada la versión de 64 bits de java y los paquetes para R: rJava y xlsxjars.

Instalar xlsx en R

para instalar xlsx se puede utilizar el siguiente comando:

#Instalar paquete xlsx
install.packages("xlsx")

Cargar xlsx en R

Con el fin de evitar posibles mensajes de error se sugiere utilizar los siguientes comandos para cargar xlsx.

#Cargar paquete xlsx
library("rJava")
library("xlsxjars")
library("xlsx")

Leer una hoja de un libro de Excel.

Para poder utilizar la información de una hoja de cálculo, se requiere tener bien estructurada la tabla de datos y que xlsx la pueda leer correctamente, para ello utilizamos la siguiente estructura de comandos que nos permiten importar la información y utilizarla como si se tratara de un data set.

Nombre que se dará a la tabla <- read.xlsx(“nombre y extensión del archivo”, sheeName = Nombre de la hoja del libro de excel, rowIndex= Rango de filas, colIndex= Rango de Columnas)

Ejemplo:

#Abrir Hoja de Excel y leer área de base de datos
Matrimonios <- read.xlsx("Matrim.xlsx", #Nombre de archivo
                         sheetName = "1995", #Nombre de la hoja
                         rowIndex = 1:15, #Vector de filas
                         colIndex= 1:4, #Vector de columnas
                         header=TRUE) #La primer fila contiene los encabezados

Al ejecutar este comando podemos ya leer la información de la tabla en R e interactuar con los datos en todas las formas que R nos permite.

(Matrimonios)

La tabla nos muestra el numero de personas que se casaron en México en 1995 por edad y sexo.

Se pueden añadir comandos adicionales para definir el área a importar de la hoja de cálculo. En donde los argumentos de los comandos, pueden ser los siguientes:

File: Archivo a leerse 

sheetName: Nombre de la hoja en el archivo 

sheetIndex: Número de la hoja en el archivo

rowIndex: Vector numérico que indica las filas que desea extraer. Si NULL, todas las filas encontradas se extraerán, a menos que se especifique startRow o endRow

colIndex: Vector numérico que indica las columnas que desea extraer. Si NULL, se extraerán todas las columnas encontradas

as.data.frame: Valor lógico que indica si el resultado debe ser coaccionado en un archivo data.frame. Si FALSE, el resultado es una lista con un elemento para cada columna.

Header: Valor lógico que indica si la primera fila correspondiente al primer elemento del vector rowIndex contiene los nombres de las variables.

ColClasses: Para read.xlsx un vector de caracteres que representa la clase de cada columna. Si el vector de caracteres es nombrado, los valores no especificados se toman como NA.

KeepFormulas: Valor lógico que indica si las fórmulas de Excel deben mostrarse como texto en R y no evaluadas antes de introducirlas.

Encoding: Codificación para las cadenas de entrada.

StartRow: Número que especifica el índice de la fila inicial. Para read.xlsx este argumento sólo está activo si rowIndex es NULL.

EndRow: Número que especifica el índice de la última fila a importar. Si es NULL, lea todas las filas de la hoja. Para read.xlsx este argumento sólo está activo si rowIndex es NULL.

Editar archivos en Excel

Al igual que para extraer la información tenemos que tomarla desde Microsoft Excel, al compartirla se vuelve importarnte el poder hacerlo en este formato de archivo. Para ello xlsx tiene la función de exportar información con el siguiente comando.

write.xlsx(x, file, sheetName="Sheet1",
col.names=TRUE, row.names=TRUE, append=FALSE)
write.xlsx2(x, file, sheetName="Sheet1",
col.names=TRUE, row.names=TRUE, append=FALSE)

En donde los argumentos dados en los comandos, son los siguientes:

X (Marco de datos que se escribirá en el libro)

File (Ruta al archivo de salida)

SheetName (Cadena de caracteres a utilizar para el nombre de la hoja.)

Col.names, row.names (Valor lógico que especifica si los nombres de columnas / nombres de filas de x deben escribirse en el archivo)

Append (Valor lógico que indica si se debe añadir x a un archivo existente)

Add a new chunk by clicking the Insert Chunk button on the toolbar or by pressing Ctrl+Alt+I.

When you save the notebook, an HTML file containing the code and output will be saved alongside it (click the Preview button or press Ctrl+Shift+K to preview the HTML file).

Dar formato a Celdas

S3 method for class GCellStyleG cs1 + object

Ejemplo:

cs <- CellStyle(wb) +
Font(wb, heightInPoints=20, isBold=TRUE, isItalic=TRUE, name="Courier New", color="orange") +
Fill(backgroundColor="lavender", foregroundColor="lavender", pattern="SOLID_FOREGROUND") +
Alignment(h="ALIGN_RIGHT")

Bordes

addDataFrame(x, sheet, col.names=TRUE, row.names=TRUE, startRow=1, startColumn=1, colStyle=NULL, colnamesStyle=NULL, rownamesStyle=NULL, showNA=FALSE, characterNA="", byrow=FALSE)

Principales argumentos

CellRange   Cadena que especifica el rango de celdas. 

ColIndex    Vector numérico que especifica las columnas que desea utilizar en el tamaño automático.

ColSplit    Valor numérico para la columna a dividir.

ColWidth        Valor numérico para especificar el ancho de la columna. Las unidades están en 1 / 256ths de un ancho de carácter.

Denominador Valor numérico que representa el denomiador de la relación de zoom.

EndColumn   Valor numérico para la columna final.

EndRow      Valor numérico para la fila final.

Ind     Valor numérico que indica la región fusionada que desea eliminar.

Numerator       Valor numérico que representa el numerador de la relación de zoom.

Position    Caractér. Los valores válidos son "PANE_LOWER_LEFT", "PANE_LOWER_RIGHT", "PANE_UPPER_LEFT", "PANE_UPPER_RIGHT".

RowSplit    Valor numérico para la fila para dividir.

Sheet   Objeto de hoja de cálculo.

SheetIndex  Valor numérico para el índice de hoja de cálculo. 

StartColumn Valor numérico para la columna de inicio. 

StartRow    Valor numérico para la fila de inicio.

XSplitPos   Valor numérico para la posición horizontal de split en 1/20 de un punto. 

YSplitPos   Valor numérico para la posición vertical de split en 1/20 de un punto. 

Wb      Objeto de libro.

Conclusion

La funcionabilidad que me agrado fue la de poder importar datos directamente desde Excel sin tener que estar manipulando archivos y creando datasets en forma manual.

En lo referente a la exportación y edición de archivos para compartir información en excel se vuelve bastante complicado, me parece una mejor opción hacerlo directamente desde R en Markdown y compartirlo en html o bien PDF.

Fuentes:

[Rstudio] (https://rstudio-pubs-static.s3.amazonaws.com/253296_a20608edefa34683855558551554aa8f.html)

[Edición html] (https://www.rstudio.com/wp-content/uploads/2015/03/rmarkdown-spanish.pdf)

[Tutoriales] (https://www.tutorialspoint.com/r/r_excel_files.htm)

[Adrian A. Dragulescu] (https://cran.r-project.org/web/packages/xlsx/xlsx.pdf)

