Para poder importar datos de EXCEL con RStudio y su posterior manipulacion dentro del mismo sistema R, hay que considerar que debemos de tener instalado de forma adicional al propio sistema R, un paquete especifico para tal actividad; lo anterior, debido a que hay miles de paquetes de R listos para ser incorporados al sistema R, por lo que, el navegar por todos ellos resulta un verdadero desafio para cada usuario. Es por esto que el sistema R para ser usado en el dia con dia debera estar conformado por el sistema R y la paqueteria de R que se requiera de acuerdo a las necesidades especificas de cada proyecto.
Para el caso que nos ocupa, que es la Importacion de datos de EXCEL con RStudio, estan los paquetes xlsx y Readxl. Estos paquetes ayudan a leer y escribir archivos de Microsoft Excel desde R. Tambien sirven para exportar hojas de calculo desde Excel.
El paquete xlsx proporciona un control programático de los archivos de Excel utilizando R. Una API de alto nivel permite al usuario Para leer una hoja de un documento xlsx en un data.frame y escribir un archivo data.frame en un archivo. Inferior Permite la manipulación directa de hojas, filas y celdas. Por ejemplo, el usuario tiene control para establecer colores, fuentes, formatos de datos, añadir bordes, ocultar / mostrar hojas, agregar / quitar filas,añadir / quitar hojas, etc.
Para instalar un paquete R, hay que abrir una sesion R y escribir en la linea de comandos lo siguiente:
Para el paquete Readxl:
**install.packages("< Readxl >")**
Para el paquete xlsx:
**install.packages("< xlsx >")**
R descargara el paquete solicitado, por lo que, tendra que estar conectado a Internet. Una vez que se haya instalado un paquete, el contenido estara disponible para usarlo en la sesion R actual, escribiendo en la linea de comnands lo siguiente:
Para el paquete Readxl:
**library("< Readxl >")**
Para el paquete xlsx:
**library("< xlsx >")**
Estos paquetes proporcionan un control programatico de los archivos de Excel utilizando R. Una API de alto nivel permite al usuario leer una hoja de un documento xlsx en un archivo data.frame y escribir un archivo data.frame en un archivo. Esta funcionalidad permite la manipulacion directa de hojas, filas y celdas. Por ejemplo, el usuario tiene control para establecer colores, fuentes, formatos de datos, anadir bordes, ocultar / mostrar hojas, anadir / quitar filas, anadir / quitar hojas, etc.
La importacion de datos en R es un paso necesario que, a veces, puede llegar a ser muy intensivo. Para facilitar esta tarea, RStudio incluye ciertas caracteristicas para importar datos de: archivos xls, xlsx.
alt text
Importacion de datos
Las funciones de importacion de datos se pueden acceder desde el Panel general o desde el menu de herramientas. Los importadores se agrupan en 3 categorias: datos delimitados, datos de Excel y datos estadisticos. Para acceder a esta funcion, utilice el menu desplegable Importar conjunto de datos del panel general:
alt text
O bien a traves del menu Herramientas, seguido por el submenu Importar conjunto de datos:
alt text
El importador de Excel proporciona soporte para:
Por ejemplo, se puede importar con facilidad un archivo xls de data.gov pegando esta url http://www.fns.usda.gov/sites/default/files/pd/slsummar.xls y seleccionando importar.
Observe que este archivo contiene tablas y, por lo tanto, requiere que se eliminen las primeras filas.
alt text
Podemos limpiar esto saltando 6 filas de este archivo y desmarcando la casilla de verificaciOn Primera fila como nombres.
El archivo se ve mejor, pero algunas columnas se muestran como cadenas cuando son claramente datos numericos. Podemos arreglar esto seleccionando numerico en el menu desplegable de la columna.
El paso final es hacer clic en importar para ejecutar el codigo bajo Previsualizacion de codigo e importar los datos en RStudio, el resultado final debe verse de la siguiente manera:
La funcion read.xlsx proporciona una API de alto nivel para leer datos de una hoja de calculo de Excel. Llama a varias funciones de bajo nivel en el proceso. Su objetivo es proporcionar la conveniencia de read.table tomando prestado de su firma.
La funcion extrae el valor de cada celda no vacia de la hoja de calculo en un vector de lista de tipos conservando el tipo de datos en una forma rectangular.
Excel almacena internamente las fechas y hora como valores numericos y no realiza un seguimiento de las zonas horarias y DST. Cuando se introduce una columna de fecha y hora en R, se convierte en la clase POSIXct con un huso horario GMT. Pueden aparecer errores de redondeo ocasionales y la representacion de cadena de R y Excel difiere en un segundo. Para read.xlsx2 trae una columna datetime como numerica y luego convierte a la clase POSIXct o Date.
La funcion read.xlsx2 hace mas trabajo en Java para lograr un mejor rendimiento un orden de magnitud mas rapido en las hojas con 100,000 celulas o mas. El resultado de read.xlsx2 sera en general diferente de read.xlsx, ya que internamente read.xlsx2 utiliza readColumns que esta adaptado para datos tabulares. Valor
Un data.frame o una lista, dependiendo del argumento as.data.frame. Si algunas de las columnas se leen como NA es una indicacion de que el argumento colClasses no se ha establecido correctamente. Si la hoja esta vacia, devuelva NULL. Si la hoja no existe, devuelva un error.
. Ejemplos
### Bibliografia ###
Importing Data with RStudio Autor: Javier Luraschi Enero 11, 2017 URL: https://support.rstudio.com/hc/en-us/articles/218611977-Importing-Data-with-RStudio
Read, write, format Excel 2007 and Excel 97/2000/XP/2003 files Provide R functions to read/write/format Excel 2007 and Excel 97/2000/XP/2003 file formats. Autor: Adrian A. Dragulescu URL http://code.google.com/p/rexcel/, http://groups.google.com/group/R-package-xlsx BugReports https://code.google.com/p/rexcel/issues/list
Quick list of useful R packages Autor: Garrett Grolemund Enero 12, 2017 URL: https://support.rstudio.com/hc/en-us/articles/201057987-Quick-list-of-useful-R-packages
Youtube URL:https://www.youtube.com/watch?v=m4xwKXj_y0o Yputube URL:https://www.youtube.com/watch?v=JuDiwkuCgho