Este es resúmen del curso de R y R Studio en A2 Capacitación
Instalar desde la consola:
install.packages(“nombre-de-la-librería”)
Ejemplo: install.packager(“readxl)
Esta librería sirve exclusivamente para importar datos desde Excel (.xls y .xlsx) a R.
Para qué sirve: Permite leer hojas de cálculo, seleccionar rangos específicos de celdas y manejar nombres de columnas complejos.
Ventaja clave: No requiere dependencias externas (como Java), lo que la hace muy ligera y fácil de instalar.
Su objetivo es ayudarte a obtener “datos ordenados” (tidy data).
Para qué sirve: Se usa para cambiar la estructura de tus tablas. Por ejemplo, si tienes meses en columnas y quieres pasarlos a una sola columna de “Fecha”, usas tidyr.
Funciones comunes: pivot_longer() (alargar la tabla) y pivot_wider() (ensanchar la tabla).
Es considerada la “gramática de la manipulación de datos”. Es la herramienta que más usarás para limpiar y transformar tus tablas.
Para qué sirve: Realiza operaciones de filtrado, selección y cálculo sobre tus datos.
Funciones comunes:
filter(): Para elegir filas según condiciones.
select(): Para quedarte solo con ciertas columnas.
mutate(): Para crear nuevas columnas basadas en cálculos.
summarize(): Para obtener promedios, totales o conteos.
Es la librería estándar para la visualización de datos en R, basada en la “Gramática de Gráficos”.
Para qué sirve: Crear gráficos de alta calidad (barras, dispersión, líneas, mapas) mediante un sistema de capas.
Concepto clave: Construyes un gráfico añadiendo capas: primero los datos, luego la geometría (geom_point, geom_bar), luego las etiquetas, etc.
El Tidyverse no es solo una librería, sino una colección de paquetes de R diseñados para trabajar en conjunto bajo una misma filosofía y gramática. Su objetivo es hacer que el flujo de trabajo de la ciencia de datos sea más coherente, legible y eficiente.
Cuando instalas y cargas library(tidyverse), en realidad estás cargando varios paquetes a la vez que comparten una estructura común.
Los 8 paquetes “Core” del Tidyverse Aunque el ecosistema tiene muchos más, estos son los pilares que se cargan automáticamente:
ggplot2: Para visualización de datos (la gramática de los gráficos).
dplyr: Para manipulación y transformación de datos.
tidyr: Para dar formato y “limpiar” la estructura de las tablas.
readr: Para leer datos rectangulares (como archivos .csv, .tsv y .fwf). Es más rápido que las funciones base de R.
purrr: Para programación funcional (reemplaza los ciclos for por funciones más potentes como map).
tibble: Una versión moderna y mejorada de los “data.frames” clásicos de R.
stringr: Para manipular cadenas de texto (strings) de forma sencilla.
forcats: Para trabajar con variables categóricas o factores.
La magia del Tidyverse reside en tres conceptos principales:
El Pipe (%>% o |>) Permite encadenar funciones. En lugar de escribir código “anidado” difícil de leer, escribes una secuencia de pasos lógica:
datos %>% filtrar() %>% agrupar() %>% resumir()
Consistencia: Todas las funciones del Tidyverse esperan un data frame como primer argumento y devuelven un data frame. Si aprendes a usar una, aprenderás las demás muy rápido.
Legibilidad: El código está diseñado para leerse casi como una oración en inglés, lo que facilita mucho la colaboración y el mantenimiento a largo plazo.
Ejemplo de 02_poa.Rmd: ```markdown Aquí
redactas todo lo referente al curso de R. Puedes usar tablas de R o
texto normal.
```{r} # Tu código de R para crear gráficos
Para leer datos mediante un archivo de excel utilizamos el siguiente comando:
**Leer archivo de excel xlsx:
## # A tibble: 6 × 12
## estado sex edad asiste pos_ocu ing_salarios niv_edu anios_esc hrsocup
## <chr> <chr> <dbl> <chr> <chr> <chr> <chr> <dbl> <dbl>
## 1 Hidalgo Mujer 56 No Trabaja… Más de 1 ha… Secund… 12 45
## 2 Durango Hombre 52 No Trabaja… Más de 3 ha… Medio … 17 66
## 3 Jalisco Hombre 25 No Trabaja… Más de 3 ha… Medio … 15 48
## 4 Tabasco Mujer 50 No Trabaja… Más de 1 ha… Secund… 9 46
## 5 Tabasco Mujer 41 No Trabaja… Hasta un sa… Medio … 17 5
## 6 Nuevo León Mujer 36 No Trabaja… Más de 1 ha… Secund… 9 50
## # ℹ 3 more variables: ingreso_mensual <dbl>, num_trabajos <chr>,
## # tipo_empleo <chr>
dim(), dim.data.frame()
## [1] 10280 12
colnames()
## [1] "estado" "sex" "edad" "asiste"
## [5] "pos_ocu" "ing_salarios" "niv_edu" "anios_esc"
## [9] "hrsocup" "ingreso_mensual" "num_trabajos" "tipo_empleo"
Los 3 componentes esenciales
El Data Frame (datos): Es la tabla de donde sacas la información.
Para que tu código funcione, necesitas estos tres ingredientes:
Las Estéticas (aes): Es la “traducción” de tus datos a cosas que podemos ver. Aquí decides qué columna va al eje X, cuál al eje Y y si alguna definirá el color.
La Geometría (geom_): Es la forma física que tomarán los datos (puntos, barras, líneas).
Para entender cómo funciona ggplot2, lo más útil es imaginar que estás pintando un cuadro por capas. No intentas crear todo el gráfico de un solo golpe, sino que vas añadiendo elementos uno encima del otro.La gramática básica de un gráfico sigue siempre esta estructura:\[\text{Gráfico} = \text{Datos} + \text{Geometría} + \text{Estéticas}\]
ggplot(datos)+ _point(mapping = aes(x=anios_esc, y=ingreso_mensual, colour = tipo_empleo))
otro ejemplo