Contenido

Este es resúmen del curso de R y R Studio en A2 Capacitación

Ruta de estudio

Tu navegador no puede mostrar el PDF. Haz clic aquí para descargarlo.

Instalación Librerías

Instalar desde la consola: install.packages(“nombre-de-la-librería”)
Ejemplo: install.packager(“readxl)

1. readxl

Esta librería sirve exclusivamente para importar datos desde Excel (.xls y .xlsx) a R.

Para qué sirve: Permite leer hojas de cálculo, seleccionar rangos específicos de celdas y manejar nombres de columnas complejos.

Ventaja clave: No requiere dependencias externas (como Java), lo que la hace muy ligera y fácil de instalar.

2. tidyr

Su objetivo es ayudarte a obtener “datos ordenados” (tidy data).

Para qué sirve: Se usa para cambiar la estructura de tus tablas. Por ejemplo, si tienes meses en columnas y quieres pasarlos a una sola columna de “Fecha”, usas tidyr.

Funciones comunes: pivot_longer() (alargar la tabla) y pivot_wider() (ensanchar la tabla).

3. dplyr

Es considerada la “gramática de la manipulación de datos”. Es la herramienta que más usarás para limpiar y transformar tus tablas.

Para qué sirve: Realiza operaciones de filtrado, selección y cálculo sobre tus datos.

Funciones comunes:

filter(): Para elegir filas según condiciones.

select(): Para quedarte solo con ciertas columnas.

mutate(): Para crear nuevas columnas basadas en cálculos.

summarize(): Para obtener promedios, totales o conteos.

4. ggplot2

Es la librería estándar para la visualización de datos en R, basada en la “Gramática de Gráficos”.

Para qué sirve: Crear gráficos de alta calidad (barras, dispersión, líneas, mapas) mediante un sistema de capas.

Concepto clave: Construyes un gráfico añadiendo capas: primero los datos, luego la geometría (geom_point, geom_bar), luego las etiquetas, etc.

5. tidyverse

El Tidyverse no es solo una librería, sino una colección de paquetes de R diseñados para trabajar en conjunto bajo una misma filosofía y gramática. Su objetivo es hacer que el flujo de trabajo de la ciencia de datos sea más coherente, legible y eficiente.

Cuando instalas y cargas library(tidyverse), en realidad estás cargando varios paquetes a la vez que comparten una estructura común.

Los 8 paquetes “Core” del Tidyverse Aunque el ecosistema tiene muchos más, estos son los pilares que se cargan automáticamente:

  • ggplot2: Para visualización de datos (la gramática de los gráficos).

  • dplyr: Para manipulación y transformación de datos.

  • tidyr: Para dar formato y “limpiar” la estructura de las tablas.

  • readr: Para leer datos rectangulares (como archivos .csv, .tsv y .fwf). Es más rápido que las funciones base de R.

  • purrr: Para programación funcional (reemplaza los ciclos for por funciones más potentes como map).

  • tibble: Una versión moderna y mejorada de los “data.frames” clásicos de R.

  • stringr: Para manipular cadenas de texto (strings) de forma sencilla.

  • forcats: Para trabajar con variables categóricas o factores.

La magia del Tidyverse reside en tres conceptos principales:

El Pipe (%>% o |>) Permite encadenar funciones. En lugar de escribir código “anidado” difícil de leer, escribes una secuencia de pasos lógica:

datos %>% filtrar() %>% agrupar() %>% resumir()

  • Consistencia: Todas las funciones del Tidyverse esperan un data frame como primer argumento y devuelven un data frame. Si aprendes a usar una, aprenderás las demás muy rápido.

  • Legibilidad: El código está diseñado para leerse casi como una oración en inglés, lo que facilita mucho la colaboración y el mantenimiento a largo plazo.

Ejemplo de 02_poa.Rmd: ```markdown Aquí redactas todo lo referente al curso de R. Puedes usar tablas de R o texto normal.

```{r} # Tu código de R para crear gráficos

DataFrame

Para leer datos mediante un archivo de excel utilizamos el siguiente comando:

read_xlsx

**Leer archivo de excel xlsx:

## # A tibble: 6 × 12
##   estado     sex     edad asiste pos_ocu  ing_salarios niv_edu anios_esc hrsocup
##   <chr>      <chr>  <dbl> <chr>  <chr>    <chr>        <chr>       <dbl>   <dbl>
## 1 Hidalgo    Mujer     56 No     Trabaja… Más de 1 ha… Secund…        12      45
## 2 Durango    Hombre    52 No     Trabaja… Más de 3 ha… Medio …        17      66
## 3 Jalisco    Hombre    25 No     Trabaja… Más de 3 ha… Medio …        15      48
## 4 Tabasco    Mujer     50 No     Trabaja… Más de 1 ha… Secund…         9      46
## 5 Tabasco    Mujer     41 No     Trabaja… Hasta un sa… Medio …        17       5
## 6 Nuevo León Mujer     36 No     Trabaja… Más de 1 ha… Secund…         9      50
## # ℹ 3 more variables: ingreso_mensual <dbl>, num_trabajos <chr>,
## #   tipo_empleo <chr>

dim(), dim.data.frame()

## [1] 10280    12

colnames()

##  [1] "estado"          "sex"             "edad"            "asiste"         
##  [5] "pos_ocu"         "ing_salarios"    "niv_edu"         "anios_esc"      
##  [9] "hrsocup"         "ingreso_mensual" "num_trabajos"    "tipo_empleo"

Gráficos con ggplot

Los 3 componentes esenciales

  • El Data Frame (datos): Es la tabla de donde sacas la información. Para que tu código funcione, necesitas estos tres ingredientes:

  • Las Estéticas (aes): Es la “traducción” de tus datos a cosas que podemos ver. Aquí decides qué columna va al eje X, cuál al eje Y y si alguna definirá el color.

  • La Geometría (geom_): Es la forma física que tomarán los datos (puntos, barras, líneas).

Para entender cómo funciona ggplot2, lo más útil es imaginar que estás pintando un cuadro por capas. No intentas crear todo el gráfico de un solo golpe, sino que vas añadiendo elementos uno encima del otro.La gramática básica de un gráfico sigue siempre esta estructura:\[\text{Gráfico} = \text{Datos} + \text{Geometría} + \text{Estéticas}\]

ggplot(datos)+ _point(mapping = aes(x=anios_esc, y=ingreso_mensual, colour = tipo_empleo))

Facet wrap

otro ejemplo

Facet grid