Introducción a R

Jhonathan Pazmiño MSc, PhD

Objetivos de la sesión

Familiarizarse con el entorno R y RStudio (Posit).
Personalizar el entorno para trabajo cómodo y a la medida.
Comprender la estructura básica del lenguaje R.
Instalar y cargar paquetes.
Importar bases de datos en diversos formatos.

Instalación de R y RStudio

Entorno e interfaz

Pantalla al iniciar por primera vez: Su estructura básica contempla cuatro partes o paneles que debes reconocer.

Fuente, Consola, Entorno/ambiente, Salidas, archivos, gráficos y otros

Descripción de los paneles

Fuente: permite escribir el código de R para almacenarlo en un archivo de trabajo editable. A estos archivos los llamamos scripts.
Consola: Aquí es donde la mayoría de las funciones se ejecutan al instante. Aquí es donde aparecen los resultados de los cálculos y procedimientos que hemos solicitado al programa. Se utiliza principalmente para una verificación rápida y también para ver el resultado de tus scripts.
Entorno: Es la lista de todos los objetos que se han creado en tu trabajo.
Salidas, Archivos/Gráficos/Paquetes/Ayuda: Es una ventana con diferentes opciones. La más usada es la visualización de los gráficos que se generan durante los análisis.

Crear el primer script

Siempre que trabajamos en RStudio debemos guardar nuestros archivos de instrucciones, esto nos permitirá retomar trabajos extensos o simplemente conservar las diferentes versiones de nuestros análisis.

Crear el primer script

📍 Un script debe contener dos cosas fundamentales:

El código o instrucciones de las acciones que R debe realizar.
Las notas o explicaciones de dichas instrucciones.

2 + 5  # Sumar dos números

Todo lo que se escriba después del # será una nota y no será ejecutada

Un script no almacena resultados de ejecución. Las “salidas” del código las podemos ver en el panel de la consola.

2 + 7 # Suma de dos números

[1] 9

2 + 7 * (8/2) # Operaciones más complejas

[1] 30

Elementos de R

Son las unidades mínimas de información que pueden existir en R.

Son la expresión de los datos que queremos analizar. Permiten definir los objetos sobre los cuales se aplican operaciones para su análisis y extracción de información.

Importante

Las formas básicas de elementos pueden ser de tipo:

Numérico
Texto
Lógico

Conocer el tipo de elementos que asociamos a nuestros objetos es fundamental ya que esto define el tipo de operaciones que realizamos con ellos. Ejemplo: restar números y concatenar palabras.

Operador de asignación

El símbolo “<-” se utiliza para “guardar” información en un “contenedor”.

El contenedor que se crea se denomina objeto.

Los objetos son de diferentes tipos y tienen distintas propiedades.

a <- 1:5      
b <- c("Bogotá", "Medellín", "Cali")  

a
## [1] 1 2 3 4 5
b
## [1] "Bogotá"   "Medellín" "Cali"

Elemento de tipo numérico

N <- c(5, 83.2, sqrt(2), -94)
N

[1]   5.000000  83.200000   1.414214 -94.000000

class(N)

[1] "numeric"

Elemento de tipo texto

T <- c("Palabra", "Urbano", "tres")
T

[1] "Palabra" "Urbano"  "tres"

class(T)

[1] "character"

Elemento de tipo lógico

L <- c(TRUE, FALSE)
L

[1]  TRUE FALSE

class(L)

[1] "logical"

Operaciones básicas entre elementos

Con elementos numéricos

2+3             # suma
> [1] 5
7-1             # resta
> [1] 6
11*4            # multiplicación
> [1] 44
30/2            # división
> [1] 15
(2+3) * (7-1)   # agrupamiento
> [1] 30

Con elementos lógicos

Las operaciones entre elementos lógicos se realizan asignando los valores 0 y 1 a los elementos FALSE Y TRUE respectivamente.

TRUE + TRUE
> [1] 2
TRUE + FALSE
> [1] 1
FALSE + FALSE
> [1] 0

Con elementos texto

En el caso de las palabras, en ellas no aplican las “matemáticas”

"Hola" + "mundo"

Error in `"Hola" + "mundo"`:
! argumento no-numérico para operador binario

Operadores de comparación

Permiten evaluar relaciones entre valores. Devuelven siempre un valor lógico: TRUE o FALSE.

Relación	Operador en R	Descripción
\(x = y\)	`x == y`	Igualdad
\(x \ne y\)	`x != y`	Desigualdad
\(x < y\)	`x < y`	Menor que
\(x \le y\)	`x <= y`	Menor o igual que
\(x > y\)	`x > y`	Mayor que
\(x \ge y\)	`x >= y`	Mayor o igual que

x <- 8
y <- 20

x==y
## [1] FALSE
x!=y
## [1] TRUE
x<y
## [1] TRUE
x>y
## [1] FALSE

Objetos de R

Son las estructuras donde podemos guardar, almacenar o “asignar” información para usarla de manera recurrente, manipularla y transformarla.

Los objetos se almacenan en la sesión de trabajo y están disponibles para usarlos en nuestros análisis.

Importante

Para crear un objeto simplemente usamos el operador de “asignación”: <-

Una flecha que apunta hacia el objeto y parte de aquello que quiere asignarse.

datos <- c(1, 2, 3, 4, 5)

Después de creado, el objeto puede “llamarse” de forma individual o incluirse en operaciones de todos los tipos:

objeto_X <- 1:10 #Los números del 1 al 10

objeto_X
##  [1]  1  2  3  4  5  6  7  8  9 10

objeto_X + 1 #Sumar 1 a cada elemento del objeto_X
##  [1]  2  3  4  5  6  7  8  9 10 11

mean(objeto_X) #Calcular el promedio de los elementos del objeto_X
## [1] 5.5

Tipos de objetos en R

Los objetos en R crecen y se hacen más complejos agrupando elementos que pueden ser de la misma o de diferente naturaleza.
Números y palabras se pueden organizar juntos formando vectores, matrices, arreglos de datos y listas.
Cada objeto tiene una estructura establecida y se usa para acciones particulares con propósitos definidos.

Vectores

Conjunto de elementos del mismo tipo (todos números, o todos textos, o todos lógicos).

[1] 25 28 31

[1] "Carlos" "Mateo"  "Laura"  "Andrea"

[1]  TRUE  TRUE FALSE  TRUE

Matrices

Semejante a una tabla de una hoja de cálculo. Solo puede contener un tipo de dato. Generalmente números.

     [,1] [,2] [,3] [,4] [,5] [,6]
[1,]   10   12   14   16   18   20
[2,]   11   13   15   17   19   10

Listas

Es un tipo de objeto que puede contener diferentes objetos dentro. Puede imaginarse como un libro de Excel que tiene varias hojas.

[[1]]
[1] 25 28 31 43 44

[[2]]
[1] "Carlos" "Mateo"  "Laura"  "Andrea" "Sofía" 

[[3]]
[1]  TRUE  TRUE FALSE  TRUE  TRUE

Arreglos de datos - Data frames

La estructura más usada para bases de datos.

Cada columna es un vector de características (variable) y pueden ser cada uno de tipos diferentes (números, textos, etc.).

  ID    ciudad   Tel
1  1  Medellín  1234
2  2      Cali  1245
3  3 Cartagena  6596
4  4     Pasto  1598
5  5    Bogotá 78916

Funciones

Una función en R es una herramienta que realiza una tarea específica.

Es una “maquina” que recibe un insumo, ejecuta una acción y entrega un resultado.

Todas las funciones en R se componen de una estructura básica muy simple que refleja la definición anterior.

Las funciones tienen un nombre (como sum, data.frame, ggplot), paréntesis que abre y cierra y limita el contenido de la función; y el contenido, que se discriminan y definen como argumentos. Uno de los argumentos es el objeto (u objetos) sobre el cual se van a aplicar las acciones.

# Función c(), crea una cadena de elementos.
vector <- c(1,3,5,7,9,11,NA)

# Función mean(), calcula el promedio de un objeto
mean(vector)
## [1] NA

# Función mean() con argumentos

mean(vector, na.rm = TRUE)
## [1] 6

El código en R con el cual se realiza el análisis de datos se construye paso a paso, función por función.

La salida o resultado de una función puede ser la entrada o insumo de la siguiente. Cada tarea, sencilla o compleja requiere el uso de funciones que se aplican sobre objetos.

Ejemplos:

read.csv("datos.csv") → Lee datos desde un archivo .csv.
length(ciudades) → Cuenta la cantidad de elementos en el vector “ciudades”.
mean(ingresos) → Calcula el promedio de una variable numérica “ingresos”.
histogram(edad) → Grafica el histograma de frecuencia de la variable “edad”.

Paquetes

Un paquete es un “objeto” de R que conforma un conjunto de herramientas con funciones específicas para realizar tareas específicas.

Es como la caja de herramientas que necesitas tener para resolver una tarea particular 🧰. La ventaja más importante de R es que para casi todo hay paquete (y si no, alguien lo esta creando).

Por ejemplo, el paquete ggplot2 es un poderoso paquete con muchas funciones para realizar gráficos de todo tipo.

En R, debemos hacer dos cosas para usar un paquete:

Instalar el paquete: Función install.packages().
Cargar el paquete: Función library().

Instalar paquetes en R

Instalar un paquete en R es guardarlo en el disco duro del PC. Es como “comprar” una caja de herramientas.

Función install.packages() con el argumento del nombre del paquete entre comillas.

install.packages(dplyr)

Cargar paquetes en R

Es activar el paquete para que R lo utilice en el análisis presente. Es como sacar la caja de herramientas y abrirla para usarla.

Se debe cargar el paquete siempre antes de querer usar una función asociada; pero solo se hace la primera vez que se desee trabajar con ella.

library(dplyr)

Estructuras de trabajo con datos en R

Data frames

Los conjuntos de datos, estos suelen estar almacenados en estructuras tabulares, algo que facilita su comprensión y análisis. Una buena práctica del uso de datos e tablas es que su organización sea así:

Cada columna representa una variable (es decir, una característica o atributo que estamos observando)
Cada fila corresponde a una observación (un registro individual de los datos, como un caso, una instancia o una observación).

Data frames

En R la forma más común de trabajar con este tipo de estructuras es a través de objetos denominados data.frames.

nombres <-  c("Ana", "Luis", "Carlos")
edades <-  c(23, 35, 29)
salario <-  c(2500, 2100, 1800)

Importante

Recordar: Todos los vectores deben tener el mismo tamaño (longitud) porque cada fila u observación representa una unidad de análisis completa.

Data frames

datos <-  data.frame(nombres, edades, salario)
datos
##   nombres edades salario
## 1     Ana     23    2500
## 2    Luis     35    2100
## 3  Carlos     29    1800

Algunas veces se requiere crear data.frames desde cero; sin embargo, los análisis de datos se realizan comúnmente desde tablas de datos que ya existen.

Lo habitual es que se organicen en programas de hojas de cálculo como Excel.

¡Ejercicio de creación!

Realiza esta tabla usando data.frame()

Importar datos en R

Importar los datos desde fuentes externas al entorno de R consiste en “cargar” los datos en nuestra plataforma.

Importar datos en R

Existen diferentes formas de hacerlo, y para ello diferentes funciones y paquetes. Las más comunes, por facilidad y disponibilidad son los archivos de Excel (.xlsx) y los archivos de “texto plano” que pueden verse en el bloc de notas (.csv, .txt).

Cada uno tiene aspectos positivos y negativos. Los .xlsx son fáciles de interpretar y organizar, pero suelen ser pesados; los .csv son muy livianos pero muchas veces incomprensibles.

El formato csv (Comma-Separated Values) es uno de los más utilizados debido a su simplicidad y compatibilidad. Cada fila en un archivo csv representa una observación, y los valores dentro de cada fila están separados por comas.

Ejemplo:

El paquete readr es parte del tidyverse y está diseñado para leer archivos csv

Siempre que cargamos una base de datos, esta se convierte en un objeto de R y por lo tanto debemos realizar una asignación.

# Cargar el paquete readr
library(readr)

# Importar el archivo CSV y lo asignarlo a un objeto
redes_csv <- read_csv(here::here("Bases de datos", 
                                 "redes.csv"))
redes_csv
## # A tibble: 10 × 4
##     Edad Género Red_social_usada Horas_al_día
##    <dbl> <chr>  <chr>                   <dbl>
##  1    19 Mujer  Instagram                 3.5
##  2    22 Hombre TikTok                    4  
##  3    27 Mujer  Facebook                  2  
##  4    31 Hombre Twitter/X                 1.5
##  5    24 Mujer  YouTube                   5  
##  6    29 Hombre Instagram                 2.8
##  7    35 Mujer  LinkedIn                  1  
##  8    21 Hombre TikTok                    3.2
##  9    26 Mujer  WhatsApp                  4.5
## 10    33 Hombre YouTube                   2.3

Los archivos de Excel son muy usados en diferentes campos como en las ciencias sociales debido a su facilidad de uso y capacidad para almacenar datos tabulares en varias hojas. El paquete readxl permite importar estos archivos .xlsx

# Cargar el paquete readxl
library(readxl)

# Importar los datos desde un archivo de Excel
data_excel <- read_excel(here::here("Bases de datos", 
                                    "redes2.xlsx"))
data_excel
## # A tibble: 6 × 4
##    Edad Género Red_social_usada Horas_al_día
##   <dbl> <chr>  <chr>            <chr>       
## 1    19 Mujer  Instagram        3.5         
## 2    22 Hombre TikTok           4.0         
## 3    27 Mujer  Facebook         2.0         
## 4    31 Hombre Twitter/X        1.5         
## 5    24 Mujer  YouTube          5.0         
## 6    29 Hombre Instagram        2.8

Si nuestro archivo Excel tiene varias hojas de trabajo, podemos cargar la hoja que sea de interés:

# Importar los datos desde un archivo de Excel seleccionando 
# la hoja
data_excel_hoja <- read_excel(here::here("Bases de datos", 
                                         "redes2.xlsx"), 
                              sheet = "encuesta")
data_excel_hoja
## # A tibble: 10 × 4
##     Edad Género Red_social_usada Horas_al_día
##    <dbl> <chr>  <chr>            <chr>       
##  1    19 Mujer  Instagram        3.5         
##  2    22 Hombre TikTok           4.0         
##  3    27 Mujer  Facebook         2.0         
##  4    31 Hombre Twitter/X        1.5         
##  5    24 Mujer  YouTube          5.0         
##  6    29 Hombre Instagram        2.8         
##  7    35 Mujer  LinkedIn         1.0         
##  8    21 Hombre TikTok           3.2         
##  9    26 Mujer  WhatsApp         4.5         
## 10    33 Hombre YouTube          2.3