[1] 9
[1] 30
Familiarizarse con el entorno R y RStudio (Posit).
Personalizar el entorno para trabajo cómodo y a la medida.
Comprender la estructura básica del lenguaje R.
Instalar y cargar paquetes.
Importar bases de datos en diversos formatos.
Pantalla al iniciar por primera vez: Su estructura básica contempla cuatro partes o paneles que debes reconocer.
Fuente, Consola, Entorno/ambiente, Salidas, archivos, gráficos y otros
Fuente: permite escribir el código de R para almacenarlo en un archivo de trabajo editable. A estos archivos los llamamos scripts.
Consola: Aquí es donde la mayoría de las funciones se ejecutan al instante. Aquí es donde aparecen los resultados de los cálculos y procedimientos que hemos solicitado al programa. Se utiliza principalmente para una verificación rápida y también para ver el resultado de tus scripts.
Entorno: Es la lista de todos los objetos que se han creado en tu trabajo.
Salidas, Archivos/Gráficos/Paquetes/Ayuda: Es una ventana con diferentes opciones. La más usada es la visualización de los gráficos que se generan durante los análisis.
Siempre que trabajamos en RStudio debemos guardar nuestros archivos de instrucciones, esto nos permitirá retomar trabajos extensos o simplemente conservar las diferentes versiones de nuestros análisis.
📍 Un script debe contener dos cosas fundamentales:
El código o instrucciones de las acciones que R debe realizar.
Las notas o explicaciones de dichas instrucciones.
2 + 5 # Sumar dos números
Todo lo que se escriba después del # será una nota y no será ejecutada
Un script no almacena resultados de ejecución. Las “salidas” del código las podemos ver en el panel de la consola.
Son las unidades mínimas de información que pueden existir en R.
Son la expresión de los datos que queremos analizar. Permiten definir los objetos sobre los cuales se aplican operaciones para su análisis y extracción de información.
Importante
Las formas básicas de elementos pueden ser de tipo:
Conocer el tipo de elementos que asociamos a nuestros objetos es fundamental ya que esto define el tipo de operaciones que realizamos con ellos. Ejemplo: restar números y concatenar palabras.
El símbolo “<-” se utiliza para “guardar” información en un “contenedor”.
El contenedor que se crea se denomina objeto.
Los objetos son de diferentes tipos y tienen distintas propiedades.
Elemento de tipo numérico
Elemento de tipo texto
Elemento de tipo lógico
Las operaciones entre elementos lógicos se realizan asignando los valores 0 y 1 a los elementos FALSE Y TRUE respectivamente.
En el caso de las palabras, en ellas no aplican las “matemáticas”
Permiten evaluar relaciones entre valores. Devuelven siempre un valor lógico: TRUE o FALSE.
| Relación | Operador en R | Descripción |
|---|---|---|
| \(x = y\) | x == y |
Igualdad |
| \(x \ne y\) | x != y |
Desigualdad |
| \(x < y\) | x < y |
Menor que |
| \(x \le y\) | x <= y |
Menor o igual que |
| \(x > y\) | x > y |
Mayor que |
| \(x \ge y\) | x >= y |
Mayor o igual que |
Son las estructuras donde podemos guardar, almacenar o “asignar” información para usarla de manera recurrente, manipularla y transformarla.
Los objetos se almacenan en la sesión de trabajo y están disponibles para usarlos en nuestros análisis.
Importante
Para crear un objeto simplemente usamos el operador de “asignación”: <-
Una flecha que apunta hacia el objeto y parte de aquello que quiere asignarse.
datos <- c(1, 2, 3, 4, 5)
Después de creado, el objeto puede “llamarse” de forma individual o incluirse en operaciones de todos los tipos:
Los objetos en R crecen y se hacen más complejos agrupando elementos que pueden ser de la misma o de diferente naturaleza.
Números y palabras se pueden organizar juntos formando vectores, matrices, arreglos de datos y listas.
Cada objeto tiene una estructura establecida y se usa para acciones particulares con propósitos definidos.
Conjunto de elementos del mismo tipo (todos números, o todos textos, o todos lógicos).
[1] 25 28 31
[1] "Carlos" "Mateo" "Laura" "Andrea"
[1] TRUE TRUE FALSE TRUE
Semejante a una tabla de una hoja de cálculo. Solo puede contener un tipo de dato. Generalmente números.
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] 10 12 14 16 18 20
[2,] 11 13 15 17 19 10
Es un tipo de objeto que puede contener diferentes objetos dentro. Puede imaginarse como un libro de Excel que tiene varias hojas.
[[1]]
[1] 25 28 31 43 44
[[2]]
[1] "Carlos" "Mateo" "Laura" "Andrea" "Sofía"
[[3]]
[1] TRUE TRUE FALSE TRUE TRUE
La estructura más usada para bases de datos.
Cada columna es un vector de características (variable) y pueden ser cada uno de tipos diferentes (números, textos, etc.).
ID ciudad Tel
1 1 Medellín 1234
2 2 Cali 1245
3 3 Cartagena 6596
4 4 Pasto 1598
5 5 Bogotá 78916
Una función en R es una herramienta que realiza una tarea específica.
Es una “maquina” que recibe un insumo, ejecuta una acción y entrega un resultado.
Todas las funciones en R se componen de una estructura básica muy simple que refleja la definición anterior.
Las funciones tienen un nombre (como sum, data.frame, ggplot), paréntesis que abre y cierra y limita el contenido de la función; y el contenido, que se discriminan y definen como argumentos. Uno de los argumentos es el objeto (u objetos) sobre el cual se van a aplicar las acciones.
El código en R con el cual se realiza el análisis de datos se construye paso a paso, función por función.
La salida o resultado de una función puede ser la entrada o insumo de la siguiente. Cada tarea, sencilla o compleja requiere el uso de funciones que se aplican sobre objetos.
Ejemplos:
read.csv("datos.csv") → Lee datos desde un archivo .csv.
length(ciudades) → Cuenta la cantidad de elementos en el vector “ciudades”.
mean(ingresos) → Calcula el promedio de una variable numérica “ingresos”.
histogram(edad) → Grafica el histograma de frecuencia de la variable “edad”.
Un paquete es un “objeto” de R que conforma un conjunto de herramientas con funciones específicas para realizar tareas específicas.
Es como la caja de herramientas que necesitas tener para resolver una tarea particular 🧰. La ventaja más importante de R es que para casi todo hay paquete (y si no, alguien lo esta creando).
Por ejemplo, el paquete ggplot2 es un poderoso paquete con muchas funciones para realizar gráficos de todo tipo.
En R, debemos hacer dos cosas para usar un paquete:
install.packages().library().Instalar un paquete en R es guardarlo en el disco duro del PC. Es como “comprar” una caja de herramientas.
install.packages() con el argumento del nombre del paquete entre comillas.install.packages(dplyr)
Es activar el paquete para que R lo utilice en el análisis presente. Es como sacar la caja de herramientas y abrirla para usarla.
Se debe cargar el paquete siempre antes de querer usar una función asociada; pero solo se hace la primera vez que se desee trabajar con ella.
library(dplyr)
Los conjuntos de datos, estos suelen estar almacenados en estructuras tabulares, algo que facilita su comprensión y análisis. Una buena práctica del uso de datos e tablas es que su organización sea así:
Cada columna representa una variable (es decir, una característica o atributo que estamos observando)
Cada fila corresponde a una observación (un registro individual de los datos, como un caso, una instancia o una observación).
En R la forma más común de trabajar con este tipo de estructuras es a través de objetos denominados data.frames.
Importante
Recordar: Todos los vectores deben tener el mismo tamaño (longitud) porque cada fila u observación representa una unidad de análisis completa.
Algunas veces se requiere crear data.frames desde cero; sin embargo, los análisis de datos se realizan comúnmente desde tablas de datos que ya existen.
Lo habitual es que se organicen en programas de hojas de cálculo como Excel.
Realiza esta tabla usando data.frame()
Importar los datos desde fuentes externas al entorno de R consiste en “cargar” los datos en nuestra plataforma.
Existen diferentes formas de hacerlo, y para ello diferentes funciones y paquetes. Las más comunes, por facilidad y disponibilidad son los archivos de Excel (.xlsx) y los archivos de “texto plano” que pueden verse en el bloc de notas (.csv, .txt).
Cada uno tiene aspectos positivos y negativos. Los .xlsx son fáciles de interpretar y organizar, pero suelen ser pesados; los .csv son muy livianos pero muchas veces incomprensibles.
El formato csv (Comma-Separated Values) es uno de los más utilizados debido a su simplicidad y compatibilidad. Cada fila en un archivo csv representa una observación, y los valores dentro de cada fila están separados por comas.
Ejemplo:
El paquete readr es parte del tidyverse y está diseñado para leer archivos csv
Siempre que cargamos una base de datos, esta se convierte en un objeto de R y por lo tanto debemos realizar una asignación.
# Cargar el paquete readr
library(readr)
# Importar el archivo CSV y lo asignarlo a un objeto
redes_csv <- read_csv(here::here("Bases de datos",
"redes.csv"))
redes_csv
## # A tibble: 10 × 4
## Edad Género Red_social_usada Horas_al_día
## <dbl> <chr> <chr> <dbl>
## 1 19 Mujer Instagram 3.5
## 2 22 Hombre TikTok 4
## 3 27 Mujer Facebook 2
## 4 31 Hombre Twitter/X 1.5
## 5 24 Mujer YouTube 5
## 6 29 Hombre Instagram 2.8
## 7 35 Mujer LinkedIn 1
## 8 21 Hombre TikTok 3.2
## 9 26 Mujer WhatsApp 4.5
## 10 33 Hombre YouTube 2.3Los archivos de Excel son muy usados en diferentes campos como en las ciencias sociales debido a su facilidad de uso y capacidad para almacenar datos tabulares en varias hojas. El paquete readxl permite importar estos archivos .xlsx
# Cargar el paquete readxl
library(readxl)
# Importar los datos desde un archivo de Excel
data_excel <- read_excel(here::here("Bases de datos",
"redes2.xlsx"))
data_excel
## # A tibble: 6 × 4
## Edad Género Red_social_usada Horas_al_día
## <dbl> <chr> <chr> <chr>
## 1 19 Mujer Instagram 3.5
## 2 22 Hombre TikTok 4.0
## 3 27 Mujer Facebook 2.0
## 4 31 Hombre Twitter/X 1.5
## 5 24 Mujer YouTube 5.0
## 6 29 Hombre Instagram 2.8Si nuestro archivo Excel tiene varias hojas de trabajo, podemos cargar la hoja que sea de interés:
# Importar los datos desde un archivo de Excel seleccionando
# la hoja
data_excel_hoja <- read_excel(here::here("Bases de datos",
"redes2.xlsx"),
sheet = "encuesta")
data_excel_hoja
## # A tibble: 10 × 4
## Edad Género Red_social_usada Horas_al_día
## <dbl> <chr> <chr> <chr>
## 1 19 Mujer Instagram 3.5
## 2 22 Hombre TikTok 4.0
## 3 27 Mujer Facebook 2.0
## 4 31 Hombre Twitter/X 1.5
## 5 24 Mujer YouTube 5.0
## 6 29 Hombre Instagram 2.8
## 7 35 Mujer LinkedIn 1.0
## 8 21 Hombre TikTok 3.2
## 9 26 Mujer WhatsApp 4.5
## 10 33 Hombre YouTube 2.3