Análisis de la saga “Fast and Furious”
Se tienen los datos de recaudación de las películas de la saga Fast and Furious, donde cada número romano representa una película de la saga y su correspondiente recaudación en millones de dólares. Se requiere organizar estos datos en vectores y luego en un data frame para su análisis.
# 1) Asignar nombres a los vectores
fast_furious <- c("I", "II", "III", "IV", "V", "VI", "VII", "VIII", "IX", "X")
recaudacion <- c(207.3, 236.4, 159, 360.4, 626.1, 788.7, 1515, 1239, 726.2, 725.0)
# 2) Convertir en data frame
ff_rec <- data.frame(fast_furious, recaudacion)
ff_rec## fast_furious recaudacion
## 1 I 207.3
## 2 II 236.4
## 3 III 159.0
## 4 IV 360.4
## 5 V 626.1
## 6 VI 788.7
## 7 VII 1515.0
## 8 VIII 1239.0
## 9 IX 726.2
## 10 X 725.0
Una vez creado el data frame, se requiere realizar un análisis exploratorio básico para comprender la estructura y distribución de los datos.
## [1] "data.frame"
## 'data.frame': 10 obs. of 2 variables:
## $ fast_furious: chr "I" "II" "III" "IV" ...
## $ recaudacion : num 207 236 159 360 626 ...
## fast_furious recaudacion
## 1 I 207.3
## 2 II 236.4
## 3 III 159.0
## 4 IV 360.4
## 5 V 626.1
## 6 VI 788.7
## fast_furious recaudacion
## 5 V 626.1
## 6 VI 788.7
## 7 VII 1515.0
## 8 VIII 1239.0
## 9 IX 726.2
## 10 X 725.0
## fast_furious recaudacion
## Length:10 Min. : 159.0
## Class :character 1st Qu.: 267.4
## Mode :character Median : 675.5
## Mean : 658.3
## 3rd Qu.: 773.1
## Max. :1515.0
## [1] 505.675
¿Cuál es la diferencia entre el 3rd y 1st quartil?
La diferencia entre el 3er cuartil (Q3 = 773.1) y el 1er cuartil (Q1 = 267.4) es de 505.6 millones de dólares, que representa el rango intercuartil (IQR).
Para visualizar la recaudación de las películas, se requiere crear una gráfica de columnas utilizando la librería ggplot2. Sin embargo, es necesario instalar y cargar primero la paquetería tidyverse que contiene esta funcionalidad.
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.1 ✔ tibble 3.2.1
## ✔ lubridate 1.9.4 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
ggplot(ff_rec, aes(fast_furious, recaudacion)) +
geom_col() +
labs(x = "Película", y = "MDD corrientes")¿Qué notan en el eje de las x?
Las películas aparecen en orden alfabético (I, II, III, IV, IX, V, VI, VII, VIII, X) en lugar del orden cronológico correcto.
Dado que las barras de la gráfica no siguen el orden cronológico correcto, se requiere utilizar factores para especificar el orden adecuado de las películas en la visualización.
# Corregir el orden usando factores
pelicula <- factor(ff_rec$fast_furious,
levels = c("I", "II", "III", "IV", "V", "VI", "VII", "VIII", "IX", "X"))
# Gráfica corregida
ggplot(ff_rec, aes(pelicula, recaudacion)) +
geom_col() +
labs(x = "Película", y = "MDD corrientes")Usamos factor() para convertir el vector de películas en un factor ordenado
El argumento levels especifica el orden correcto de las películas
Así las barras aparecen en orden cronológico en la gráfica
Conclusión:
El uso de factores permite controlar el orden de categorías en R, lo que es esencial para visualizaciones correctas. En este caso, asegura que las películas se muestren en orden cronológico en lugar de alfabético.”