Análisis de la saga “Fast and Furious”

Se tienen los datos de recaudación de las películas de la saga Fast and Furious, donde cada número romano representa una película de la saga y su correspondiente recaudación en millones de dólares. Se requiere organizar estos datos en vectores y luego en un data frame para su análisis.

# 1) Asignar nombres a los vectores
fast_furious <- c("I", "II", "III", "IV", "V", "VI", "VII", "VIII", "IX", "X")
recaudacion <- c(207.3, 236.4, 159, 360.4, 626.1, 788.7, 1515, 1239, 726.2, 725.0)

# 2) Convertir en data frame
ff_rec <- data.frame(fast_furious, recaudacion)
ff_rec
##    fast_furious recaudacion
## 1             I       207.3
## 2            II       236.4
## 3           III       159.0
## 4            IV       360.4
## 5             V       626.1
## 6            VI       788.7
## 7           VII      1515.0
## 8          VIII      1239.0
## 9            IX       726.2
## 10            X       725.0

Una vez creado el data frame, se requiere realizar un análisis exploratorio básico para comprender la estructura y distribución de los datos.

# 3) Aplicar funciones de análisis
class(ff_rec)
## [1] "data.frame"
str(ff_rec)
## 'data.frame':    10 obs. of  2 variables:
##  $ fast_furious: chr  "I" "II" "III" "IV" ...
##  $ recaudacion : num  207 236 159 360 626 ...
head(ff_rec)
##   fast_furious recaudacion
## 1            I       207.3
## 2           II       236.4
## 3          III       159.0
## 4           IV       360.4
## 5            V       626.1
## 6           VI       788.7
tail(ff_rec)
##    fast_furious recaudacion
## 5             V       626.1
## 6            VI       788.7
## 7           VII      1515.0
## 8          VIII      1239.0
## 9            IX       726.2
## 10            X       725.0
summary(ff_rec)
##  fast_furious        recaudacion    
##  Length:10          Min.   : 159.0  
##  Class :character   1st Qu.: 267.4  
##  Mode  :character   Median : 675.5  
##                     Mean   : 658.3  
##                     3rd Qu.: 773.1  
##                     Max.   :1515.0
# Calcular el rango intercuartil (IQR)
IQR(ff_rec$recaudacion)
## [1] 505.675

¿Cuál es la diferencia entre el 3rd y 1st quartil?

La diferencia entre el 3er cuartil (Q3 = 773.1) y el 1er cuartil (Q1 = 267.4) es de 505.6 millones de dólares, que representa el rango intercuartil (IQR).

Para visualizar la recaudación de las películas, se requiere crear una gráfica de columnas utilizando la librería ggplot2. Sin embargo, es necesario instalar y cargar primero la paquetería tidyverse que contiene esta funcionalidad.

# Gráfica de columnas
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
ggplot(ff_rec, aes(fast_furious, recaudacion)) + 
  geom_col() +
  labs(x = "Película", y = "MDD corrientes")

¿Qué notan en el eje de las x?

Las películas aparecen en orden alfabético (I, II, III, IV, IX, V, VI, VII, VIII, X) en lugar del orden cronológico correcto.

Dado que las barras de la gráfica no siguen el orden cronológico correcto, se requiere utilizar factores para especificar el orden adecuado de las películas en la visualización.

# Corregir el orden usando factores
pelicula <- factor(ff_rec$fast_furious,
                   levels = c("I", "II", "III", "IV", "V", "VI", "VII", "VIII", "IX", "X"))

# Gráfica corregida
ggplot(ff_rec, aes(pelicula, recaudacion)) + 
  geom_col() +
  labs(x = "Película", y = "MDD corrientes")

Usamos factor() para convertir el vector de películas en un factor ordenado

El argumento levels especifica el orden correcto de las películas

Así las barras aparecen en orden cronológico en la gráfica

Conclusión:

El uso de factores permite controlar el orden de categorías en R, lo que es esencial para visualizaciones correctas. En este caso, asegura que las películas se muestren en orden cronológico en lugar de alfabético.”