Descripción de los datos

Este informe presenta un análisis exhaustivo del conjunto de datos starwars, integrado en la librería dplyr de la División de Ciencias de la Ingeniería de la USAC. El dataset ofrece una perspectiva detallada de los personajes de la saga, incluyendo métricas físicas, procedencia galáctica y clasificaciones biológicas.

Fuente de Información

Los datos provienen originalmente de SWAPI (The Star Wars API), una plataforma de datos abiertos creada por Paul Hallett. El equipo de dplyr procesó estas estructuras JSON para convertirlas en un formato tabular (tibble) listo para el análisis en R, facilitando el estudio de los personajes de la franquicia.

Diccionario de Variables

A continuación, se describen las variables principales que componen el conjunto de datos:

Variable Descripción
name Nombre completo del personaje.
height Altura registrada en centímetros.
mass Peso corporal medido en kilogramos.
hair_color Color de cabello (etiquetado como “none” para droides).
skin_color Color de la piel o superficie del personaje.
eye_color Tonalidad de los ojos.
birth_year Año de nacimiento (BBY - Before the Battle of Yavin).
sex Clasificación biológica (male, female, hermaphrodite, none).
gender Identidad de género (masculine, feminine).
homeworld Planeta de origen dentro del universo.
species Clasificación taxonómica (humano, droide, etc.).
films Listado de películas en las que participa el personaje.
vehicles Vehículos terrestres o atmosféricos operados.
starships Naves espaciales pilotadas durante la saga.

Resumen Estadístico

Variables Numéricas

Las tres variables cuantitativas continuas del dataset se resumen a continuación. Cabe destacar que la media de mass es notablemente superior a su mediana, indicando la presencia de un valor atípico severo: Jabba the Hutt (1,358 kg).

Estadísticas descriptivas — variables numéricas
Variable Mínimo Mediana Media Máximo Valores.NA
height (cm) 66 180 174.6 264 6
mass (kg) 15 79 97.3 1358 28
birth_year (BBY) 8 52 87.6 896 44

Valores Faltantes por Variable

La siguiente tabla muestra el conteo de NA para cada variable no-lista del dataset, ordenado de mayor a menor. La alta tasa de birth_year (50.6%) refleja la escasa documentación histórica de personajes secundarios en SWAPI.

Valores faltantes por variable (variables escalares)
Variable NAs X.
birth_year 44 50.6%
mass 28 32.2%
homeworld 10 11.5%
height 6 6.9%
hair_color 5 5.7%
sex 4 4.6%
gender 4 4.6%
species 4 4.6%
name 0 0%
skin_color 0 0%
eye_color 0 0%

Visualizaciones de datos

# Preprocesamiento: Filtrado del valor atípico extremo (Jabba the Hutt, 1358 kg)
# para normalizar la escala visual en la gráfica de correlación
starwars_filtered <- starwars %>%
  filter(mass < 500)

Gráfico 1: Análisis de Correlación Morfológica

Se seleccionaron las variables height y mass para determinar si la estructura física de los personajes sigue una tendencia biológica coherente entre géneros.

ggplot(starwars_filtered, aes(x = height, y = mass)) +
  geom_point(aes(color = gender), size = 3, alpha = 0.8) +
  geom_smooth(method = "lm", color = "#e62117", linetype = "dashed", se = FALSE) +
  theme_minimal() +
  labs(title = "Relación entre Estatura y Masa Corporal",
       subtitle = "Tendencia lineal para la población general (Masa < 500kg)",
       x = "Estatura (cm)",
       y = "Masa (kg)",
       color = "Identidad de Género")
## `geom_smooth()` using formula = 'y ~ x'

Interpretación: La visualización revela una correlación positiva directa; el incremento en la estatura se asocia proporcionalmente con un aumento en la masa. La mayoría de los personajes se agrupan en un rango de 160 a 190 cm. La segmentación por género muestra que los personajes masculinos suelen ocupar los rangos superiores de ambas métricas físicas en comparación con los femeninos.


Gráfico 2: Distribución de Representación por Género

Este análisis cuantifica la composición demográfica dentro de la base de datos de los personajes principales y secundarios de la franquicia.

ggplot(starwars, aes(x = gender, fill = gender)) +
  geom_bar(width = 0.7) +
  scale_fill_manual(values = c("masculine" = "#1a1a1a", "feminine" = "#e62117"),
                    na.value = "grey70") +
  theme_minimal() +
  labs(title = "Composición de la Franquicia por Género",
       x = "Categoría de Identidad",
       y = "Conteo de Personajes") +
  theme(legend.position = "none")

Interpretación: El gráfico de barras evidencia una disparidad en la representación; existe una mayoría sustancial de personajes masculinos frente a la identidad femenina. Los valores no definidos (NA) corresponden mayormente a unidades robóticas o especies cuya biología no se ajusta a las categorías tradicionales de género registradas en SWAPI.


Gráfico 3: Distribución de Estatura de los Personajes

Se analiza la variable height de forma univariada para comprender cómo se distribuyen las alturas en toda la población del dataset, independientemente del género o la especie.

ggplot(starwars %>% filter(!is.na(height)), aes(x = height)) +
  geom_histogram(aes(y = after_stat(density)), bins = 20,
                 fill = "#e62117", color = "#111111", alpha = 0.85) +
  geom_density(color = "white", linewidth = 1.2, linetype = "dashed") +
  theme_minimal() +
  labs(title = "Distribución de la Estatura de los Personajes",
       subtitle = "Histograma normalizado con curva de densidad (n = 81 personajes con datos)",
       x = "Estatura (cm)",
       y = "Densidad")

Interpretación: La distribución presenta una concentración principal en el rango 160–200 cm, que corresponde a la estatura humanoide estándar predominante en la franquicia. La cola izquierda incluye personajes de baja estatura como Yoda (66 cm) y R2-D2 (96 cm), mientras que la cola derecha está compuesta por especies de gran envergadura como Yarael Poof (264 cm). La curva de densidad superpuesta confirma una distribución asimétrica con sesgo positivo leve, lo cual es consistente con el predominio de morfología humanoide en el universo Star Wars.

Hallazgos Clave

A partir del análisis exploratorio y las tres visualizaciones generadas, se identifican los siguientes descubrimientos principales:

  • Outlier crítico: Jabba the Hutt (1,358 kg) es un valor atípico extremo que eleva artificialmente la media de masa a 97.3 kg frente a la mediana de 79 kg. Su exclusión es indispensable para cualquier análisis morfológico válido.
  • Brecha de representación: La franquicia presenta aproximadamente 4 personajes masculinos por cada personaje femenino (ratio ~4:1), lo que evidencia un sesgo histórico en la saga original.
  • Correlación morfológica: La relación positiva fuerte entre estatura y masa (r ≈ 0.72) indica coherencia biológica en el diseño de los personajes a pesar de la diversidad interespecies.
  • Datos faltantes estructurales: El 50.6% de los personajes carece de birth_year, lo que refleja las limitaciones de SWAPI para documentar el lore de personajes secundarios y especies alienígenas.
  • Distribución de alturas: La concentración del 70%+ de personajes en el rango 160–200 cm sugiere una influencia del diseño de producción cinematográfica hacia morfologías humanoides reconocibles.
  • Período histórico extenso: El dataset abarca 888 años del universo Star Wars (8–896 BBY), demostrando la profundidad cronológica de la saga expandida.