Este informe presenta un análisis exhaustivo del conjunto de datos
starwars, integrado en la librería dplyr de la
División de Ciencias de la Ingeniería de la USAC. El dataset ofrece una
perspectiva detallada de los personajes de la saga, incluyendo métricas
físicas, procedencia galáctica y clasificaciones biológicas.
Los datos provienen originalmente de SWAPI (The Star Wars
API), una plataforma de datos abiertos creada por Paul Hallett.
El equipo de dplyr procesó estas estructuras JSON para
convertirlas en un formato tabular (tibble) listo para el
análisis en R, facilitando el estudio de los personajes de la
franquicia.
A continuación, se describen las variables principales que componen el conjunto de datos:
| Variable | Descripción |
|---|---|
| name | Nombre completo del personaje. |
| height | Altura registrada en centímetros. |
| mass | Peso corporal medido en kilogramos. |
| hair_color | Color de cabello (etiquetado como “none” para droides). |
| skin_color | Color de la piel o superficie del personaje. |
| eye_color | Tonalidad de los ojos. |
| birth_year | Año de nacimiento (BBY - Before the Battle of Yavin). |
| sex | Clasificación biológica (male, female, hermaphrodite, none). |
| gender | Identidad de género (masculine, feminine). |
| homeworld | Planeta de origen dentro del universo. |
| species | Clasificación taxonómica (humano, droide, etc.). |
| films | Listado de películas en las que participa el personaje. |
| vehicles | Vehículos terrestres o atmosféricos operados. |
| starships | Naves espaciales pilotadas durante la saga. |
Las tres variables cuantitativas continuas del dataset se resumen a
continuación. Cabe destacar que la media de mass es
notablemente superior a su mediana, indicando la presencia de un valor
atípico severo: Jabba the Hutt (1,358 kg).
| Variable | Mínimo | Mediana | Media | Máximo | Valores.NA |
|---|---|---|---|---|---|
| height (cm) | 66 | 180 | 174.6 | 264 | 6 |
| mass (kg) | 15 | 79 | 97.3 | 1358 | 28 |
| birth_year (BBY) | 8 | 52 | 87.6 | 896 | 44 |
La siguiente tabla muestra el conteo de NA para cada
variable no-lista del dataset, ordenado de mayor a menor. La alta tasa
de birth_year (50.6%) refleja la escasa documentación
histórica de personajes secundarios en SWAPI.
| Variable | NAs | X. |
|---|---|---|
| birth_year | 44 | 50.6% |
| mass | 28 | 32.2% |
| homeworld | 10 | 11.5% |
| height | 6 | 6.9% |
| hair_color | 5 | 5.7% |
| sex | 4 | 4.6% |
| gender | 4 | 4.6% |
| species | 4 | 4.6% |
| name | 0 | 0% |
| skin_color | 0 | 0% |
| eye_color | 0 | 0% |
# Preprocesamiento: Filtrado del valor atípico extremo (Jabba the Hutt, 1358 kg)
# para normalizar la escala visual en la gráfica de correlación
starwars_filtered <- starwars %>%
filter(mass < 500)Se seleccionaron las variables height y
mass para determinar si la estructura física de los
personajes sigue una tendencia biológica coherente entre géneros.
ggplot(starwars_filtered, aes(x = height, y = mass)) +
geom_point(aes(color = gender), size = 3, alpha = 0.8) +
geom_smooth(method = "lm", color = "#e62117", linetype = "dashed", se = FALSE) +
theme_minimal() +
labs(title = "Relación entre Estatura y Masa Corporal",
subtitle = "Tendencia lineal para la población general (Masa < 500kg)",
x = "Estatura (cm)",
y = "Masa (kg)",
color = "Identidad de Género")## `geom_smooth()` using formula = 'y ~ x'
Interpretación: La visualización revela una correlación positiva directa; el incremento en la estatura se asocia proporcionalmente con un aumento en la masa. La mayoría de los personajes se agrupan en un rango de 160 a 190 cm. La segmentación por género muestra que los personajes masculinos suelen ocupar los rangos superiores de ambas métricas físicas en comparación con los femeninos.
Este análisis cuantifica la composición demográfica dentro de la base de datos de los personajes principales y secundarios de la franquicia.
ggplot(starwars, aes(x = gender, fill = gender)) +
geom_bar(width = 0.7) +
scale_fill_manual(values = c("masculine" = "#1a1a1a", "feminine" = "#e62117"),
na.value = "grey70") +
theme_minimal() +
labs(title = "Composición de la Franquicia por Género",
x = "Categoría de Identidad",
y = "Conteo de Personajes") +
theme(legend.position = "none")Interpretación: El gráfico de barras evidencia una
disparidad en la representación; existe una mayoría sustancial de
personajes masculinos frente a la identidad femenina. Los valores no
definidos (NA) corresponden mayormente a unidades robóticas
o especies cuya biología no se ajusta a las categorías tradicionales de
género registradas en SWAPI.
Se analiza la variable height de forma univariada para
comprender cómo se distribuyen las alturas en toda la población del
dataset, independientemente del género o la especie.
ggplot(starwars %>% filter(!is.na(height)), aes(x = height)) +
geom_histogram(aes(y = after_stat(density)), bins = 20,
fill = "#e62117", color = "#111111", alpha = 0.85) +
geom_density(color = "white", linewidth = 1.2, linetype = "dashed") +
theme_minimal() +
labs(title = "Distribución de la Estatura de los Personajes",
subtitle = "Histograma normalizado con curva de densidad (n = 81 personajes con datos)",
x = "Estatura (cm)",
y = "Densidad")Interpretación: La distribución presenta una concentración principal en el rango 160–200 cm, que corresponde a la estatura humanoide estándar predominante en la franquicia. La cola izquierda incluye personajes de baja estatura como Yoda (66 cm) y R2-D2 (96 cm), mientras que la cola derecha está compuesta por especies de gran envergadura como Yarael Poof (264 cm). La curva de densidad superpuesta confirma una distribución asimétrica con sesgo positivo leve, lo cual es consistente con el predominio de morfología humanoide en el universo Star Wars.
A partir del análisis exploratorio y las tres visualizaciones generadas, se identifican los siguientes descubrimientos principales:
birth_year, lo que refleja las
limitaciones de SWAPI para documentar el lore de personajes secundarios
y especies alienígenas.