Este dataset, disponible en Kaggle y titulado “Netflix Data” por Rohit Grewal, incluye información sobre series y películas disponibles en Netflix, con metadatos relevantes como tipo de contenido, elenco, géneros, fechas, entre otros.
En un proyecto relacionado, se menciona que el dataset contiene alrededor de 16 000 filas (títulos) y 18 columnas, cada fila representando un título —aunque otro análisis del dataset indica que se limita a películas, con 18 variables en total.
Tamaño de muestra: aproximadamente 16 000 títulos, suponiendo que incluye tanto películas como series. Número de variables/columnas: 18 columnas que describen diferentes atributos de cada título.
Limpiamos los datos eliminando variables que no son relevantes como: directores, cast y descripción, ya que, en directores y cast había varios datos que no estaban y la descripción era muy larga y no tenía información relevante.
# A tibble: 6 × 10
Show_Id Category Title Director Cast Country Release_Date Rating Duration
<chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
1 s1 TV Show 3% <NA> João… Brazil August 14, … TV-MA 4 Seaso…
2 s2 Movie 07:19 Jorge Miche… Demi… Mexico December 23… TV-MA 93 min
3 s3 Movie 23:59 Gilbert Chan Tedd… Singap… December 20… R 78 min
4 s4 Movie 9 Shane Acker Elij… United… November 16… PG-13 80 min
5 s5 Movie 21 Robert Luke… Jim … United… January 1, … PG-13 123 min
6 s6 TV Show 46 Serdar Akar Erda… Turkey July 1, 2017 TV-MA 1 Season
# ℹ 1 more variable: Type <chr>
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
3.00 86.00 98.00 99.31 114.00 312.00 2410
Show_Id Category Title Director
Length:7789 Length:7789 Length:7789 Length:7789
Class :character Class :character Class :character Class :character
Mode :character Mode :character Mode :character Mode :character
Cast Country Release_Date Rating
Length:7789 Length:7789 Length:7789 Length:7789
Class :character Class :character Class :character Class :character
Mode :character Mode :character Mode :character Mode :character
Duration Type
Min. : 3.00 Length:7789
1st Qu.: 86.00 Class :character
Median : 98.00 Mode :character
Mean : 99.31
3rd Qu.:114.00
Max. :312.00
NA's :2410
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
3.00 86.00 98.00 99.31 114.00 312.00 2410
[1] 0.1341536
G NC-17 NR PG PG-13 R TV-14 TV-G TV-MA TV-PG TV-Y TV-Y7
Movie 39 3 79 247 386 663 1272 111 1847 505 117 95
TV Show 0 0 5 0 0 2 659 83 1018 301 163 176
TV-Y7-FV UR
Movie 5 5
TV Show 1 0
---
title: "Avance 2 - Trabajo Final"
author: "Sebastian Ramirez, Santiago Henao, Juan F Muñoz, Alejandro Quiceno, Nicolas Guerrero"
date: "2025-11-09"
output:
flexdashboard::flex_dashboard:
orientation: rows
social: menu
source_code: embed
---
Información de los datos
==============================================================
Row
--------------------------------------------------------------
### Conjunto de datos
Este dataset, disponible en Kaggle y titulado “Netflix Data” por Rohit Grewal, incluye información sobre series y películas disponibles en Netflix, con metadatos relevantes como tipo de contenido, elenco, géneros, fechas, entre otros.
En un proyecto relacionado, se menciona que el dataset contiene alrededor de 16 000 filas (títulos) y 18 columnas, cada fila representando un título —aunque otro análisis del dataset indica que se limita a películas, con 18 variables en total.
### Tamaño de muestra y variables
Tamaño de muestra: aproximadamente 16 000 títulos, suponiendo que incluye tanto películas como series.
Número de variables/columnas: 18 columnas que describen diferentes atributos de cada título.
### Descripción de variables

---
Análisis descriptivos
==============================================================
Row
--------------------------------------------------------------
### Reprocesamiento de datos
Limpiamos los datos eliminando variables que no son relevantes como: directores, cast y descripción, ya que, en directores y cast había varios datos que no estaban y la descripción era muy larga y no tenía información relevante.
```{r}
library(tidyverse)
library(readxl)
netflix_data <- read_excel("Netflix_Dataset_.xlsx")
head(netflix_data)
```
---
Estadísticas descriptivas univariadas
==============================================================
Row
--------------------------------------------------------------
### Estadísticas descriptivas univariadas


---
Gráficos univariados
==============================================================
Row
--------------------------------------------------------------
### Gráficos univariados







---
Análisis univariado (datos atípicos)
==============================================================
Row
--------------------------------------------------------------
```{r}
netflix_data$Duration <- gsub(" min", "", netflix_data$Duration)
netflix_data$Duration <- as.numeric(netflix_data$Duration)
```
```{r}
boxplot(netflix_data$Duration, main = "Boxplot de la Duración de Películas", ylab = "Duración (minutos)")
summary(netflix_data$Duration)
```
---
Análisis bivariado
==============================================================
Row
--------------------------------------------------------------
```{r}
summary(netflix_data)
netflix_data$Duration <- as.numeric(gsub(" min", "", netflix_data$Duration))
summary(netflix_data$Duration)
netflix_data$Release_Year <- as.numeric(format(as.Date(netflix_data$Release_Date, format="%B %d, %Y"), "%Y"))
correlation <- cor(netflix_data$Release_Year, netflix_data$Duration, use="complete.obs")
correlation
```
---
Row
--------------------------------------------------------------
```{r}
ggplot(netflix_data, aes(x = Release_Year, y = Duration)) +
geom_point() +
theme_minimal() +
labs(title = "Gráfico de Dispersión entre Año de Estreno y Duración",
x = "Año de Estreno", y = "Duración (minutos)")
```
---
Row
--------------------------------------------------------------
```{r}
ggplot(netflix_data, aes(x = Category, y = Duration)) +
geom_boxplot() +
theme_minimal() +
labs(title = "Diagrama de Cajas de Duración por Categoría",
x = "Categoría", y = "Duración (minutos)")
```
---
Row
--------------------------------------------------------------
```{r}
table_cruzada <- table(netflix_data$Category, netflix_data$Rating)
table_cruzada
ggplot(netflix_data, aes(x = Category, fill = Rating)) +
geom_bar(position = "fill") +
theme_minimal() +
labs(title = "Distribución de Ratings por Categoría",
x = "Categoría", y = "Proporción")
```
---
Conclusiones y recomendaciones
==============================================================
Row
--------------------------------------------------------------
### Conclusiones
- La mayoría de los títulos pertenecen a la categoría de películas, con duraciones promedio de entre 90 y 110 minutos.
- Existe una leve correlación negativa entre el año de estreno y la duración.
- Los ratings varían significativamente entre categorías, mostrando más títulos “TV-MA” en series.
- Los géneros más comunes son drama, comedia y acción.
---
Row
--------------------------------------------------------------