Información de los datos

Row

Conjunto de datos

Este dataset, disponible en Kaggle y titulado “Netflix Data” por Rohit Grewal, incluye información sobre series y películas disponibles en Netflix, con metadatos relevantes como tipo de contenido, elenco, géneros, fechas, entre otros.

En un proyecto relacionado, se menciona que el dataset contiene alrededor de 16 000 filas (títulos) y 18 columnas, cada fila representando un título —aunque otro análisis del dataset indica que se limita a películas, con 18 variables en total.

Tamaño de muestra y variables

Tamaño de muestra: aproximadamente 16 000 títulos, suponiendo que incluye tanto películas como series. Número de variables/columnas: 18 columnas que describen diferentes atributos de cada título.

Descripción de variables

Análisis descriptivos

Row

Reprocesamiento de datos

Limpiamos los datos eliminando variables que no son relevantes como: directores, cast y descripción, ya que, en directores y cast había varios datos que no estaban y la descripción era muy larga y no tenía información relevante.

# A tibble: 6 × 10
  Show_Id Category Title Director     Cast  Country Release_Date Rating Duration
  <chr>   <chr>    <chr> <chr>        <chr> <chr>   <chr>        <chr>  <chr>   
1 s1      TV Show  3%    <NA>         João… Brazil  August 14, … TV-MA  4 Seaso…
2 s2      Movie    07:19 Jorge Miche… Demi… Mexico  December 23… TV-MA  93 min  
3 s3      Movie    23:59 Gilbert Chan Tedd… Singap… December 20… R      78 min  
4 s4      Movie    9     Shane Acker  Elij… United… November 16… PG-13  80 min  
5 s5      Movie    21    Robert Luke… Jim … United… January 1, … PG-13  123 min 
6 s6      TV Show  46    Serdar Akar  Erda… Turkey  July 1, 2017 TV-MA  1 Season
# ℹ 1 more variable: Type <chr>

Estadísticas descriptivas univariadas

Row

Estadísticas descriptivas univariadas

Gráficos univariados

Row

Gráficos univariados

Análisis univariado (datos atípicos)

Row

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
   3.00   86.00   98.00   99.31  114.00  312.00    2410

Análisis bivariado

Row

   Show_Id            Category            Title             Director        
 Length:7789        Length:7789        Length:7789        Length:7789       
 Class :character   Class :character   Class :character   Class :character  
 Mode  :character   Mode  :character   Mode  :character   Mode  :character  
                                                                            
                                                                            
                                                                            
                                                                            
     Cast             Country          Release_Date          Rating         
 Length:7789        Length:7789        Length:7789        Length:7789       
 Class :character   Class :character   Class :character   Class :character  
 Mode  :character   Mode  :character   Mode  :character   Mode  :character  
                                                                            
                                                                            
                                                                            
                                                                            
    Duration          Type          
 Min.   :  3.00   Length:7789       
 1st Qu.: 86.00   Class :character  
 Median : 98.00   Mode  :character  
 Mean   : 99.31                     
 3rd Qu.:114.00                     
 Max.   :312.00                     
 NA's   :2410

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
   3.00   86.00   98.00   99.31  114.00  312.00    2410

[1] 0.1341536

Row

         
             G NC-17   NR   PG PG-13    R TV-14 TV-G TV-MA TV-PG TV-Y TV-Y7
  Movie     39     3   79  247   386  663  1272  111  1847   505  117    95
  TV Show    0     0    5    0     0    2   659   83  1018   301  163   176
         
          TV-Y7-FV   UR
  Movie          5    5
  TV Show        1    0

Conclusiones y recomendaciones

Row

Conclusiones

La mayoría de los títulos pertenecen a la categoría de películas, con duraciones promedio de entre 90 y 110 minutos.
Existe una leve correlación negativa entre el año de estreno y la duración.
Los ratings varían significativamente entre categorías, mostrando más títulos “TV-MA” en series.
Los géneros más comunes son drama, comedia y acción.

Row

---
title: "Avance 2 - Trabajo Final"
author: "Sebastian Ramirez, Santiago Henao, Juan F Muñoz, Alejandro Quiceno, Nicolas Guerrero"
date: "2025-11-09"
output:
  flexdashboard::flex_dashboard:
    orientation: rows
    social: menu
    source_code: embed
---

Información de los datos
==============================================================

Row
--------------------------------------------------------------

### Conjunto de datos

Este dataset, disponible en Kaggle y titulado “Netflix Data” por Rohit Grewal, incluye información sobre series y películas disponibles en Netflix, con metadatos relevantes como tipo de contenido, elenco, géneros, fechas, entre otros.

En un proyecto relacionado, se menciona que el dataset contiene alrededor de 16 000 filas (títulos) y 18 columnas, cada fila representando un título —aunque otro análisis del dataset indica que se limita a películas, con 18 variables en total.

### Tamaño de muestra y variables

Tamaño de muestra: aproximadamente 16 000 títulos, suponiendo que incluye tanto películas como series.
Número de variables/columnas: 18 columnas que describen diferentes atributos de cada título.

### Descripción de variables
![](Descripcion.jpg)

---

Análisis descriptivos
==============================================================

Row
--------------------------------------------------------------

### Reprocesamiento de datos

Limpiamos los datos eliminando variables que no son relevantes como: directores, cast y descripción, ya que, en directores y cast había varios datos que no estaban y la descripción era muy larga y no tenía información relevante.

```{r}
library(tidyverse)
library(readxl)
netflix_data <- read_excel("Netflix_Dataset_.xlsx")
head(netflix_data)
```


---

Estadísticas descriptivas univariadas
==============================================================

Row
--------------------------------------------------------------

### Estadísticas descriptivas univariadas

![](tabla3.png)
![](tabla2.png)

---

Gráficos univariados
==============================================================

Row
--------------------------------------------------------------

### Gráficos univariados

![](tabla4.png)
![](tabla5.png)
![](tabla6.png)
![](tabla7.png)
![](tabla8.png)
![](tabla9.png)
![](tabla10.png)

---

Análisis univariado (datos atípicos)
==============================================================

Row
--------------------------------------------------------------



```{r}
netflix_data$Duration <- gsub(" min", "", netflix_data$Duration)
netflix_data$Duration <- as.numeric(netflix_data$Duration)
```

```{r}
boxplot(netflix_data$Duration, main = "Boxplot de la Duración de Películas", ylab = "Duración (minutos)")
summary(netflix_data$Duration)
```

---

Análisis bivariado
==============================================================

Row
--------------------------------------------------------------
```{r}
summary(netflix_data)

netflix_data$Duration <- as.numeric(gsub(" min", "", netflix_data$Duration))
summary(netflix_data$Duration)

netflix_data$Release_Year <- as.numeric(format(as.Date(netflix_data$Release_Date, format="%B %d, %Y"), "%Y"))
correlation <- cor(netflix_data$Release_Year, netflix_data$Duration, use="complete.obs")
correlation

```


---

Row
--------------------------------------------------------------

```{r}
ggplot(netflix_data, aes(x = Release_Year, y = Duration)) +
  geom_point() +
  theme_minimal() +
  labs(title = "Gráfico de Dispersión entre Año de Estreno y Duración",
       x = "Año de Estreno", y = "Duración (minutos)")
```


---

Row
--------------------------------------------------------------

```{r}
ggplot(netflix_data, aes(x = Category, y = Duration)) +
  geom_boxplot() +
  theme_minimal() +
  labs(title = "Diagrama de Cajas de Duración por Categoría",
       x = "Categoría", y = "Duración (minutos)")
```




---

Row
--------------------------------------------------------------

```{r}
table_cruzada <- table(netflix_data$Category, netflix_data$Rating)
table_cruzada

ggplot(netflix_data, aes(x = Category, fill = Rating)) +
  geom_bar(position = "fill") +
  theme_minimal() +
  labs(title = "Distribución de Ratings por Categoría",
       x = "Categoría", y = "Proporción")
```




---

Conclusiones y recomendaciones
==============================================================

Row
--------------------------------------------------------------

### Conclusiones

- La mayoría de los títulos pertenecen a la categoría de películas, con duraciones promedio de entre 90 y 110 minutos.  
- Existe una leve correlación negativa entre el año de estreno y la duración.  
- Los ratings varían significativamente entre categorías, mostrando más títulos “TV-MA” en series.  
- Los géneros más comunes son drama, comedia y acción.

---

Row
--------------------------------------------------------------