# Importo le librerie che mi servono
library(lubridate)
library(ggplot2)
library(dplyr)
# Importo il dataset
dati <- read.csv("C:\\Users\\arena\\Downloads\\Netflix Userbase.csv", header = TRUE, sep = ",",  stringsAsFactors = FALSE)
dati
dati

Descrizione delle Variabili del Dataset

summary(dati)
    User.ID       Subscription.Type  Monthly.Revenue  Join.Date         Last.Payment.Date    Country               Age      
 Min.   :   1.0   Length:2500        Min.   :10.00   Length:2500        Length:2500        Length:2500        Min.   :26.0  
 1st Qu.: 625.8   Class :character   1st Qu.:11.00   Class :character   Class :character   Class :character   1st Qu.:32.0  
 Median :1250.5   Mode  :character   Median :12.00   Mode  :character   Mode  :character   Mode  :character   Median :39.0  
 Mean   :1250.5                      Mean   :12.51                                                            Mean   :38.8  
 3rd Qu.:1875.2                      3rd Qu.:14.00                                                            3rd Qu.:45.0  
 Max.   :2500.0                      Max.   :15.00                                                            Max.   :51.0  
    Gender             Device          Plan.Duration     
 Length:2500        Length:2500        Length:2500       
 Class :character   Class :character   Class :character  
 Mode  :character   Mode  :character   Mode  :character  
                                                         
                                                         
                                                         

Dal Summary vediamo che le variabili numeriche sono 3:

Di particolare interesse è notare che le variabili di data sono attualmente di tipo Stringa.

summary(dati$Monthly.Revenue)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  10.00   11.00   12.00   12.51   14.00   15.00 
var(dati$Monthly.Revenue)
[1] 2.845468
sd(dati$Monthly.Revenue)
[1] 1.686851
hist(dati$Monthly.Revenue, 
     main="Istogramma del Monthly Revenue con Curva di Densità", 
     xlab="Monthly Revenue", 
     ylab="Densità",
     col="green", 
     border="black",
     freq=FALSE) 

densità_revenue <- density(dati$Monthly.Revenue, na.rm = TRUE)
lines(densità_revenue, col="red", lwd=2) 

Come avevo fatto notare prima, il Monthly Revenue va da 10 a 15, rendendo quindi poco utile qui un istogramma, decido di trasformarla temporaneamente in una variabile categorica.

dati$Monthly.Revenue <- as.factor(dati$Monthly.Revenue)
# Calcolo delle frequenze
frequenze_monthly_revenue <- table(dati$Monthly.Revenue)

# Calcolo delle percentuali
percentuali_monthly_revenue <- prop.table(frequenze_monthly_revenue) * 100

# Visualizzazione delle frequenze e delle percentuali
freq_perc_monthly_revenue <- data.frame(Frequenza=frequenze_monthly_revenue, Percentuale=percentuali_monthly_revenue)
print(freq_perc_monthly_revenue)
# Creazione del barplot per la frequenza
barplot(freq_perc_monthly_revenue$Frequenza.Freq,
        names.arg=freq_perc_monthly_revenue$Frequenza.Var1,
        main="Distribuzione della Monthly Revenue",
        xlab="Monthly Revenue",
        ylab="Frequenza",
        col="blue",
        las=1) 

text(x = barplot(freq_perc_monthly_revenue$Frequenza.Freq, plot = FALSE),
     
     y = freq_perc_monthly_revenue$Frequenza.Freq + 1, 
     label = paste(round(freq_perc_monthly_revenue$Percentuale.Freq, 2), "%"), 
     pos = 1, cex=1,font=2) 

Gli abbonamenti più comuni sono quelli a 12 euro, mentre i meno comuni quelli a 11 euro. Avendo stabilito che sono tutti pagamenti mensili è probabile che dipenda dal tipo di abbonamento e dal paese.

summary(dati$Age)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   26.0    32.0    39.0    38.8    45.0    51.0 
var(dati$Age)
[1] 51.43439
sd(dati$Age)
[1] 7.171778
hist(dati$Age, 
     main="Istogramma dell'Età con Curva di Densità", 
     xlab="Età", 
     ylab="Densità",
     col="blue", 
     border="black",
     freq=FALSE,
     breaks=10)

densità <- density(dati$Age) 
lines(densità, col="red", lwd=2) 

Per quanto riguarda l’età, l’istogramma e la curva di densità mostrano una rappresentazione abbastanza regolare dai 25 ai 50 anni, con un calo dai 50 in su.

# Calcolo delle frequenze
frequenze_sub_type <- table(dati$Subscription.Type)

# Calcolo delle percentuali
percentuali_sub_type <- prop.table(frequenze_sub_type) * 100

# Visualizzazione delle frequenze e delle percentuali
freq_perc_sub_type <- data.frame(Frequenza=frequenze_sub_type, Percentuale=percentuali_sub_type)
print(freq_perc_sub_type)
barplot(freq_perc_sub_type$Frequenza.Freq,
        names.arg=freq_perc_sub_type$Frequenza.Var1,
        main="Distribuzione della Subscription Type",
        xlab="Subscription Type",
        ylab="Frequenza",
        col="blue",
        las=1)

text(x = barplot(freq_perc_sub_type$Frequenza.Freq, plot = FALSE), 
     y = freq_perc_sub_type$Frequenza.Freq + 1, 
     label = paste(round(freq_perc_sub_type$Percentuale.Freq, 2), "%"), 
     pos = 1, cex=1,font=2)

La categoria di abbonamento più diffusa è quella Basic con un 40%, seguita da Standard e poco sotto Premium.

# Calcolo delle frequenze
frequenze_country <- table(dati$Country)

# Calcolo delle percentuali
percentuali_country <- prop.table(frequenze_country) * 100

# Visualizzazione delle frequenze e delle percentuali
freq_perc_country <- data.frame(Frequenza=frequenze_country, Percentuale=percentuali_country)
print(freq_perc_country)
barplot_heights <- barplot(freq_perc_country$Frequenza.Freq,
                           main="Distribuzione dei paesi",
                           xlab="Paesi",
                           ylab="Frequenza",
                           col="blue",
                           las=1,
                           xaxt='n')

axis(1, at=barplot_heights, labels=freq_perc_country$Frequenza.Var1, cex.axis=0.6, srt=45)

text(x = barplot_heights, 
     y = freq_perc_country$Frequenza.Freq + 1, 
     label = paste(round(freq_perc_country$Percentuale.Freq, 2), "%"), 
     pos = 1, cex=0.8,font=2) 

I paesi con più abbonati sono a pari merito Spagna e Stati Uniti, seguiti poi dopo dal Canada al terzo posto.

# Calcolo delle frequenze
frequenze_gender <- table(dati$Gender)

# Calcolo delle percentuali
percentuali_gender <- prop.table(frequenze_gender) * 100

# Visualizzazione delle frequenze e delle percentuali
freq_perc_gender <- data.frame(Frequenza=frequenze_gender, Percentuale=percentuali_gender)
print(freq_perc_gender)
barplot(freq_perc_gender$Frequenza.Freq,
        names.arg=freq_perc_gender$Frequenza.Var1,
        main="Distribuzione del genere",
        xlab="Generi",
        ylab="Frequenza",
        col="blue",
        las=1)

text(x = barplot(freq_perc_gender$Frequenza.Freq, plot = FALSE), 
     y = freq_perc_gender$Frequenza.Freq + 1,
     label = paste(round(freq_perc_gender$Percentuale.Freq, 2), "%"), 
     pos = 1, cex=1,font=2) 

Il genere degli abbonati è praticamente diviso equamente tra maschi e femmine.

frequenze_device <- table(dati$Device)

percentuali_device <- prop.table(frequenze_device) * 100

freq_perc_device <- data.frame(Frequenza=frequenze_device, Percentuale=percentuali_device)
print(freq_perc_device)
barplot(freq_perc_device$Frequenza.Freq,
        names.arg=freq_perc_device$Frequenza.Var1,
        main="Distribuzione dei dispositivi",
        xlab="Dispositivi",
        ylab="Frequenza",
        col="blue",
        las=1)

text(x = barplot(freq_perc_device$Frequenza.Freq, plot = FALSE), 
     y = freq_perc_device$Frequenza.Freq + 1,
     label = paste(round(freq_perc_device$Percentuale.Freq, 2), "%"), 
     pos = 1, cex=1,font=2) 

Anche per quanto riguarda i dispositivi utilizzati per accedere a Netflix le osservazioni sono egualmente distribuite.

# Calcolo delle frequenze
frequenze_plan_duration <- table(dati$Plan.Duration)

# Calcolo delle percentuali
percentuali_plan_duration <- prop.table(frequenze_plan_duration) * 100

# Visualizzazione delle frequenze e delle percentuali
freq_perc_plan_duration <- data.frame(Frequenza=frequenze_plan_duration, Percentuale=percentuali_plan_duration)
print(freq_perc_plan_duration)
boxplot(dati$Age ~ dati$Subscription.Type,
        main="Boxplot di Age per Subscription Type",
        xlab="Tipo di Abbonamento",
        ylab="Età",
        col="lightblue")

I boxplot non mostrano una grande differenza a livello di distribuzione dell’età nelle 3 categorie di abbonamento.

boxplot(dati$Age ~ dati$Gender,
        main="Boxplot di Age per Gender",
        xlab="Genere",
        ylab="Età",
        col="lightgreen")

Anche per quanto riguarda il genere rapportato all’età non c’è troppa differenza, si può dire che forse le femmine sono leggermente (di molto poco) più anziane.

boxplot(dati$Age ~ dati$Device,
        main="Boxplot di Age per Device",
        xlab="Dispositivo",
        ylab="Età",
        col="lightcoral")

Per quanto riguarda il Device rapportato all’età, le differenze sono molto sottili, si può notare che nella fascia sotto i 35 è più probabile trovare utenti che usano Smart TV e Tablet.

boxplot(dati$Age ~ dati$Country,
        main="Boxplot di Age per Paese",
        xlab="Paese",
        ylab="Età",
        col="lightyellow",
        cex.axis=0.8)

Italia e Brasile hanno il range più ampio di età di utenti presenti prendendo quasi tutta la fascia di età disponibile, mentre ad esempio in Germania le osservazioni sono più concentrate tra i 35 e i 45.


# Raggruppo le osservazioni per genere e subscription type e calcolo le percentuali
dati_count <- dati %>%
  group_by(Gender, Subscription.Type) %>%
  summarise(Count = n(), .groups = 'drop') %>%
  group_by(Gender) %>%
  mutate(Total = sum(Count)) %>%
  mutate(Percentage = Count / Total * 100)

ggplot(dati_count, aes(x = Gender, y = Count, fill = Subscription.Type)) +
  geom_bar(stat = "identity", position = "dodge") +
  geom_text(aes(label = sprintf("%.1f%%", Percentage), y = Count), 
            position = position_dodge(width = 0.9), vjust = -0.5, size = 3.5) +
  labs(title = "Distribuzione di Subscription Type per Gender",
       x = "Gender",
       y = "Conteggio",
       fill = "Subscription Type") +
  theme_minimal()

La distribuzione del tipo di abbonamento per genere non presenta praticolari differenze, entrambi preferiscono l’abbonamento Basic, a seguire lo Standard e poi il Premium.

# Raggruppo le osservazioni per genere e device e calcolo le percentuali
dati_count <- dati %>%
  group_by(Gender, Device) %>%
  summarise(Count = n(), .groups = 'drop') %>%
  group_by(Gender) %>%
  mutate(Total = sum(Count)) %>%
  mutate(Percentage = Count / Total * 100)

ggplot(dati_count, aes(x = Gender, y = Count, fill = Device)) +
  geom_bar(stat = "identity", position = "dodge") +
  geom_text(aes(label = sprintf("%.1f%%", Percentage), y = Count), 
            position = position_dodge(width = 0.9), vjust = -0.5, size = 3.5) +
  labs(title = "Distribuzione di Device per Gender",
       x = "Gender",
       y = "Conteggio",
       fill = "Device") +
  theme_minimal()

Si può osservare una leggera differenza a livello di Device per Genere, i maschi usano più lo Smartphone, mentre le femmine più Laptop e Tablet, tenendo lo Smartphone come ultima scelta.

# Preparazione dei dati con calcolo delle percentuali per colonna
dati_count <- dati %>%
  group_by(Country, Gender) %>%
  summarise(Count = n(), .groups = 'drop') %>%
  group_by(Country) %>%
  mutate(Total = sum(Count)) %>%
  mutate(Percentage = Count / Total * 100)

ggplot(dati_count, aes(x = Country, y = Count, fill = Gender)) +
  geom_bar(stat = "identity", position = "fill") +
  geom_text(aes(label = sprintf("%.1f%%", Percentage)),
            position = position_fill(vjust = 0.5),
            size = 3.5) +
  labs(title = "Distribuzione di Gender per Country",
       x = "Country",
       y = "Percentuale",
       fill = "Gender") +
  theme_minimal()

La distribuzione del genere all’interno di ogni paese è praticamente sempre divisa al 50%.

# Preparazione dei dati con calcolo delle percentuali per colonna
dati_count <- dati %>%
  group_by(Country, Device) %>%
  summarise(Count = n(), .groups = 'drop') %>%
  group_by(Country) %>%
  mutate(Total = sum(Count)) %>%
  mutate(Percentage = Count / Total * 100)

ggplot(dati_count, aes(x = Country, y = Count, fill = Device)) +
  geom_bar(stat = "identity", position = "fill") +
  geom_text(aes(label = sprintf("%.1f%%", Percentage)),
            position = position_fill(vjust = 0.5),
            size = 3.5) +
  labs(title = "Distribuzione di Device per Country",
       x = "Country",
       y = "Percentuale",
       fill = "Device") +
  theme_minimal()

Da questo plot possiamo notare alcune differenze riguardo il Device che ogni utente utilizza in base al paese. Alcune cose più evidenti sono:

# Preparazione dei dati con calcolo delle percentuali per colonna
dati_count <- dati %>%
  group_by(Country, Subscription.Type) %>%
  summarise(Count = n(), .groups = 'drop') %>%
  group_by(Country) %>%
  mutate(Total = sum(Count)) %>%
  mutate(Percentage = Count / Total * 100)

ggplot(dati_count, aes(x = Country, y = Count, fill = Subscription.Type)) +
  geom_bar(stat = "identity", position = "fill") +
  geom_text(aes(label = sprintf("%.1f%%", Percentage)),
            position = position_fill(vjust = 0.5),
            size = 3.5) +
  labs(title = "Distribuzione di Subscription.Type per Country",
       x = "Country",
       y = "Percentuale",
       fill = "Subscription Type") +
  theme_minimal()

Analizzando come la Subscription Type è distribuita all’interno dei paesi, saltano all’occhio alcuni insights:

# Preparazione dei dati con calcolo delle percentuali per colonna
dati_count <- dati %>%
  group_by(Subscription.Type, Monthly.Revenue) %>%
  summarise(Count = n(), .groups = 'drop') %>%
  group_by(Subscription.Type) %>%
  mutate(Total = sum(Count)) %>%
  mutate(Percentage = Count / Total * 100)

ggplot(dati_count, aes(x = Subscription.Type, y = Count, fill = Monthly.Revenue)) +
  geom_bar(stat = "identity", position = "fill") +
  geom_text(aes(label = sprintf("%.1f%%", Percentage)),
            position = position_fill(vjust = 0.5),
            size = 3.5) +
  labs(title = "Distribuzione di Monthly Revenue per Subscription Type",
       x = "Suscription Type",
       y = "Percentuale",
       fill = "Monthly.Revenue") +
  theme_minimal()


# Trasformo Join.Date in formato Data
dati$Join.Date <- as.Date(dati$Join.Date, format = "%d-%m-%y")  

# Raggruppo per mese
dati$Join.Month <- floor_date(dati$Join.Date, "month")
user_counts_monthly <- aggregate(x = list(Count = rep(1, nrow(dati))), by = list(Date = dati$Join.Month), FUN = sum)

ggplot(user_counts_monthly, aes(x = Date, y = Count)) +
  geom_line() +  
  geom_point(size = 3, color = "blue") +  
  labs(title = "Numero di Utenti Che Si Uniscono nel Tempo (Mensile)", x = "Data", y = "Numero di Utenti") +
  theme_minimal() +
  theme(axis.text.x = element_text(size = rel(0.8))) +
  scale_x_date(date_breaks = "1 month", date_labels = "%m-%y")

Dal Lineplot si può notare che la maggior parte degli abbonamenti sono avvenuti dal mese di Giugno 2022 ad Ottobre 2022 (mese migliore in generale), con alcuni alti e bassi in mezzo.

# Trasformo Last.Payment.Date in formato Data
dati$Last.Payment.Date <- as.Date(dati$Last.Payment.Date, format = "%d-%m-%y")  

# Raggruppo per mese
dati$Last.Payment.Month <- floor_date(dati$Last.Payment.Date, "month")
payment_counts_monthly <- aggregate(x = list(Count = rep(1, nrow(dati))), by = list(Date = dati$Last.Payment.Month), FUN = sum)

ggplot(payment_counts_monthly, aes(x = Date, y = Count)) +
  geom_line() +  
  geom_point(size = 3, color = "blue") +  
  labs(title = "Numero di Pagamenti Effettuati nel Tempo (Mensile)", x = "Data", y = "Numero di Pagamenti") +
  theme_minimal() +
  theme(axis.text.x = element_text(size = rel(0.8))) +
  scale_x_date(date_breaks = "1 month", date_labels = "%m-%y")

Gli ultimi pagamenti sono tutti effettuati a giugno 2023 e luglio 2023, essendo probabilmente il Dataset aggiornato a queste date, si può dedurre che abbiamo probabilmente solo utenti attivi.

