Συλλογή και ανάλυση ενός Συνόλου Βίντεο

Author

Διαμαντόπουλος Βασίλειος

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΤΜΗΜΑ ΒΑΛΚΑΝΙΚΩΝ, ΣΛΑΒΙΚΩΝ ΚΑΙ ΑΝΑΤΟΛΙΚΩΝ ΣΠΟΥΔΩΝ Ψηφιακές Μέθοδοι Κοινωνικής Έρευνας Χειμερινό Εξάμηνο 2025 - 2026 Ερευνητική Εργασία Εξαμήνου

1. Εισαγωγή και ερευνητικά ερωτήματα

Η έλευση της ψηφιακής τεχνολογίας έχει μεταμορφώσει σημαντικά την παραγωγή και κατανάλωση περιεχομένου. Η παραδοσιακή βιομηχανία περιεχομένου μέσων ενημέρωσης έχει μετατοπιστεί σε μια ανοιχτή δομή, επιτρέποντας στα άτομα να παράγουν και να μοιράζονται ελεύθερα περιεχόμενο, με τις ατομικές προτιμήσεις και επιλογές να καθίστανται πρωταρχικής σημασίας, ενισχύοντας έτσι την ενεργή αξιοποίηση του περιεχομένου. Το YouTube βρίσκεται στην πρώτη γραμμή αυτού του μετασχηματισμού. Ως η πιο ευρέως χρησιμοποιούμενη πλατφόρμα κοινής χρήσης βίντεο και κοινωνικής δικτύωσης παγκοσμίως (Petersen-Wagner & Ludvigsen, 2023) , το YouTube διαθέτει περίπου 1 δισεκατομμύριο μηνιαίους χρήστες, με περίπου 500 ώρες βίντεο που ανεβαίνουν και πάνω από 1 δισεκατομμύριο ώρες βίντεο που παρακολουθούνται καθημερινά. Σε αντίθεση με άλλες πλατφόρμες κοινωνικής δικτύωσης, το YouTube διαθέτει ένα μοντέλο δημιουργίας εσόδων που κατανέμει τα έσοδα από διαφημίσεις σε κανάλια με περισσότερους από 1000 συνδρομητές και 4000 ώρες χρόνου προβολής τους τελευταίους 12 μήνες. Αυτό το μοντέλο έχει οδηγήσει στην ανάπτυξη επαγγελματιών YouTubers, δημιουργώντας νέες ευκαιρίες απασχόλησης (Byun, 2018).

Οι προβολές και τα likes είναι ξεχωριστές μετρήσεις στα μέσα κοινωνικής δικτύωσης: οι προβολές (εμπλοκή Επιπέδου 1) αντιπροσωπεύουν την εμβέλεια και την παθητική κατανάλωση, ενώ τα likes (Επίπεδο 2) υποδηλώνουν ενεργή έγκριση και προτίμηση. Ένας λόγος like-to-view 3-5% θεωρείται μέσος όρος σε πλατφόρμες όπως το YouTube, με τους υψηλότερους λόγους (5-10%) να υποδηλώνουν ισχυρή εμπλοκή, αν και οι προβολές δίνονται όλο και περισσότερο προτεραιότητα για τη μέτρηση της συνολικής απόδοσης του περιεχομένου (Kholoud et al., 2019).

Βασικές πτυχές της σχέσης προβολών-likes (Με βάση την ακαδημαϊκή/τεχνική έρευνα βλ. και Grahl et al., 2023) είναι

Τα επίπεδα εμπλοκής: Οι προβολές υποδηλώνουν παθητική ορατότητα, ενώ τα likes αντιπροσωπεύουν δημόσια έγκριση, καθιστώντας τα likes μια μετρική εμπλοκής υψηλότερου επιπέδου, πιο σκόπιμη.

Η μετατόπιση της “ματαιοδοξίας”: Ενώ τα likes ιστορικά υποδεικνύουν δημοτικότητα, οι σύγχρονες στρατηγικές συχνά δίνουν προτεραιότητα στις προβολές ως τον κύριο δείκτη εμβέλειας περιεχομένου, αναγνωρισιμότητας και απόδοσης της επωνυμίας.

Προγνωστική αξία: Μελέτες δείχνουν ότι ενώ οι υψηλές προβολές συχνά οδηγούν σε περισσότερα likes, το περιεχόμενο υψηλής ποιότητας αυξάνει συγκεκριμένα την αναλογία “προβολών προς διάρκεια”, ενώ, σε ορισμένες περιπτώσεις, το περιεχόμενο χαμηλότερης ποιότητας μπορεί στην πραγματικότητα να εμφανίζει υψηλότερους λόγους “σχολίων προς προβολές”.

Παράγοντες επηροής: Ο τύπος περιεχομένου, το θέμα και ο χρόνος επηρεάζουν άμεσα και τις δύο μετρήσεις, με συγκεκριμένους τύπους περιεχομένου (π.χ. εκπτώσεις) να οδηγούν σε υψηλότερη αλληλεπίδραση.

Οι συνήθως χρησιμοποιούμενοι δείκτες (Wölck et al., 2025) είναι

Μέση απόδοση: 3% - 5% των θεατών αφήνουν ένα like.

Εξαιρετική απόδοση: 5% - 10% των θεατών αφήνουν ένα like.

Παράγοντες επιρροής: Ο όγκος των likes συχνά επηρεάζει τη μελλοντική συμπεριφορά των χρηστών, δημιουργώντας έναν βρόχο θετικής ενίσχυσης.

Με βάση τις προηγούμενες αναφορές τα ερευνητικά ερωτήματα που εξετάσαμε ήταν

  1. Ποια είναι η απόδοση των εξεταζόμενων βίντεο;

  2. Ποια η σχέση μεταξύ της απόδοσης και της χρονικής διάρκειας ενός βίντεο;

  3. Ποια η αριθμητική σχέση μεταξύ των Likes με των Comments, των Views και της διάρκειας των βίντεο;

Αυτή η μελέτη συμβάλλει στη βιβλιογραφία σχετικά με τα ψηφιακά μέσα, την επικοινωνία στα μέσα κοινωνικής δικτύωσης και την αθλητική επικοινωνία, εξετάζοντας τη συμπεριφορά του κοινού σε βίντεο που αφορούν την μπασκετική Euroleague.

2. Δεδομένα και μέθοδοι

Η θεματική ενότητα που επιλέχθηκε ήταν η ανάλυση βίντεο της Basketball Euro league. Αρχικά συλλέχθηκαν σχετικά βίντεο https://ytdt.digitalmethods.net/ με λέξη κλειδί Euroleague σε σύνολο 10 επαναλήψεων (iterations) χωρίς άλλους περιορισμούς. Το εξαγόμενο αρχείο ζητήθηκε σε μορφή csv και ονομάστηκε αυτόματα videolist_search243_2026_02_02-15_18_29.csv. Το αρχείο αυτό περιείχε 243 εγγραφές και 29 μεταβλητές και ανατέθηκε στο data frame df. Ο κώδικας που χρησιμοποιήθηκε παρουσιάζεται στην συνέχεια

df <- read.csv(file.choose())
df<-df[which(df$channelTitle== "EUROLEAGUE BASKETBALL"),]

Για τις ανάγκες της εργασίας χρησιμοποιήσαμε την knitr αφού φορτώσαμε την βιβλιοθήκη tinytex. Επιπρόσθετα ζητήσαμε echo off ώστε να μην εκτυπώνεται και ο κώδικας μαζί με το output.

#tinytex::install_tinytex() library(tinytex)}

Μετά την ανάθεση του dataset στην df επιλέξαμε 6 μεταβλητές, videoTitle (τον τίτλο του βίντεο), videoCategoryLabel (την κατηγορία που ανήκει το βίντεο), durationSec (την διάρκεια του βίντεο σε δευτερόλεπτα), viewCount (τον αριθμό των προβολών), likeCount (τον αριθμό των Like) και commentCountCount ( τον αριθμό των σχολίων)

library(dplyr)

Attaching package: 'dplyr'
The following objects are masked from 'package:stats':

    filter, lag
The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union
df = select(df, videoTitle, videoCategoryLabel, durationSec, viewCount, likeCount, commentCount)

Στη συνέχεια κατασκευάσαμε 5 νέες μεταβλητές. Η πρώτη ονομάστηκε durationMin η οποία προκύπτει από την διαίρεση της διάρκειας του βίντεο με το 60 και δείχνει την διάρκεια σε λεπτά. Η δεύτερη ονομάστηκε like_to_view_ratio ως το πηλίκο των likes με τα views και η οποία δείχνει την απόδοση του βίντεο. Επίσης κατασκευάστηκαν και ακόλουθες 3 μεταβλητές

  1. commentViewRatio που υπολογίζει την αναλογία σχολίων ανά προβολή
  2. engagementScore που υπολογίζει τη συνολική αλληλεπίδραση και
  3. engagementRate που υπολογίζει το ποσοστό αλληλεπίδρασης.
df<-mutate(df, durationMin = durationSec / 60, 
           like_to_view_ratio = 100*likeCount / viewCount,  
           commentViewRatio = 100*commentCount / viewCount,
           engagementScore = likeCount + commentCount, 
           engagementRate = 100*engagementScore / viewCount)

Στη συνέχεια, για να απαντήσουμε στα ερευνητικά ερωτήματα εξετάσαμε την συμπεριφορά της μεταβλητής like to view ratio με τη βοήθεια των μέτρων θέσης και διασποράς της και αντίστοιχων γραφημάτων. Στη συνέχεια εξετάστηκαν οι σχέσεις μεταξύ των μεταβλητών ενδιαφέροντος και τέλος κατασκευάστηκε μοντέλο παλινδρόμησης με εξαρτημένη μεταβλητή την like to view ratio και ανεξάρτητες τη διάρκεια του βίντεο και τον αριθμό των comments.

3. Αποτελέσματα

Αρχικά γίνεται περιγραφή της μεταβλητής like to view ratio. Σύμφωνα με τα αποτελεσματα

summary(df[c("durationMin","like_to_view_ratio",
             "commentViewRatio","engagementRate")])
  durationMin      like_to_view_ratio commentViewRatio  engagementRate  
 Min.   : 0.2333   Min.   :0.8196     Min.   :0.00000   Min.   :0.9283  
 1st Qu.: 8.2917   1st Qu.:1.2089     1st Qu.:0.06562   1st Qu.:1.3252  
 Median : 8.6667   Median :1.3547     Median :0.09782   Median :1.4801  
 Mean   : 9.3434   Mean   :1.4971     Mean   :0.11982   Mean   :1.6170  
 3rd Qu.: 8.9333   3rd Qu.:1.6302     3rd Qu.:0.14269   3rd Qu.:1.7264  
 Max.   :57.8167   Max.   :4.6980     Max.   :0.69794   Max.   :4.7333  
summarize(df, meanView  = mean(viewCount, na.rm =T), 
          meanLike      = mean(likeCount, na.rm = T), 
          meanComment   = mean(commentCount, na.rm = T),
          meanDuration  = mean(durationMin,na.rm = T),
          meanL2view    = mean(like_to_view_ratio,na.rm = T),
          meanEngRate   = mean(engagementRate, na.rm = T),
          meanCVR       = mean(commentViewRatio, na.rm = T))
  meanView meanLike meanComment meanDuration meanL2view meanEngRate   meanCVR
1 48585.14 668.8842    60.75263     9.343421   1.497131     1.61695 0.1198189
library(ggplot2)
ggplot(df, aes(x = like_to_view_ratio)) + geom_boxplot() +coord_flip()

ggplot(df, aes(x = engagementRate)) + geom_boxplot() +coord_flip()

ggplot(df, aes(x = like_to_view_ratio, y = durationMin)) + geom_point()+ scale_y_log10() + scale_x_log10()

ggplot(df, aes(x = engagementRate, y = durationMin)) + geom_point()+ scale_y_log10() + scale_x_log10()

cor(df$like_to_view_ratio, df$durationMin, use="complete.obs")
[1] 0.008372556
cor(df$engagementRate, df$durationMin, use="complete.obs")
[1] 0.07120273
model = lm(df$likeCount ~ df$durationMin + df$viewCount + df$commentCount)
summary(model)

Call:
lm(formula = df$likeCount ~ df$durationMin + df$viewCount + df$commentCount)

Residuals:
    Min      1Q  Median      3Q     Max 
-678.61  -75.15    4.40   74.31 1768.74 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)     -5.147e+01  2.900e+01  -1.775   0.0776 .  
df$durationMin  -4.519e-01  1.828e+00  -0.247   0.8050    
df$viewCount     1.613e-02  4.145e-04  38.905  < 2e-16 ***
df$commentCount -9.708e-01  2.339e-01  -4.151 5.04e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 212 on 186 degrees of freedom
Multiple R-squared:  0.9214,    Adjusted R-squared:  0.9201 
F-statistic: 726.7 on 3 and 186 DF,  p-value: < 2.2e-16

4. Συμπεράσματα

Για τις ανάγκες της εργασίας χρισημποιήσαμε την knitr αφού φορτώσαμε την βιλιοθήκη tinytex. Επιπρόσθετα ζητήσαμε echo off ώστε να μην εκτυπώνεται και ο κώδικας μαζί με το output.

5. Βιβλιογραφία και άλλες πηγές

Byun, H.J., (2018). Analyzes the Characteristics in the Contents Production and Usage Environment of YouTube and its Popular Channels; and Examination of its Implications. Treatise Plast. Media, 21, 227–239.

Grahl, J., Hinz, O., Rothlauf, F., Abdel-Karim, B.M., Mihale-Wilson, C., (2023). How do likes influence revenue? A randomized controlled field experiment, Journal of Business Research, Volume 167, 114133, https://doi.org/10.1016/j.jbusres.2023.114133.

Kholoud, A., Jisun, A., Jim, J., (2019). View, Like, Comment, Post: Analyzing User Engagement by Topic at 4 Levels across 5 Social Media Platforms for 53 News Organizations. Proceedings of the International AAAI Conference on Web and Social Media. 13. 47-57. 10.1609/icwsm.v13i01.3208.

Petersen-Wagner, R., Lee Ludvigsen, J.A., (2023) Digital transformations in a platform society: A comparative analysis of European football leagues as YouTube complementors. Convergence,  29, 1330–1351. 

Wölck, L., Bednorz, D., Heinze, A., (2025). Likes, views, comments: How is viewer engagement related to high- and low-quality explanatory videos?.Conference: Proceedings of the 48th Conference of the International Group for the Psychology of Mathematics Education (Band 2) At: Santiago de chile