Poniższy raport prezentuje analizę zbioru danych dotyczących filmów z
bazy IMDB, dostępnych w pakiecie ggplot2movies. Celem jest
zbadanie rozkładu ocen, popularności poszczególnych gatunków filmowych,
a także zależności między budżetem, liczbą oddanych głosów a jakością
produkcji ocenianą przez widzów. Ostatnim etapem analizy jest
prześledzenie historycznych trendów ocen w poszczególnych kategoriach
gatunkowych.
library(ggplot2)
library(ggplot2movies)
library(dplyr)
library(tidyr)
data(movies)
movies_clean <- movies %>%
select(title, year, budget, rating, votes, Action:Short) %>%
pivot_longer(cols = c(Action, Animation, Comedy, Drama, Documentary, Romance, Short),
names_to = "Gatunek",
values_to = "CzyJest") %>%
filter(CzyJest == 1)Pierwszy etap analizy to sprawdzenie, w jaki sposób kształtują się ogólne oceny produkcji w badanej bazie danych. Wykorzystany do tego został histogram.
p_oceny <- ggplot(movies_clean, aes(x=rating))
p_oceny +
geom_histogram(binwidth=0.5, fill="steelblue", color="black") +
labs(title="Rozkład ocen wszystkich filmów",
x="Ocena (1-10)", y="Liczba filmów") +
theme_bw()Interpretacja:
Największa koncentracja obserwacji występuje w przedziale 6-7 punktów, co wskazuje na dominację produkcji ocenianych jako dobre lub umiarkowanie dobre. Wraz z oddalaniem się od wartości centralnych liczba filmów systematycznie maleje. Oceny skrajne poniżej 3, jak i bardzo wysokie takie powyżej 9 pojawiają się relatywnie rzadko, stanowiąc niewielki odsetek całego zbioru. Taki kształt rozkładu sugeruje, że większość filmów spotyka się z umiarkowanym, stabilnym odbiorem widzów, a przypadki skrajnie negatywnych lub entuzjastycznych ocen mają charakter marginalny.
Kolejny wykres kolumnowy przedstawia zestawienie liczebności produkcji przypisanych do konkretnych gatunków filmowych w naszym zbiorze.
p_gatunki <- ggplot(movies_clean, aes(x=Gatunek))
p_gatunki +
geom_bar(fill="gray") +
labs(title="Liczebność gatunków", x="Gatunek", y="Liczba filmów") +
theme_bw()Interpretacja:
Najliczniej reprezentowanym gatunkiem jest dramat, a następnie komedia, co wskazuje na dominację form narracyjnych o charakterze fabularnym i uniwersalnym. Znaczący udział mają również filmy krótkometrażowe, które stanowią istotną część analizowanego materiału. Pozostałe gatunki takie jak akcja, romans, animacja oraz dokument występują zdecydowanie rzadziej i tworzą grupę o porównywalnej, niższej liczebności. Taki rozkład sugeruje nierównomierną reprezentację gatunków w zbiorze danych, co należy uwzględnić przy dalszych analizach porównawczych, zwłaszcza tych dotyczących ocen czy trendów czasowych.
Trzeci wykres przedstawia wykres rozrzutu dla produkcji o znanym budżecie, mający na celu zweryfikowanie często stawianej w branży filmowej tezy, zgodnie z którą wyższe nakłady finansowe przekładają się na lepszy odbiór dzieła.
movies_with_budget <- movies_clean %>%
filter(!is.na(budget))
p1 <- ggplot(movies_with_budget, aes(x = budget / 1000000, y = rating))
p1 + geom_point(color = "darkblue", alpha = 0.1) +
labs(title = "Czy pieniądze dają jakość?",
subtitle = "Analiza tylko dla filmów ze znanym budżetem",
x = "Budżet (w milionach dolarów)",
y = "Ocena") +
theme_bw()Interpretacja:
Rozkład punktów nie wskazuje na istnienie silnej, dodatniej korelacji między wysokością nakładów finansowych a jakością ocenianą przez widzów. Zauważalna jest duża koncentracja produkcji o niskich i średnich budżetach, których oceny charakteryzują się znacznym rozrzutem. Wraz ze wzrostem budżetu liczba obserwacji maleje, a zakres ocen ulega zawężeniu, jednak nawet wysokobudżetowe filmy nie uzyskują systematycznie wyższych not. Wynik ten sugeruje, że wysoki budżet nie stanowi samodzielnego czynnika determinującego pozytywny odbiór filmu. Należy jednak zaznaczyć, że w analizie uwzględniono wszystkie produkcje ze znanym budżetem, z których część może opierać się na bardzo niskiej liczbie oddanych głosów. Niewielka próba oceniających bywa niemiarodajna, co sprawia, że uzyskany obraz nie pozwala na ostateczne potwierdzenie bądź całkowite zaprzeczenie stawianej tezie.
Kolejnym etapem jest analiza relacji między liczbą oddanych na dany film głosów, stanowiącą miarę jego zasięgu i popularności, a uzyskaną średnią oceną. Ze względu na znaczne zróżnicowanie liczby głosów, dla osi X zastosowano skalę logarytmiczną.
p2 <- ggplot(movies_clean, aes(x = votes, y = rating))
p2 + geom_point(color = "red", alpha = 0.1) +
scale_x_log10() +
labs(title = "Relacja: Popularność a Ocena",
subtitle = "Wszystkie filmy",
x = "Liczba głosów",
y = "Ocena") +
theme_bw()Interpretacja:
W przeciwieństwie do analizy budżetowej, tutaj widoczna jest wyraźniejsza struktura rozkładu danych. W strefie niskiej popularności (lewa strona wykresu) obserwujemy maksymalny rozrzut ocen - znajdują się tu zarówno produkcje oceniane skrajnie nisko, jak i te z notami najwyższymi. Wraz ze wzrostem liczby głosów chmura punktów ulega charakterystycznemu zawężeniu i unosi się ku górze, tworząc kształt trójkąta. Wynik ten sugeruje istnienie pozytywnej zależności: filmy angażujące masową widownię (posiadające setki tysięcy głosów) niezwykle rzadko otrzymują oceny niskie, zazwyczaj utrzymując się powyżej średniego poziomu jakości.
Ostatni element raportu obrazuje to, jak ewoluowały oceny produkcji na przestrzeni całego badanego wieku, przy użyciu wykresów z wygładzonymi liniami trendów na oddzielnych panelach (facetach) dla każdego z gatunków.
p3 <- ggplot(movies_clean, aes(x = year, y = rating))
p3 + geom_smooth(method = "lm", color = "black") +
facet_wrap(~Gatunek) +
labs(title = "3. Trend ocen w czasie",
x = "Rok produkcji",
y = "Średnia ocena") +
theme_bw()Interpretacja:
Te wykresy ilustrują tendencje ocen filmów na przestrzeni lat z podziałem na poszczególne gatunki. W przypadku najpopularniejszych kategorii kina fabularnego, takich jak akcja, komedia czy romans, obserwujemy systematyczną tendencję spadkową. Linie regresji wskazują, że starsze produkcje z tych gatunków cieszą się wyższą średnią oceną niż filmy współczesne, przy czym najgłębszy spadek jakości w oczach widzów dotyczy kina akcji. Zupełnie odmienną charakterystykę wykazują gatunki bardziej niszowe, takie jak filmy dokumentalne oraz krótkometrażowe. W ich przypadku odnotowano wyraźny, dodatni trend wzrostowy, co oznacza, że nowsze produkcje są oceniane wyżej niż te z początków kinematografii. Wyniki te sugerują, że podczas gdy masowe kino rozrywkowe mierzy się z postępującym spadkiem uznania odbiorców, formy dokumentalne i krótkie zyskują na renomie w ostatnich dekadach.