Объектом исследования являются социальные сети в Интернете.
В качестве предмета исследования рассматриваются взаимосвязи музыкальных предпочтений пользователей сайта Вконтакте и их самопрезентации.
Целью исследования является выявление наличия и определение степени взаимовлияния культурных (музыкальных) предпочтений, их самопрезентации и дружбы пользователей в социальных сетях в Интернете на примере сети Вконтакте.
Какую музыку слушают пользователи Вконтакте?
Как связан возраст с музыкальными предпочтениями?
Как связана дружба с музыкальными предпочтениями?
Данные об исполнителях
name tracks users genre
25698 баста 963 296 unknown
9744 земфира 865 181 alternative & punk
7368 noize mc 772 171 urban
25999 сплин 769 196 rock
10616 ленинград 625 133 alternative & punk
25853 rihanna 622 221 pop
name mood origin era max_similarity
25698 баста energizing eastern europe 2000's 1
9744 земфира rowdy eastern europe 2000's 1
7368 noize mc unknown eastern europe 2000's 1
25999 сплин urgent eastern europe 1990's 1
10616 ленинград energizing eastern europe 2000's 1
25853 rihanna excited caribbean 2000's 1
10375 linkin park urgent north america 2000's 1
32148 muse gritty western europe 2000's 1
13617 adele yearning western europe 2000's 1
19758 иван дорн cool eastern europe 2010's 1
Данные о пользователях
[1] "mood_empowering" "mood_excited"
[3] "mood_cool" "origin_caribbean"
[5] "mood_stirring" "mood_tender"
[7] "genre_electronica" "total_tracks"
[9] "mood_romantic" "total_artists"
[11] "genre_classical" "origin_middle.east"
[13] "mood_melancholy" "id"
[15] "mood_rowdy" "origin_south.america"
[17] "genre_alternative...punk" "genre_soundtrack"
[19] "genre_unknown" "user_id"
[21] "mood_serious" "mood_upbeat"
[23] "origin_north.america" "total_2nd_circle"
[25] "origin_southeast.asia" "mood_unknown"
[27] "passed_threshold" "mood_brooding"
[29] "origin_east.central.africa" "net_biconnected_components"
[31] "mood_easygoing" "mood_defiant"
[33] "origin_asia" "genre_pop"
[35] "origin_eastern.europe" "genre_rock"
[37] "has_clean_name" "mood_energizing"
[39] "total_friends_music" "origin_north.africa"
[41] "genre_traditional" "mood_lively"
[43] "mood_somber" "mood_yearning"
[45] "mood_aggressive" "mood_sentimental"
[47] "origin_other" "origin_central.asia"
[49] "mood_sensual" "mood_gritty"
[51] "genre_other" "genre_urban"
[53] "mood_other" "mood_sophisticated"
[55] "origin_unknown" "genre_jazz"
[57] "total_friends" "mood_urgent"
[59] "origin_west.africa" "origin_scandinavia"
[61] "origin_australia.oceania" "origin_central.america"
[63] "origin_southern.africa" "net_average_clustering"
[65] "origin_western.europe" "origin_mediterranean.europe"
[67] "mood_fiery" "mood_peaceful"
[69] "bday" "bmonth"
[71] "byear" "city"
[73] "country" "uni_city"
[75] "uni_year" "university"
[77] "uni_name" "uni_department"
[79] "alcohol" "smoking"
[81] "pdict_size" "perc_threshold"
[83] "age" "music_per_friend"
[85] "perc_genre_urban" "perc_genre_alternative...punk"
[87] "perc_genre_traditional" "perc_genre_classical"
[89] "perc_genre_electronica" "perc_genre_unknown"
[91] "perc_genre_jazz" "perc_genre_pop"
[93] "perc_genre_soundtrack" "perc_genre_other"
[95] "perc_genre_rock" "genre_kurtosis"
[97] "log_total_friends" "log_total_tracks"
Упорядоченная переменная pdict_size - количество заполненных пунктов анкеты.
hist(users_passed$pdict_size, breaks = 34, main = "Частотность значений переменной pdict_size",
xlab = "Значения pdict_size", ylab = "Частота")
Номинальная переменнная bmonth - месяц рождения.
hist(users_passed$bmonth, breaks = 12, main = "Частотность значений переменной bmonth",
xlab = "Значения bmonth", ylab = "Частота")
Значения есть только для 1004 пользователей из 3501.
Упорядоченная переменная genre - музыкальный жанр.
[1] "unknown" "alternative & punk" "urban"
[4] "rock" "pop" "electronica"
[7] "other" "jazz" "traditional"
[10] "soundtrack" "classical"
Непрерывная переменная perc_genre_pop - процент содержания жанра POP в аудиозаписях пользователя
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.0743 0.1580 0.1940 0.2850 0.8380
Жанры исполнителей в сети Вконтакте
genre artists_count tracks_count avg_tracks_per_artist
1 alternative & punk 3944 33524 8.500
2 classical 424 1580 3.726
3 electronica 10746 34003 3.164
4 jazz 568 1797 3.164
5 other 2297 9651 4.202
6 pop 5448 32653 5.994
7 rock 3291 22756 6.915
8 soundtrack 1049 2874 2.740
9 traditional 1011 3140 3.106
10 unknown 1417 12350 8.716
11 urban 4023 19692 4.895
Взаимозависимость содержания жанра rock и возраста
Call:
lm(formula = perc_genre_rock ~ age, data = users_passed)
Residuals:
Min 1Q Median 3Q Max
-0.2103 -0.1033 -0.0359 0.0577 0.5033
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.01157 0.06074 0.19 0.849
age 0.00550 0.00232 2.37 0.019 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.141 on 145 degrees of freedom
Multiple R-squared: 0.0373, Adjusted R-squared: 0.0307
F-statistic: 5.62 on 1 and 145 DF, p-value: 0.0191
## numeric(0)
Взаимозависимость возраста и количества аудиозаписей
Call:
lm(formula = log_total_tracks ~ age, data = users_passed)
Residuals:
Min 1Q Median 3Q Max
-1.5232 -0.8134 0.0235 0.5801 2.5649
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.5401 0.4021 16.26 < 2e-16 ***
age -0.0540 0.0154 -3.51 0.00059 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.931 on 145 degrees of freedom
Multiple R-squared: 0.0785, Adjusted R-squared: 0.0721
F-statistic: 12.3 on 1 and 145 DF, p-value: 0.000589
## numeric(0)
Друзья и музыкальные жанры
Regression tree:
rpart(formula = total_friends ~ ., data = users_passed[, c("total_friends",
p_genres)])
Variables actually used in tree construction:
[1] perc_genre_alternative...punk perc_genre_electronica
[3] perc_genre_other perc_genre_pop
[5] perc_genre_soundtrack perc_genre_unknown
Root node error: 7809115/147 = 53123
n= 147
CP nsplit rel error xerror xstd
1 0.118 0 1.00 1.0 0.32
2 0.033 1 0.88 1.1 0.32
3 0.015 3 0.82 1.2 0.29
4 0.014 4 0.80 1.3 0.30
5 0.012 5 0.79 1.3 0.30
6 0.012 6 0.77 1.2 0.30
7 0.010 8 0.75 1.3 0.30
Возраст и музыкальные жанры
Regression tree:
rpart(formula = age ~ ., data = users_passed[, c("age", p_genres)])
Variables actually used in tree construction:
[1] perc_genre_alternative...punk perc_genre_electronica
[3] perc_genre_traditional perc_genre_unknown
Root node error: 3670/147 = 25
n= 147
CP nsplit rel error xerror xstd
1 0.091 0 1.00 1.0 0.16
2 0.050 1 0.91 1.2 0.19
3 0.047 2 0.86 1.2 0.18
4 0.037 4 0.76 1.3 0.19
5 0.029 5 0.73 1.2 0.19
6 0.021 7 0.67 1.2 0.17
7 0.016 8 0.65 1.2 0.17
8 0.012 9 0.63 1.2 0.17
9 0.012 10 0.62 1.2 0.16
10 0.010 11 0.61 1.2 0.17
Выборка недостаточна (147 из 3501 наблюдений вошло в конечную выборку) для того, чтобы делать обоснованные выводы.
Я не умею работать с разряженными данными.
Однако, есть явные тренды, которые просматриваются на этой выборке, и их следует проверить на других эмпирических данных.
Множество данных, которые так и не были использованы:
Различные сложные, нелинейные модели, которые так и не были построены: