Культурные предпочтения в социальных сетях в Интернете

Окопный Павел

Объект и Предмет

Объект исследования - социальные сети в Интернете.

Предмет исследования - взаимосвязи музыкальных предпочтений пользователей сайта Вконтакте и их самопрезентации.

Цель

Выявление наличия и определение степени взаимовлияния культурных (музыкальных) предпочтений и дружбы пользователей в социальных сетях в интернете на примере сети Вконтакте.

Данные об исполнителях

           name tracks users              genre
25698     баста    963   296            unknown
9744    земфира    865   181 alternative & punk
7368   noize mc    772   171              urban
25999     сплин    769   196               rock
10616 ленинград    625   133 alternative & punk
25853   rihanna    622   221                pop
             name       mood         origin    era max_similarity
25698       баста energizing eastern europe 2000's              1
9744      земфира      rowdy eastern europe 2000's              1
7368     noize mc    unknown eastern europe 2000's              1
25999       сплин     urgent eastern europe 1990's              1
10616   ленинград energizing eastern europe 2000's              1
25853     rihanna    excited      caribbean 2000's              1
10375 linkin park     urgent  north america 2000's              1
32148        muse     gritty western europe 2000's              1
13617       adele   yearning western europe 2000's              1
19758   иван дорн       cool eastern europe 2010's              1

Данные о пользователях

 [1] "mood_empowering"               "mood_excited"                 
 [3] "mood_cool"                     "origin_caribbean"             
 [5] "mood_stirring"                 "mood_tender"                  
 [7] "genre_electronica"             "total_tracks"                 
 [9] "mood_romantic"                 "total_artists"                
[11] "genre_classical"               "origin_middle.east"           
[13] "mood_melancholy"               "id"                           
[15] "mood_rowdy"                    "origin_south.america"         
[17] "genre_alternative...punk"      "genre_soundtrack"             
[19] "genre_unknown"                 "user_id"                      
[21] "mood_serious"                  "mood_upbeat"                  
[23] "origin_north.america"          "total_2nd_circle"             
[25] "origin_southeast.asia"         "mood_unknown"                 
[27] "passed_threshold"              "mood_brooding"                
[29] "origin_east.central.africa"    "net_biconnected_components"   
[31] "mood_easygoing"                "mood_defiant"                 
[33] "origin_asia"                   "genre_pop"                    
[35] "origin_eastern.europe"         "genre_rock"                   
[37] "has_clean_name"                "mood_energizing"              
[39] "total_friends_music"           "origin_north.africa"          
[41] "genre_traditional"             "mood_lively"                  
[43] "mood_somber"                   "mood_yearning"                
[45] "mood_aggressive"               "mood_sentimental"             
[47] "origin_other"                  "origin_central.asia"          
[49] "mood_sensual"                  "mood_gritty"                  
[51] "genre_other"                   "genre_urban"                  
[53] "mood_other"                    "mood_sophisticated"           
[55] "origin_unknown"                "genre_jazz"                   
[57] "total_friends"                 "mood_urgent"                  
[59] "origin_west.africa"            "origin_scandinavia"           
[61] "origin_australia.oceania"      "origin_central.america"       
[63] "origin_southern.africa"        "net_average_clustering"       
[65] "origin_western.europe"         "origin_mediterranean.europe"  
[67] "mood_fiery"                    "mood_peaceful"                
[69] "bday"                          "bmonth"                       
[71] "byear"                         "city"                         
[73] "country"                       "uni_city"                     
[75] "uni_year"                      "university"                   
[77] "uni_name"                      "uni_department"               
[79] "alcohol"                       "smoking"                      
[81] "pdict_size"                    "perc_threshold"               
[83] "age"                           "music_per_friend"             
[85] "perc_genre_urban"              "perc_genre_alternative...punk"
[87] "perc_genre_traditional"        "perc_genre_classical"         
[89] "perc_genre_electronica"        "perc_genre_unknown"           
[91] "perc_genre_jazz"               "perc_genre_pop"               
[93] "perc_genre_soundtrack"         "perc_genre_other"             
[95] "perc_genre_rock"               "genre_kurtosis"               
[97] "log_total_friends"             "log_total_tracks"             

Некоторые переменные

pdict_size - количество заполненных пунктов анкеты

hist(users_passed$pdict_size, breaks = 34)

plot of chunk unnamed-chunk-5

bmonth - месяц рождения

hist(users_passed$bmonth, breaks = 12)

plot of chunk unnamed-chunk-6

genre - музыкальный жанр

 [1] "unknown"            "alternative & punk" "urban"             
 [4] "rock"               "pop"                "electronica"       
 [7] "other"              "jazz"               "traditional"       
[10] "soundtrack"         "classical"         

perc_genre_pop - процент содержания жанра POP в аудиозаписях пользователя

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.0743  0.1580  0.1940  0.2850  0.8380 

Жанры исполнителей в сети Вконтакте

                genre artists_count tracks_count avg_tracks_per_artist
1  alternative & punk          3944        33524                 8.500
2           classical           424         1580                 3.726
3         electronica         10746        34003                 3.164
4                jazz           568         1797                 3.164
5               other          2297         9651                 4.202
6                 pop          5448        32653                 5.994
7                rock          3291        22756                 6.915
8          soundtrack          1049         2874                 2.740
9         traditional          1011         3140                 3.106
10            unknown          1417        12350                 8.716
11              urban          4023        19692                 4.895

Взаимозависимость содержания жанра rock и возраста


Call:
lm(formula = perc_genre_rock ~ age, data = users_passed)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.2103 -0.1033 -0.0359  0.0577  0.5033 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  0.01157    0.06074    0.19    0.849  
age          0.00550    0.00232    2.37    0.019 *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.141 on 145 degrees of freedom
Multiple R-squared: 0.0373, Adjusted R-squared: 0.0307 
F-statistic: 5.62 on 1 and 145 DF,  p-value: 0.0191 

plot of chunk unnamed-chunk-11

## numeric(0)

Взаимозависимость возраста и количества аудиозаписей


Call:
lm(formula = log_total_tracks ~ age, data = users_passed)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.5232 -0.8134  0.0235  0.5801  2.5649 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   6.5401     0.4021   16.26  < 2e-16 ***
age          -0.0540     0.0154   -3.51  0.00059 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.931 on 145 degrees of freedom
Multiple R-squared: 0.0785, Adjusted R-squared: 0.0721 
F-statistic: 12.3 on 1 and 145 DF,  p-value: 0.000589 

plot of chunk unnamed-chunk-13

## numeric(0)

Друзья и музыкальные жанры


Regression tree:
rpart(formula = total_friends ~ ., data = users_passed[, c("total_friends", 
    p_genres)])

Variables actually used in tree construction:
[1] perc_genre_alternative...punk perc_genre_electronica       
[3] perc_genre_other              perc_genre_pop               
[5] perc_genre_soundtrack         perc_genre_unknown           

Root node error: 7809115/147 = 53123

n= 147 

     CP nsplit rel error xerror xstd
1 0.118      0      1.00    1.0 0.32
2 0.033      1      0.88    1.0 0.32
3 0.015      3      0.82    1.2 0.33
4 0.014      4      0.80    1.2 0.35
5 0.012      5      0.79    1.2 0.35
6 0.012      6      0.77    1.2 0.35
7 0.010      8      0.75    1.2 0.35

plot of chunk unnamed-chunk-15

Возраст и музыкальные жанры


Regression tree:
rpart(formula = age ~ ., data = users_passed[, c("age", p_genres)])

Variables actually used in tree construction:
[1] perc_genre_alternative...punk perc_genre_electronica       
[3] perc_genre_traditional        perc_genre_unknown           

Root node error: 3670/147 = 25

n= 147 

      CP nsplit rel error xerror xstd
1  0.091      0      1.00    1.0 0.16
2  0.050      1      0.91    1.1 0.16
3  0.047      2      0.86    1.1 0.15
4  0.037      4      0.76    1.1 0.15
5  0.029      5      0.73    1.1 0.15
6  0.021      7      0.67    1.2 0.16
7  0.016      8      0.65    1.2 0.16
8  0.012      9      0.63    1.1 0.15
9  0.012     10      0.62    1.1 0.15
10 0.010     11      0.61    1.2 0.15

plot of chunk unnamed-chunk-17

Вместо заключения

Выборка недостаточна (147 из 3501 наблюдений вошло в конечную выборку) для того, чтобы делать какие-либо выводы.

Я не умею работать с разряженными данными.

Однако, есть явные тренды, которые просматриваются на этой выборке, и их следует проверить на других эмпирических данных.

Множество данных, которые так и не были использованы:

  • Mood - настроение музыки;
  • Era - "эра" исполнителя;
  • Origin - происхождение исполнителя;
  • Friends - эгосети пользователей, их друзья, друзья друзей и их связи друг с другом

Различные сложные, нелинейные модели, которые так и не были построены:

  • взаимозависимость образования от музыкальных предпочтений (что слушают физики/лирики);
  • взаимозависимости музыкальных вкусов индивида и вкусов его друзей (а если есть, то что зависит от чего?);
  • взаимозависимость музыкальных вкусов и характера самопрезентации в сети (какие фотографии выкладывают поклонники рока, а какие - поклонники поп-музыки?);
  • и многое другое.