Синопсис

Средний размер почтового сообщения, которое не является СПАМ’ом и не содержит вирусов, составляет примерно 40Kбайт.

Обработка данных

Анализ выполнен на основе данных о размерах очищенных от спам и вирусов почтовых сообщений 40 почтовых доменов в системе SPAMGUN за период с 25 января 2016 г. по 04 февраля 2016 г. Исходные данные представляют собой CSV-файл, в первой позиции каждой строки которого указывается имя домена и далее через запятую размеры входящих сообщений.

Данные на основе которых выполнен анализ находятся здесь .

Вопрос #1 - Каков средний размер почтового сообщения

Массив данных о размерах сообщений по 40 доменам

##    msg_count        mean   median           sd
## 1       1950  644137.714  46411.0 2.035767e+06
## 2        842    2073.673   2115.0 7.853369e+01
## 3       7732  292033.948  57637.0 1.630375e+06
## 4         34  405433.206  28075.5 2.181785e+06
## 5        353  245029.416  18723.0 1.023817e+06
## 6         77   95546.494  12577.0 2.488809e+05
## 7     101664  725430.283  50329.0 2.048306e+06
## 8        164  159768.665  21459.0 6.805067e+05
## 9         35   37837.971  14009.0 5.711020e+04
## 10       805  486278.940  42826.0 2.051730e+06
## 11       127   34141.874   6533.0 2.018364e+05
## 12      1287  577067.122  19014.0 2.574283e+06
## 13      2620  401995.767  34306.0 2.246715e+06
## 14       108   78244.963  29596.0 2.136090e+05
## 15        78  176069.000   2173.0 1.166206e+06
## 16         7   21121.571  10460.0 2.743354e+04
## 17      5606  611098.722  49264.5 2.878490e+06
## 18        12  178293.500  67306.0 2.616123e+05
## 19        52    6349.135   2899.0 1.248745e+04
## 20     21483  249824.486  31865.0 1.309886e+06
## 21      1230  308204.810  14857.5 1.636500e+06
## 22      6384 1258557.525 110347.0 3.474237e+06
## 23       158   60151.962  12763.5 1.103966e+05
## 24       321   78907.315  26670.0 2.375160e+05
## 25      1547 1311430.522 168432.0 3.192041e+06
## 26     79742    4272.520   4163.0 2.042060e+03
## 27       169  346838.757  49683.0 1.888621e+06
## 28     31600  226017.652  34076.0 1.297666e+06
## 29       473  358636.175  23393.0 1.735541e+06
## 30      1910  287104.839  34165.0 1.056996e+06
## 31    126413  993802.162   7377.0 2.898342e+06
## 32        34   16935.794   5490.5 1.421696e+04
## 33       731  612180.850  38000.0 2.226751e+06
## 34      2911  606205.855  31910.0 2.387693e+06
## 35       586  217217.940  65797.0 8.193263e+05
## 36      7004  624576.662  75567.0 1.939422e+06
## 37       322  284596.904  39306.5 1.894982e+06
## 38       484  576850.262  44008.0 2.213950e+06
## 39        61 1016356.049  51659.0 3.297429e+06
## 40       292 1204390.271  82282.0 3.442884e+06

Как видно из гистограммы распределение размеров сообщений представляет собой, разспределение с тяжёлыми хвостами. Имеются значительное количество сообщений размером менее 1MB, также имеются сообщения размером до 50MB, что является ограничением, налагаемым на входящую почту системой SPAMGUN.

Средние значения размера сообщений представлены на следующих графиках.

# Plot mean
plot(df$mean, main="Cреднее значение размера сообщений по доменам", xlab="номер домена", 
     ylab="средний размер сообщения в байтах",
     pch=19, col="blue")
lines(df$mean, col="blue")
abline(h=mean(df$mean), col="red")

# Plot median
plot(df$median, main="Медиана размера сообщений по доменам", xlab="номер домена", 
     ylab="средний размер сообщения (медиана) в байтах",
     pch=19, col="blue")
lines(df$median, col="blue")
abline(h=mean(df$median), col="red")
txt <- paste("Средний размер сообщения (по медиане) равен", round(mean(df$median),0), "байт", sep=" ")
text(20, mean(df$median) + 20000, txt)

Исходя из того, что медиана лучше центрирует распределения с тяжёлыми хвостами, в качестве среднего размера собщения следует считать 40KB. Т.е. ровно половина сообщений имеет размер более 40K, в то время, как другая половина менее 40K.