Средний размер почтового сообщения, которое не является СПАМ’ом и не содержит вирусов, составляет примерно 40Kбайт.
Анализ выполнен на основе данных о размерах очищенных от спам и вирусов почтовых сообщений 40 почтовых доменов в системе SPAMGUN за период с 25 января 2016 г. по 04 февраля 2016 г. Исходные данные представляют собой CSV-файл, в первой позиции каждой строки которого указывается имя домена и далее через запятую размеры входящих сообщений.
Данные на основе которых выполнен анализ находятся здесь .
Массив данных о размерах сообщений по 40 доменам
## msg_count mean median sd
## 1 1950 644137.714 46411.0 2.035767e+06
## 2 842 2073.673 2115.0 7.853369e+01
## 3 7732 292033.948 57637.0 1.630375e+06
## 4 34 405433.206 28075.5 2.181785e+06
## 5 353 245029.416 18723.0 1.023817e+06
## 6 77 95546.494 12577.0 2.488809e+05
## 7 101664 725430.283 50329.0 2.048306e+06
## 8 164 159768.665 21459.0 6.805067e+05
## 9 35 37837.971 14009.0 5.711020e+04
## 10 805 486278.940 42826.0 2.051730e+06
## 11 127 34141.874 6533.0 2.018364e+05
## 12 1287 577067.122 19014.0 2.574283e+06
## 13 2620 401995.767 34306.0 2.246715e+06
## 14 108 78244.963 29596.0 2.136090e+05
## 15 78 176069.000 2173.0 1.166206e+06
## 16 7 21121.571 10460.0 2.743354e+04
## 17 5606 611098.722 49264.5 2.878490e+06
## 18 12 178293.500 67306.0 2.616123e+05
## 19 52 6349.135 2899.0 1.248745e+04
## 20 21483 249824.486 31865.0 1.309886e+06
## 21 1230 308204.810 14857.5 1.636500e+06
## 22 6384 1258557.525 110347.0 3.474237e+06
## 23 158 60151.962 12763.5 1.103966e+05
## 24 321 78907.315 26670.0 2.375160e+05
## 25 1547 1311430.522 168432.0 3.192041e+06
## 26 79742 4272.520 4163.0 2.042060e+03
## 27 169 346838.757 49683.0 1.888621e+06
## 28 31600 226017.652 34076.0 1.297666e+06
## 29 473 358636.175 23393.0 1.735541e+06
## 30 1910 287104.839 34165.0 1.056996e+06
## 31 126413 993802.162 7377.0 2.898342e+06
## 32 34 16935.794 5490.5 1.421696e+04
## 33 731 612180.850 38000.0 2.226751e+06
## 34 2911 606205.855 31910.0 2.387693e+06
## 35 586 217217.940 65797.0 8.193263e+05
## 36 7004 624576.662 75567.0 1.939422e+06
## 37 322 284596.904 39306.5 1.894982e+06
## 38 484 576850.262 44008.0 2.213950e+06
## 39 61 1016356.049 51659.0 3.297429e+06
## 40 292 1204390.271 82282.0 3.442884e+06
Как видно из гистограммы распределение размеров сообщений представляет собой, разспределение с тяжёлыми хвостами. Имеются значительное количество сообщений размером менее 1MB, также имеются сообщения размером до 50MB, что является ограничением, налагаемым на входящую почту системой SPAMGUN.
Средние значения размера сообщений представлены на следующих графиках.
# Plot mean
plot(df$mean, main="Cреднее значение размера сообщений по доменам", xlab="номер домена",
ylab="средний размер сообщения в байтах",
pch=19, col="blue")
lines(df$mean, col="blue")
abline(h=mean(df$mean), col="red")
# Plot median
plot(df$median, main="Медиана размера сообщений по доменам", xlab="номер домена",
ylab="средний размер сообщения (медиана) в байтах",
pch=19, col="blue")
lines(df$median, col="blue")
abline(h=mean(df$median), col="red")
txt <- paste("Средний размер сообщения (по медиане) равен", round(mean(df$median),0), "байт", sep=" ")
text(20, mean(df$median) + 20000, txt)
Исходя из того, что медиана лучше центрирует распределения с тяжёлыми хвостами, в качестве среднего размера собщения следует считать 40KB. Т.е. ровно половина сообщений имеет размер более 40K, в то время, как другая половина менее 40K.