FE 성능 파트에서 수집한 iphone 각국 carrier 별 connection type 별로 속도를 측정한
데이터의 분석을 진행하였다.

사용한 데이터는 다음과 같다.

iphone_ookla.xlsx

전체 데이터의 샘플은 아래와 같다.

## Source: local data frame [250,141 x 18]
## 
##       test_id iphone_id        test_date              ip   down     up
##         (int)     (int)           (fctr)          (fctr)  (int)  (int)
## 1  1389133569  65889954 2015-09-30 11:39 132.247.249.xxx 442174 278611
## 2  1389132869  65889954 2015-09-30 11:39 132.247.249.xxx 382765 277398
## 3  1378792831  67725241 2015-09-21 20:11  200.10.244.xxx 330914 276211
## 4  1309037650  61345320 2015-07-14 19:17 189.216.253.xxx 256807 231059
## 5  1375082330  71893407 2015-09-18 12:35   177.234.1.xxx 171401 224837
## 6  1389133857  65889954 2015-09-30 11:39 132.247.249.xxx 420606 222510
## 7  1386794947  57715950 2015-09-28 12:35 187.167.215.xxx 198471 218281
## 8  1380633344  63525062 2015-09-23 13:47   201.139.7.xxx 105800 213322
## 9  1333314450  69596390 2015-08-07 10:28 187.178.129.xxx 178848 210333
## 10 1310927168  53038936 2015-07-16 12:16  189.211.35.xxx 198580 209699
## ..        ...       ...              ...             ...    ...    ...
## Variables not shown: latency (int), server (fctr), country (fctr),
##   conn_type (chr), carrier (fctr), model (fctr), version (fctr), slati
##   (dbl), slongi (dbl), clait (dbl), clongi (dbl), mile (dbl)

간단히 내용을 요약 전체 값의 분포 확인
주요 항목들의 min, max, mean 값의 범위를 확인 가능

##       down              up            latency         conn_type        
##  Min.   :     1   Min.   :     1   Min.   :   0.00   Length:250141     
##  1st Qu.:  2801   1st Qu.:   650   1st Qu.:  17.00   Class :character  
##  Median :  7436   Median :  1144   Median :  35.00   Mode  :character  
##  Mean   : 11522   Mean   :  4852   Mean   :  79.77                     
##  3rd Qu.: 14072   3rd Qu.:  3976   3rd Qu.:  61.00                     
##  Max.   :487232   Max.   :278611   Max.   :8014.00                     
##                                                                        
##           country           carrier      
##  Mexico       :248892   Telcel  :126494  
##  United States:  1110           : 60587  
##  Guatemala    :    28   IUSACELL: 39316  
##  Canada       :    13   movistar: 15014  
##  Brazil       :    10   Nextel  :  2980  
##  Great Britain:     8   AT&T    :  1630  
##  (Other)      :    80   (Other) :  4120

0. 주요 항목별 상관 관계

특별히 관련이 깊은 항목들간의 회귀 분석을 진행할지 여부를 판단 하기 위함
up / down 속도만 주로 관련이 깊은것으로 판단됨. 다른 요소로 인한 교호작용은 무시할 만한 수준임.

1. country 별 데이터 분포

country 에 따른 데이터 분포 확인

## Source: local data frame [11 x 2]
## 
##                  country  count
##                   (fctr)  (int)
## 1                 Mexico 248892
## 2          United States   1110
## 3              Guatemala     28
## 4                 Canada     13
## 5                 Brazil     10
## 6          Great Britain      8
## 7               Colombia      7
## 8              Argentina      6
## 9             Costa Rica      5
## 10               Germany      5
## 11 Republic of Singapore      5

비교적 데이터가 충분한 주요 국가만 선택
“Mexico”, “United States”

## Source: local data frame [250,002 x 7]
## 
##      down     up latency conn_type country  carrier down_mean
##     (int)  (int)   (int)     (chr)  (fctr)   (fctr)     (dbl)
## 1  442174 278611       8      wifi  Mexico           11525.78
## 2  382765 277398      10      wifi  Mexico           11525.78
## 3  330914 276211       4      wifi  Mexico           11525.78
## 4  256807 231059       5      wifi  Mexico IUSACELL  11525.78
## 5  171401 224837      27      wifi  Mexico           11525.78
## 6  420606 222510      10      wifi  Mexico           11525.78
## 7  198471 218281       6      wifi  Mexico   Telcel  11525.78
## 8  105800 213322      23      wifi  Mexico   Telcel  11525.78
## 9  178848 210333      11      wifi  Mexico   Telcel  11525.78
## 10 198580 209699       3      wifi  Mexico   Telcel  11525.78
## ..    ...    ...     ...       ...     ...      ...       ...

up / down 데이터를 보고 전체 분포를 살펴보자

국가별로 차이점이 있는지 다시 확인
미국이 전반적으로 더 느리네??

국가별로 down / up 속도를 min/max/mean 값으로 비교해 보자.
일부 데이터가 부족한 국가는 제외함.

일단 멕시코 데이터 위주로 봐야할 듯

2. 구간별 데이터 탐색

전체적으로 데이터는 낮은 구간에 밀집

데이터 카운트 기준으로 10개 구간으로 나누어 보면

## Source: local data frame [10 x 5]
## 
##    down_quantile   min    max count       mean
##            (int) (int)  (int) (int)      (dbl)
## 1              1     1    829 24890   358.2125
## 2              2   829   1994 24889  1394.2996
## 3              3  1994   3462 24889  2758.8767
## 4              4  3462   5019 24889  4353.4994
## 5              5  5019   7444 24889  6053.7510
## 6              6  7444   9924 24890  8798.3472
## 7              7  9924  11876 24889 10739.9199
## 8              8 11876  16327 24889 13949.9766
## 9              9 16327  24112 24889 19731.9377
## 10            10 24115 487232 24889 47092.7061

주로 봐야할 두개의 관측값이 존재함, carrier과 conn_type

3. carrier 별 데이터 분포

먼저 carrier 기준 데이터 값이 20개 이상인 것들을 보면
특히 두번째 6만건 이상의 데이터가 이름이 없는 부분은 conn_type이 wifi 임.
별도록 구분하여 분석할 필요 있음

## Source: local data frame [26 x 5]
## 
##     carrier  count down_mean up_mean late_mean
##      (fctr)  (int)     (dbl)   (dbl)     (dbl)
## 1    Telcel 125941     11975    5168        77
## 2            60289     10530    4012        82
## 3  IUSACELL  39166     11961    5114        80
## 4  movistar  14930     11007    4495        78
## 5    Nextel   2973     12796    5960        77
## 6      AT&T   1577     13211    8523       101
## 7    UNEFON    756      6990    1828        94
## 8   Verizon    629      7914    4197       106
## 9  T-Mobile    546     11057    4427        98
## 10   Sprint    486      7607    1565        99
## ..      ...    ...       ...     ...       ...

wifi를 제외하고 볼 경우 일부 carrier는 속도가 많이 낮아짐
그리고 26개에서 7개로 carrier가 감소됨. 즉 wifi 서비스만 제공하는 carrier이 다수 존재

## Source: local data frame [7 x 5]
## 
##    carrier count down_mean up_mean late_mean
##     (fctr) (int)     (dbl)   (dbl)     (dbl)
## 1   Telcel 12208     11377    6506        78
## 2 IUSACELL  5201      5885    2562       109
## 3 movistar   631     12668    5813       104
## 4   Nextel   592      7206    3726        65
## 5 T-Mobile    61      8542    3352       115
## 6             31      8030    1958       112
## 7     AT&T    30      4233    2460       187

carrier 의 up/down 평균 속도를 표시 중간에 회귀선 기준으로 평균 이상인지 이하인지 확인 가능

4. connection type 별 데이터 분포

conn type 별로 보면 역시 LTE, wifi 순서임

## Source: local data frame [9 x 5]
## 
##   conn_type  count down_mean up_mean late_mean
##       (chr)  (int)     (dbl)   (dbl)     (dbl)
## 1       LTE  11337     13223    7966        60
## 2      wifi 230052     11671    4810        79
## 3   unknown     38      7427    1740       109
## 4      cell     68      7361    3557       147
## 5     HSDPA     42      5267    1832       208
## 6     WCDMA   2230      4614    1139       120
## 7             5099      4268    1157       135
## 8      Edge     20      1696    1462       282
## 9     HSUPA      5      1497     819        95

carrier 별 conn type 별로 down 속도를 보면 carrier별 차이를 알 수 있음(wifi 제외)

## Source: local data frame [78 x 5]
## Groups: conn_type [4]
## 
##    conn_type  carrier up_down  stat  speed
##        (chr)   (fctr)   (chr) (chr)  (dbl)
## 1       cell   Telcel    down   max  40601
## 2      HSDPA IUSACELL    down   max  16756
## 3        LTE     AT&T    down   max  15388
## 4        LTE IUSACELL    down   max  32193
## 5        LTE movistar    down   max  58679
## 6        LTE   Nextel    down   max  40530
## 7        LTE T-Mobile    down   max  47332
## 8        LTE   Telcel    down   max 110452
## 9        LTE     TIGO    down   max   9905
## 10     WCDMA IUSACELL    down   max  14216
## ..       ...      ...     ...   ...    ...