ch1

R与Python协同库导入:

示例数据导入:

使用R查看数据的前几行和基本结构

# A tibble: 6 × 5
  store weeks_to_xmas avg_week_sales is_on_sale weekly_amount_sold
  <dbl>         <dbl>          <dbl>      <dbl>              <dbl>
1     1             3           13.0          1              220. 
2     1             2           13.0          1              185. 
3     1             1           13.0          1              146. 
4     1             0           13.0          0              102. 
5     2             3           19.9          0              103. 
6     2             2           19.9          0               53.7
spc_tbl_ [2,000 × 5] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ store             : num [1:2000] 1 1 1 1 2 2 2 2 3 3 ...
 $ weeks_to_xmas     : num [1:2000] 3 2 1 0 3 2 1 0 3 2 ...
 $ avg_week_sales    : num [1:2000] 13 13 13 13 19.9 ...
 $ is_on_sale        : num [1:2000] 1 1 1 0 0 0 0 0 0 0 ...
 $ weekly_amount_sold: num [1:2000] 220 185 146 102 103 ...
 - attr(*, "spec")=
  .. cols(
  ..   store = col_double(),
  ..   weeks_to_xmas = col_double(),
  ..   avg_week_sales = col_double(),
  ..   is_on_sale = col_double(),
  ..   weekly_amount_sold = col_double()
  .. )
 - attr(*, "problems")=<externalptr> 

将R中导入的数据传给Python

再把数据传回R

  store weeks_to_xmas avg_week_sales is_on_sale weekly_amount_sold
1     1             3          12.98          1             219.60
2     1             2          12.98          1             184.70
3     1             1          12.98          1             145.75
4     1             0          12.98          0             102.45
5     2             3          19.92          0             103.22
6     2             2          19.92          0              53.73

使用Python对数据进行简单的描述

   store  weeks_to_xmas  avg_week_sales  is_on_sale  weekly_amount_sold
0    1.0            3.0           12.98         1.0              219.60
1    1.0            2.0           12.98         1.0              184.70
2    1.0            1.0           12.98         1.0              145.75
3    1.0            0.0           12.98         0.0              102.45
4    2.0            3.0           19.92         0.0              103.22
             store  weeks_to_xmas  ...   is_on_sale  weekly_amount_sold
count  2000.000000    2000.000000  ...  2000.000000         2000.000000
mean    250.500000       1.500000  ...     0.512000          102.992225
std     144.373376       1.118314  ...     0.499981           75.278527
min       1.000000       0.000000  ...     0.000000            0.000000
25%     125.750000       0.750000  ...     0.000000           41.127500
50%     250.500000       1.500000  ...     1.000000           97.825000
75%     375.250000       2.250000  ...     1.000000          155.130000
max     500.000000       3.000000  ...     1.000000          423.010000

[8 rows x 5 columns]

搞清楚我现在的应用场景,围绕问题,我需要搞清楚

  • 到底有多少家店铺

  • 周销售额的分布是怎样的

array([  1.,   2.,   3.,   4.,   5.,   6.,   7.,   8.,   9.,  10.,  11.,
        12.,  13.,  14.,  15.,  16.,  17.,  18.,  19.,  20.,  21.,  22.,
        23.,  24.,  25.,  26.,  27.,  28.,  29.,  30.,  31.,  32.,  33.,
        34.,  35.,  36.,  37.,  38.,  39.,  40.,  41.,  42.,  43.,  44.,
        45.,  46.,  47.,  48.,  49.,  50.,  51.,  52.,  53.,  54.,  55.,
        56.,  57.,  58.,  59.,  60.,  61.,  62.,  63.,  64.,  65.,  66.,
        67.,  68.,  69.,  70.,  71.,  72.,  73.,  74.,  75.,  76.,  77.,
        78.,  79.,  80.,  81.,  82.,  83.,  84.,  85.,  86.,  87.,  88.,
        89.,  90.,  91.,  92.,  93.,  94.,  95.,  96.,  97.,  98.,  99.,
       100., 101., 102., 103., 104., 105., 106., 107., 108., 109., 110.,
       111., 112., 113., 114., 115., 116., 117., 118., 119., 120., 121.,
       122., 123., 124., 125., 126., 127., 128., 129., 130., 131., 132.,
       133., 134., 135., 136., 137., 138., 139., 140., 141., 142., 143.,
       144., 145., 146., 147., 148., 149., 150., 151., 152., 153., 154.,
       155., 156., 157., 158., 159., 160., 161., 162., 163., 164., 165.,
       166., 167., 168., 169., 170., 171., 172., 173., 174., 175., 176.,
       177., 178., 179., 180., 181., 182., 183., 184., 185., 186., 187.,
       188., 189., 190., 191., 192., 193., 194., 195., 196., 197., 198.,
       199., 200., 201., 202., 203., 204., 205., 206., 207., 208., 209.,
       210., 211., 212., 213., 214., 215., 216., 217., 218., 219., 220.,
       221., 222., 223., 224., 225., 226., 227., 228., 229., 230., 231.,
       232., 233., 234., 235., 236., 237., 238., 239., 240., 241., 242.,
       243., 244., 245., 246., 247., 248., 249., 250., 251., 252., 253.,
       254., 255., 256., 257., 258., 259., 260., 261., 262., 263., 264.,
       265., 266., 267., 268., 269., 270., 271., 272., 273., 274., 275.,
       276., 277., 278., 279., 280., 281., 282., 283., 284., 285., 286.,
       287., 288., 289., 290., 291., 292., 293., 294., 295., 296., 297.,
       298., 299., 300., 301., 302., 303., 304., 305., 306., 307., 308.,
       309., 310., 311., 312., 313., 314., 315., 316., 317., 318., 319.,
       320., 321., 322., 323., 324., 325., 326., 327., 328., 329., 330.,
       331., 332., 333., 334., 335., 336., 337., 338., 339., 340., 341.,
       342., 343., 344., 345., 346., 347., 348., 349., 350., 351., 352.,
       353., 354., 355., 356., 357., 358., 359., 360., 361., 362., 363.,
       364., 365., 366., 367., 368., 369., 370., 371., 372., 373., 374.,
       375., 376., 377., 378., 379., 380., 381., 382., 383., 384., 385.,
       386., 387., 388., 389., 390., 391., 392., 393., 394., 395., 396.,
       397., 398., 399., 400., 401., 402., 403., 404., 405., 406., 407.,
       408., 409., 410., 411., 412., 413., 414., 415., 416., 417., 418.,
       419., 420., 421., 422., 423., 424., 425., 426., 427., 428., 429.,
       430., 431., 432., 433., 434., 435., 436., 437., 438., 439., 440.,
       441., 442., 443., 444., 445., 446., 447., 448., 449., 450., 451.,
       452., 453., 454., 455., 456., 457., 458., 459., 460., 461., 462.,
       463., 464., 465., 466., 467., 468., 469., 470., 471., 472., 473.,
       474., 475., 476., 477., 478., 479., 480., 481., 482., 483., 484.,
       485., 486., 487., 488., 489., 490., 491., 492., 493., 494., 495.,
       496., 497., 498., 499., 500.])
Index(['store', 'weeks_to_xmas', 'avg_week_sales', 'is_on_sale',
       'weekly_amount_sold'],
      dtype='object')

使用箱状图比较「是否降价」对销售量分布的影响

通过观察箱状图我们可以发现,降价的店铺销售额要高于未降价的店铺,但是这是否能够说明,提升的销售额是作为降价的结果呢?这中间是否有因果关系?

  • 遗漏变量:是否打广告了?是否给赠品了?