1.1 什麼可以被預測?

無論是涉及到什麼情況或是時間範圍,預測都是有效性和有效規劃的重要幫助。

事件(或數量)的可預測性取決於以下幾個因素:

例1-電力:對電力需求可以非常準確地預測,因為通常這三個條件都可以滿足的。

例2-匯率:對於預測貨幣匯率的時候,它只滿足了其中的一個條件:我們可以獲取足夠的可用的數據。 但是同時我們對影響匯率的因素知之甚少,並且匯率的預測會對匯率本身產生影響。如果有明確的預測說匯率將會上漲,那麼人們會立刻調整他們的心理價位,由此這些預測自然會自己就實現了。從某種意義上講,這些匯率成為了他們自身的預測。 這是“有效市場假說”的一個例子。因此,預言匯率明天會是上漲還是下跌,就如同預言拋一枚硬幣它落下將會是正面還是反面一樣不可預測。

預測中最關鍵的一步是:知道什麼情形下能夠進行準確預測,確定什麼時候預測還不如拋個硬幣來的準確。

好的預測可以捕捉到歷史數據中的真實模式和關係,而不是重複過去發生過未來不會再發生的事情。

許多人錯誤地以為不可能在變化的環境中預測。事實上,每個環境都是在變化的,並且一個優秀的預測模型會捕捉事物變化的方式。一個預測模型的目的是捕捉事物變化的方式,而不僅僅是找到事物在什麼位置。正如亞伯拉罕·林肯所說:“如果我們首先知道我們的位置所在,也清楚我們的邁步所趨,就能更好地判斷該做什麼以及如何去做。”

根據時間跨度、確定實際結果的因素、數據模式的類型以及許多其他方面,預測情況會有很大的不同。 預測方法可以非常簡單,例如使用最近一次觀測作為預測(被稱為“樸素方法”),也可以很複雜,例如神經網絡和聯立方程的計量經濟系統。 有時候沒有可用的數據。例如,我們有時候希望預測一種新產品在它上市的第一年的銷量。但是顯然沒有數據可供使用。在這種情況下,我們使用判斷性預測,在後面章節(判斷)會有討論。

方法的選擇取決於什麼數據可用和要預測量的可預測性

預測、計劃和目標

預測是商業中的常見統計任務,它可以為生產、運輸和人員安排的決策提供信息,並為長期戰略規劃提供指導。

⚠️ 然而,商業預測往往做的不盡如人意,並且經常與計劃和目標混淆。

所以要釐清:預測、目標、計畫

預測

它是指在考慮到所有可用信息的前提下,包括歷史數據和可以影響預測的任何未來事件的知識,盡可能準確地預言。

預測應該是說管理決策中的一個主要組成部分,因為它在企業的很多地方都發揮著重要作用。現代企業組織需要短期、中期和長期預測, 具體預測什麼取決於特定的應用場景。

  • 短期預測:人員、生產和運輸的安排調度需要短期預測。作為安排過程中的一部分,需求預測常常也是必須的。
  • 中期預測:確定未來的資源需求需要中期預測,以便購買原材料、僱用人員或購買機器和設備。
  • 長期預測:在戰略規劃中會使用長期預測。此類決定必須將市場機會、環境因素和內部資源納入考量。

一個企業組織需要建立一套預測系統,其中包括幾種預測不確定事件的方法。這樣的預測系統需要專家意見,來確定預測問題,應用一系列預測方法,為每個問題選擇合適的方法,並評估和改進預測方法。想要成功地使用正規的預測方法,強有力的組織支持也十分重要。

目標:

它是指你想要發生的事情。目標理應與預測和計劃聯繫在一起,但是這並不經常發生。很多時候,設定目標時沒有任何去實現這些目標的計劃,也沒有目標是否切合實際的預測。

計劃

它是對預測和目標的回應。計劃包括制定使得你的預測符合你的目標的適當行動。

1.3 決定預測什麼

在預測的初期階段,需要決定應該預測的內容。

考慮預測的前景時段也十分必要(短期、中期、長期)。是需要提前1個月,提前6個月還是提前10年預測?根據哪個預測時長最為重要,我們需要不同種類的模型。

預測需要多頻繁?

花時間與使用預測結果的人進行交流

1.4 預測數據和方法

什麼數據是可用的很大程度上決定了用什麼預測方法。

定性分析

如果沒有可用的數據,或者如果可用的數據與預測無關,那麼應該使用定性預測方法。這些方法不是純粹的猜測—有完善的結構化方法來獲得良好的預測, 而不使用歷史數據。

定量分析

需要滿足下面兩個條件:

  • 關於過去的數字化信息是可以用的
  • 有理由假設過去的一些模式會在未來延續下去

⚠️注意:有各種各樣的定量預測方法,這些方法通常是在特定的學科範圍為特定的目的而開發的。每一種方法都有自己的屬性、精度和成本,這些應該在方法選擇時考慮到。

不要拿到一個錘子就覺得所有東西都是釘子,不同的問題適合不同的方法。

時間序列預測

時間序列數據樣例包括:

  • 每日股票價格
  • 每月降水量
  • 亞馬遜季度銷售結果
  • 谷歌年度利潤

任何按照時間順序觀察的事物都是時間序列。在本書中,我們將只考慮定期觀察的時間序列 (例如,每小時、每天、每週、每月、每季度、每年)。當然不規則間隔時間序列也可能出現,這裡不做討論。

例子🌰:像是預測澳大利亞季度啤酒產量,是最簡單的時間序列預測方法。

  • 用到的信息:只用了預測變量的信息。因此,這些方法可以推斷趨勢部分和季節性部分。
  • 沒有用到的信息:沒有用到(尋找)影響預測變量的因素。所以它們會忽略掉所有其他的信息,如營銷計劃,競爭對手活動,經濟狀況變動等。

用於預測的時間序列模型包括分解模型,指數平滑模型,ARIMA 模型。

預測變量與時間序列預測

通常預測變量在時間序列預測中是有用的。例如,假設我們想要預測炎熱地區夏季時每小時用電需求量。可以用如下包含預測變量的模型:

ED = f ( current temperature, strength of economy, population, time of day, day of week, error ) .


這種關係並不確切–總會有不能由預測變量決定的電力需求變化。右側的“誤差”項表示隨機波動和沒有被包括在模型中的相關變量的影響。我們將它稱之為“解釋模型”,因為它幫助解釋電力需求變化的原因。

因為電力需求數據構成了一組時間序列,我們也可以用一個時間序列模型來進行預測。在這種情況下,時間序列模型可以為如下形式:

ED t + 1 = f ( ED t , ED t 1 , ED t 2 , ED t 3 , , error ) ,


t 表示當前的時間,t+1表示下一個小時,t−1表示前一個小時,t−2表示前兩個小時,以此類推。此處,對未來的預測是基於變量的過去值,而不是基於可能影響系統的外部變量。同樣,右側的“誤差”項允許隨機波動和不包含在模型中的相關變量的影響。

還有第三種模型, 它結合了上述兩種模型的特點。例如, 它可能有如下形式:

ED t + 1 = f ( ED t , current temperature, time of day, day of week, error ) .

這些類型的“混合模型”在不同的學科中給出了不同的名稱。它們被稱為動態回歸模型、面板數據模型、縱向模型。傳遞函數模型和線性系統模型。

解釋模型非常有用,因為它包含了有關其他變量的信息,而不僅僅是要預測的變量的歷史值。但是,預測者可能選擇時間序列模型而不是解釋性或混合模型的原因有多種。

1.5 預測過程的主要步驟

一個預測過程通常包括五個基本步驟。

步驟1:定義問題。

通常這是預測中最困難的步驟。要準確定義這個問題,需要了解:

  • 怎樣運用預測方法
  • 誰需要這個預測
  • 以及預測效果如何滿足需要這個預測的機構。

預測人員需要花費一定時間與所有參與收集數據、維護數據庫和使用這個預測對未來進行規劃的人溝通。

步驟2:收集信息。

一般至少需要兩種信息收集方式:

    1. 統計數據
    1. 收集數據和進行預測方面專家的積累經驗。

通常情況下,要獲得足夠多的歷史數據以構建良好的統計模型是很困難的。在這種情況下,可以使用判斷預測方法。有時候,陳舊數據會因相應數據發生結構變化而失效,因而我們一般只選擇使用較新的數據。然而,一個好的統計模型可以處理系統中的結構變化,因此不要輕易丟棄好的數據。 ### 步驟3:初步(探索性)分析。 總是以圖形開頭。有一致的模式嗎?有明顯的長期趨勢嗎?季節性重要嗎?是否有證據表明商業周期存在?數據中是否包含需要專業知識解釋的異常值?用於分析的變量之間的相關性有多強?目前已經開發了各種工具來幫助進行這種分析。這些將在章節 2 和 章節6中討論。

步驟4:選擇及擬合模型。

最佳模型的選擇取決於歷史數據的可用性、預測變量與各解釋變量之間的相關性,以及預測的使用方式。比較兩個或三個潛在的模型是很常見的。每個模型本身都基於人為提出的一組假設(顯式和隱式)而建立,通常包含一個或多個參數,這些參數必須使用已知的歷史數據進行估計。

我們將討論回歸模型(章節5)、指數平滑方法(章節7)、Box-Jenkins ARIMA模型(章節8)、動態回歸模型(章節9)、分層預測(章節10),以及其他各種方法,包括計數時間序列、神經網絡和章節11中的向量自回歸。

步驟5:使用及評估預測模型。

一旦模型及其參數確定後,該模型就可以用來進行預測。模型的預測效果只有用於預測的數據得到之後才能得到正確的評價。目前已經開發了許多方法來評估預測的準確性。在使用和進行預測時會存在很多組織結構問題。對其中一些問題的簡要討論將在章節 3 中給出。

1.6 統計預測觀點

我們試圖預測的東西是未知的(或者我們不能預測它),所以我們可以把它想像成一個隨機變量。例如,下個月的總銷售額可能會有一系列的可能值,直到月底我們把實際銷售額加起來,我們才知道這個值會是多少。所以在我們知道下個月的銷售情況之前,這是一個隨機的變量。

我們進行預測的過程實際是尋找隨機變量可能取值範圍內的中間值。通常情況下,預測會伴隨著一個預測區間,給出一個隨機變量具有較高概率的範圍值。例如,95%的預測區間包含一系列的值,這個預測區間包含實際未來值的概率為95%。

每當我們談到“預測”時,通常指的是預測分佈的平均值,用 y ^ t 來表示 y ^ t 的預測值,這意味著 y ^ t 所有可能取值的均值包含了我們所有已知的信息。有時我們將使用 y ^ t 來表示預測分佈的‘中位數’(或中間值)。