亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國內(nèi)或國外 期刊或論文

您當前的位置:發(fā)表學術(shù)論文網(wǎng)經(jīng)濟論文》 隱馬爾可夫模型估計的新方法及應用案例> 正文

隱馬爾可夫模型估計的新方法及應用案例

所屬分類:經(jīng)濟論文 閱讀次 時間:2020-09-29 10:11

本文摘要:內(nèi)容提要 隱馬爾可夫模型廣泛應用于經(jīng)濟、金融及大數(shù)據(jù)領域。 目前,模型估計的主要 方法是基于極大似然估計的 Viterbi 算法。 本文從隨機過程的常返理論出發(fā),給出了隱馬爾可夫模型參數(shù)估計的新方法。 首先,利用從同一狀態(tài)的觀察值出發(fā)到固定點的首中時有

  內(nèi)容提要 隱馬爾可夫模型廣泛應用于經(jīng)濟、金融及大數(shù)據(jù)領域。 目前,模型估計的主要 方法是基于極大似然估計的 Viterbi 算法。 本文從隨機過程的常返理論出發(fā),給出了隱馬爾可夫模型參數(shù)估計的新方法。 首先,利用從同一狀態(tài)的觀察值出發(fā)到固定點的首中時有相同分 布的原理,給出隱狀態(tài)個數(shù)的估計;再根據(jù)首中時數(shù)學期望與平穩(wěn)分布的關(guān)系得到平穩(wěn)分布和發(fā)射概率的估計;最后以上述方法為基礎,完成了隱馬爾可夫模型的兩個應用研究:構(gòu)建個性化推薦系統(tǒng);揭示我國經(jīng)濟周期不同階段間的轉(zhuǎn)換規(guī)律。 本文提出的新估計方法可以大幅減少計算復雜度,是 Viterbi 算法的有益補充。

  關(guān)鍵詞 隱馬爾可夫模型 推薦系統(tǒng) 經(jīng)濟周期

統(tǒng)計研究

  一、引言

  隱馬爾可夫模型是混合模型的推廣(Bickel et al.,1998), 金融領域則常稱之為馬爾可夫區(qū)制轉(zhuǎn) 換模型;它是迄今為止應用最為廣泛的統(tǒng)計模型, 尤其在語音識別(Rabiner,1989)、人臉識別(Shang & Chan,2009)、圖像處理等大數(shù)據(jù)領域(Aghdam, 2019)。

  經(jīng)濟論文投稿刊物:《統(tǒng)計研究》(月刊)是由中國統(tǒng)計學會;國家統(tǒng)計局統(tǒng)計科學研究所主辦的統(tǒng)計科學刊物。本刊在廣大作者、讀者的關(guān)心支持下,逐漸形成了自己的辦刊特色,成為統(tǒng)計領域最具權(quán)威性的理論刊物。

  最近,經(jīng)濟領域的建模分析也大量應用了 隱馬爾可夫模型(李正輝、鄭玉航,2015)。 有限狀態(tài)的隱馬爾可夫模型可以理解成裝有 不同顏色球的一組罐子(Jeff,2006)。 每次抽樣時 按初始分布選擇第一個罐子,并從中取出一球;在 第一次罐子的基礎上選取第二個罐子, 第二次選 取的罐子只與前一次選的罐子有關(guān), 在第二個罐子里取出第二個球,如此繼續(xù)。 通常,罐子是看不 到的,所有的統(tǒng)計推斷只能通過觀察值(選取的球 序列)完成。

  本文將在隱狀態(tài)個數(shù) (罐子數(shù)) 未知的條件 下,通過可觀測變量序列,研究隱馬爾可夫模型的 參數(shù)或非參數(shù)估計方法, 即從觀察序列出發(fā)估計 模型的參數(shù)或分布(學習問題)。 眾多學者對這一 問題做了大量研究 (劉鶴飛等,2017)。 Douc & Moulines(2012)證明了隱馬爾可夫模型參數(shù)的極 大似然估計是強相合的, 但在隱狀態(tài)數(shù)未知的條 件下,似然函數(shù)較難有顯式表達。

  De Castro et al. (2016)、Gassiat & Rousseau(2014)利用貝葉斯方 法對隱馬爾可夫模型進行估計, 但這一方法在利 用對數(shù)似然比時加了一項懲罰函數(shù), 且模型估計的效果嚴重依賴懲罰函數(shù)的選擇。 本文從馬爾可 夫過程的常返理論出發(fā)給出了隱馬爾可夫模型的 所有參數(shù)估計。 實際應用中,Viterbi 算法是隱馬爾 可夫模型的基本算法, 它的統(tǒng)計原理是極大似然 估計, 算法設計中基于向前向后步優(yōu)化的 EM 準 則,逐步擬合模型參數(shù);但這一算法也繼承了 EM 算法的缺陷:耗時巨大,且估計的參數(shù)可能是局部 最優(yōu)的。

  本文給出的新估計方法的優(yōu)點是準確率高, 計算復雜度低。 常規(guī)的 Viterbi 算法隨機選擇隱狀 態(tài)個數(shù),然后進行轉(zhuǎn)移矩陣的合并或分解,最后對 各參數(shù)進行極大似然估計, 要達到理想的收斂值 通常要進行上萬次的迭代(樓振凱,2019),相比之 下,我們的方法目標明確,算法簡捷。 本文的另一貢獻是給出了基于新估計方法的 個性化推薦系統(tǒng)。 推薦系統(tǒng)常用來幫助使用者在 眾多產(chǎn)品中盡快發(fā)現(xiàn)其感興趣的目標, 它在各網(wǎng) 絡平臺大量使用,如 Google.com,Amazon.com 和我 國的百度、阿里巴巴等。 針對不同對象的個性化推 薦系統(tǒng)更是重點建設對象,Google 和百度近年來 在這方面取得了長足進步, 但準確度更高的個性 化推薦系統(tǒng)一直在建設中。

  本文將用戶以往信息 視為一隱馬爾可夫鏈, 基于此構(gòu)建用戶的個性化 推薦系統(tǒng)。 在 Grouplens Reach 數(shù)據(jù)集上的實驗表 明,本文方法的推薦準確率優(yōu)于其他推薦算法。 實證分析部分根據(jù) GDP 增長率數(shù)據(jù),分析了 我國的經(jīng)濟運行周期。 經(jīng)濟周期理論由來已久,不 同周期的劃分、 識別和監(jiān)測是經(jīng)濟周期理論研究 的一個核心問題; 經(jīng)濟變量通常表現(xiàn)出不穩(wěn)定性 及非線性關(guān)系, 識別和監(jiān)測經(jīng)濟周期的波動主要 采用的是隱馬爾可夫模型 (馬爾可夫區(qū)制轉(zhuǎn)換模 型)。

  傳統(tǒng)的經(jīng)濟周期理論將經(jīng)濟周期劃分為經(jīng)濟 的擴張階段和收縮階段(二區(qū)制),在經(jīng)濟運行中 兩者交替循環(huán),從而形成一定的波動規(guī)律。 部分國 外學者將經(jīng)濟周期分為三區(qū)制或四區(qū)制; 國內(nèi)學 者在研究我國的經(jīng)濟波動規(guī)律時, 通常人為設定 為二區(qū)制或三區(qū)制。 本文認為,經(jīng)濟周期的區(qū)制劃 分應充分考慮各個國家的不同特點, 由具體的經(jīng) 濟數(shù)據(jù)決定。 我們將利用隱馬爾可夫模型及估計 新方法, 確定我國自 2000 年第一季度至 2019 年 第四季度經(jīng)濟周期的變化及經(jīng)濟周期不同階段間 的轉(zhuǎn)換概率。

  二、模型描述

  隱 馬 爾 可 夫 模 型 是 一 個 雙 變 量 隨 機 過 程 {(Xn,Yn),n≥1},其中{Xn,n≥1}是有限狀態(tài)的馬 爾可夫鏈;對給定的 Xn,Yn 關(guān)于其他變量獨立。 通 常,馬爾可夫鏈是隱藏不見的,觀察值是 Yn 序列。 以下給定一些記號及假設, 設馬爾可夫鏈 {Xn,n≥1}的狀態(tài)空間為 S={x1,x2 ... xS},轉(zhuǎn)移概率 矩陣為 As×s。 本文有三個假設。 假設 1:馬爾可夫鏈{Xn,n≥1}是遍歷的。

  因為狀態(tài)空間有限,這一條件并不嚴苛,幾乎 所有研究隱馬爾可夫模型理論性質(zhì)及統(tǒng)計推斷的 文章都有此要求, 滿足這一要求的馬爾可夫鏈是 正常返,且有唯一的平穩(wěn)分布。 假設 2:馬爾可夫鏈{Xn,n≥1}的初始分布為 其平穩(wěn)分布。 實際應用中并不要求隱馬爾可夫模型有平穩(wěn) 的初始分布,因為對一個常返的馬爾可夫鏈,經(jīng)歷 一段時間后即可平穩(wěn), 所以通常的做法是去除前 若干個觀察值,即能達到要求。

  設給定 Xn=xk 時,Yn 的分布 μk 通常被稱為發(fā) 射概率。 本文對 Yn 變量的分布類型不做限制,可 以是離散的,也可以連續(xù),但具有如下假設: 假設 3:每個 μk 的取值范圍不相重疊。 在隱狀態(tài)個數(shù)的估計中, 只要求每個狀態(tài)下 的觀察值不完全重疊即可, 為了其他參數(shù)的估計 更方便,表達更簡潔,我們增強了假設 3。

  下面給 出一個隱馬爾可夫模型的常用例子。 例(正態(tài)分布的混合)假設隱狀態(tài)個數(shù)為 2,A 是不同狀態(tài)之間的轉(zhuǎn)移概率矩陣,兩個隱狀態(tài)所對 應的發(fā)射變量分別服從 N(μ(1),σ2 )和 N(μ(2),σ2 ) 的正態(tài)分布。此時,Yn 是具有不同期望但同方差的 二個正態(tài)分布的混合; 在經(jīng)濟領域則是生成機制 為 Yn=μ(k)+σεi 的馬爾可夫區(qū)制轉(zhuǎn)換模型,其中 εi 為白噪聲。 這一模型也常用于模擬受噪音干擾 的信號傳輸系統(tǒng)。

  三、隱狀態(tài)個數(shù)的估計

  馬爾可夫鏈{Xn,n≥1}的狀態(tài)空間為 S={x1,x2 ... xS},s 即為隱狀態(tài)個數(shù),或稱之為隱馬爾可夫模 型的階。 我們分兩種情況討論,首先假設觀察值空 間有限,設其為 O={o1,o2 ... om}。 {y1,y2 ... yn}是來自隱馬爾可夫模型 {(Xn,Yn),n≥1} 的一個觀察序 列,令 τij 為 Yn 從 oi 出發(fā)到 oj 的首中時,即 τij=inf{t>0,Y0=oi,Yt=oj}。 令 τ=(τij)m×m 及 Eτ=(Eτij)m×m 分別為首中時矩陣及 其期望。 如果 oi 和 oj 來自同一個罐子,則對任意的 ok,τik 和 τjk 同分布,故有 Eτik=Eτjk。

  對一個足夠長的觀察 序列,因為常返性,可以得到獨立同分布的首中時 序列{τ n ik, n≥1}和{τ n jk, n≥1},分別用它們的均值 代替數(shù)學期望,得到矩陣 τ=(τij)m×m,通過對(τij)m×m 的 行或列的聚類即可獲得 HMM{(Xn,Yn),n≥1}的階 的估計s贊 。 按 Zheng 等(2019),s贊是 s 的強相合估計 量。 觀察值也同時聚為s贊 類,分別為{y11,y12...y1n1 }... {ys 贊 1,ys 贊 2...ys 贊 n1 }類,且對應的狀態(tài)序列估計也同步完成。 現(xiàn)在考慮發(fā)射變量為連續(xù)分布的情形,此時觀 察值仍為{y1,y2 ...yn},但若 μk 為連續(xù)型分布函數(shù)時, τij 可能是無窮大,此時,我們將觀察值分成若干個 小區(qū)間(高維時則分成區(qū)塊),令其分別為 A1,A2... An,按上面步驟,仍可完成對返回時的聚類,以獲得 階的估計值s贊及觀察值對應的狀態(tài)序列。

  上述聚類估計的原理是同一類的觀察值到某 一固定觀察值的首中時是同分布的, 因而具有相 同的數(shù)學期望, 然后用首中時的樣本均值代替其 數(shù)學期望進行聚類。 根據(jù)中心極限定理,聚類的閾 值為 n-1/2 的常數(shù)倍,其中的 n 是樣本容量。 實際使 用中,我們選取歐氏距離作為距離函數(shù),閾值為 3 倍樣本均方差。 這種方法的好處是適用于高維發(fā)射分布的隱 馬爾可夫模型,因為是按行聚類,只要求每個狀態(tài) 的觀察值不完全相同即可;同時計算復雜度低,便 于計算機操作,是常用 Viterbi 算法的重要補充。

  四、其他參數(shù)的估計

  當觀察空間離散時, 由馬爾可夫過程常返理 論知,平均返回時間是平穩(wěn)分布的倒數(shù),據(jù)此可以 估計平穩(wěn)分布。 當觀察空間連續(xù)時,我們?nèi)钥砂瓷?述同樣方法得到平穩(wěn)分布的估計值, 但發(fā)射分布 的估計要改為核密度估計。

  五、數(shù)值模擬

  本文首先根據(jù)隱馬爾可夫模型的定義生成一 個觀測數(shù)據(jù)集, 然后按照上述方法獲得隱狀態(tài)個 數(shù),初始分布,轉(zhuǎn)移概率及發(fā)射概率的估計,以驗 證上述估計量的有效性。 所有試驗環(huán)境為配備 core i5 和 8 GB RAM 的 windows 7 PC 機。

  六、基于新估計方法的網(wǎng)絡推薦系統(tǒng)

  根據(jù)用戶以往信息, 打造個性化推薦系統(tǒng) (Aghdam,2019) 是各大網(wǎng)絡平臺努力建設的重要 目標。 國際最大的在線電影租賃公司 Netflix 不定 期地主辦國際推薦系統(tǒng)大賽,推薦系統(tǒng)的準確率每 提高 1%,都將獲得豐厚獎金。阿里巴巴公司也設計 了類似的“金阿里”競賽。Google 公司推薦系統(tǒng)深受全球好評, 近期百度的推薦系統(tǒng)也取得了長足進 步。 本文基于隱馬爾可夫模型建立個性化推薦系 統(tǒng),并根據(jù)實證結(jié)果再次驗證本文估計的效果。

  (一)數(shù)據(jù)來源 因為 Netflix 數(shù)據(jù)集無法獲取,我們選取Grouplens Reach 數(shù)據(jù)集建立電影推薦系統(tǒng)。Grouplens Reach 包括 17770 部電影和 480189 個用戶的相 關(guān)數(shù)據(jù),其中包括用戶基本信息,用戶每次觀看電 影的類型,電影名,觀看時間以及對所看電影的打 分。 我們利用 Grouplens Reach 數(shù)據(jù)集,驗證上文 方法的有效性。

  (二)模型建立 本文選取數(shù)據(jù)集中觀看電影數(shù)超過 2000 部的 用戶 44 名, 將每個用戶觀看的電影類型作為觀測 序列,觀測集包括喜劇、恐怖片、動作片、浪漫劇、冒 險片等 18 種電影類型。 利用上文方法首先就每個 用戶構(gòu)建隱馬爾可夫模型:觀察值為該用戶的觀看 電影類型,由此估計隱馬爾可夫模型的的隱狀態(tài)個 數(shù),此時的隱狀態(tài)個數(shù)可理解為用戶的電影選擇偏 好(喜歡、不喜歡等);進而各狀態(tài)之間的轉(zhuǎn)移概率 和具體某個類型的觀測值對應的發(fā)射概率;最后根 據(jù)概率最大的原則給出推薦的電影類型。

  七、基于隱馬爾科夫模型對經(jīng)濟周期的實證分析

  經(jīng)濟周期由經(jīng)濟數(shù)據(jù)的波峰、 波谷和運行時 間確定,在經(jīng)濟學中有嚴格的定義;但對經(jīng)濟周期 不同階段(即隱狀態(tài)個數(shù),也稱為區(qū)制)的劃分則 有較大的主觀性,有二區(qū)制說、三區(qū)制說和四區(qū)制 說。 經(jīng)濟周期研究中,由于區(qū)制數(shù)難以估計,通常 預先假定,然后通過某個準則進行模型選擇;但事 實上,區(qū)制個數(shù)是模型的決定性參數(shù),它直接決定 模型的結(jié)構(gòu)和其他參數(shù)的構(gòu)成, 因而影響模型的 擬合效果和預測的準確率。

  本文認為區(qū)制個數(shù)應 該由經(jīng)濟數(shù)據(jù)本身的結(jié)構(gòu)決定。 GDP 是國家經(jīng)濟狀況的直接反映, 本文選取 GDP 作為經(jīng)濟運行指標, 構(gòu)建發(fā)射分布為高斯分 布的隱馬爾可夫模型, 其中的隱狀態(tài)對應的是不 同的經(jīng)濟區(qū)制, 而隱狀態(tài)之間的轉(zhuǎn)移概率即為不 同區(qū)制間相互轉(zhuǎn)換的可能性。 數(shù)據(jù)的預處理方法 為:根據(jù)實際 GDP 數(shù)據(jù),計算出它們的同比增長 率。 樣本區(qū)間為 2000 年 1 季度至 2019 年 4 季度, 數(shù)據(jù)來源于銳思金融數(shù)據(jù)庫。

  八、結(jié)論

  本文研究了隱馬爾可夫模型的參數(shù)估計及應用。 首先利用常返理論給出了隱狀態(tài)個數(shù)的估計, 在此基礎上進一步估計了平穩(wěn)分布和發(fā)射概率, 進而利用加權(quán)極大似然估計得到轉(zhuǎn)移概率的估計。 數(shù)據(jù)模擬的結(jié)果表明新方法能有效識別隱馬 爾可夫模型的結(jié)構(gòu)。 隱馬爾可夫模型識別中, 隱狀態(tài)個數(shù)的估計 是模型可識別的標志, 也是其他參數(shù)準確估計的前提。 我們提出了一種新的隱狀態(tài)估計方法,不同于現(xiàn)在流行的 Viterbi 算法, 我們的方法目標明確,算法簡捷。 在其他參數(shù)的估計中,我們要求模型每個狀態(tài)的發(fā)射變量取值不相重疊, 這一條件過于嚴苛, 建議在本文隱狀態(tài)個數(shù)估計的基礎上 結(jié)合 MCMC 方法估計其他參數(shù),這將大大提高模 型適用范圍,同時降低計算成本。

  數(shù)值模擬的結(jié)果表明:針對不同的發(fā)射變量, 本文方法均能準確估計隱狀態(tài)個數(shù), 平穩(wěn)分布的 估計也較為穩(wěn)健;發(fā)射變量為連續(xù)分布時,發(fā)射變 量的密度估計還有待提高。 我們基于 Grouplens Reach 數(shù)據(jù)集構(gòu)造了個 性化的電影推薦系統(tǒng),與其他系統(tǒng)相比,隱馬爾可 夫模型的準確率最為突出;同為隱馬爾可夫模型, 本文構(gòu)造的估計方法優(yōu)于現(xiàn)有算法。 實例應用中,本文對我國的 GDP 實時數(shù)據(jù)增 長率建立隱馬爾可夫模型,分析了2000 年第一季度至 2019 年第四季 度期間內(nèi)我國經(jīng)濟周期區(qū)制個數(shù)及其相互轉(zhuǎn)化的 概率。 實證結(jié)果表明:此時間段我國經(jīng)濟周期呈現(xiàn) 兩區(qū)制,且經(jīng)濟運行較為平穩(wěn),區(qū)制間的轉(zhuǎn)換概率 較小。

  參考文獻:

  1. 李正輝、鄭玉航:《基于混頻數(shù)據(jù)模型的中國經(jīng)濟周 期區(qū)制監(jiān)測研究》,《統(tǒng)計研究》2015 年第 1 期。

  2. 劉鶴飛、王坤、蔣成飛:《隱狀態(tài)個數(shù)未知的隱馬爾 可夫多元正態(tài)分布的貝葉斯推斷》,《統(tǒng)計研究》2017 年第 12 期。

  3. 樓振凱,侯福均,樓旭明:《部分狀態(tài)可見的隱馬爾可 夫模型狀態(tài)序列的估計方法》,《統(tǒng)計研究》2019 年第 6 期。

  4. Bickel P.J., Yacov R., Tobias R. Asymptotic Normality of the Maximum-likelihood Estimator for General Hidden Markov Models. The Annals of Statistics, 1998, 26(4): 1614~1635. 5. Rabiner L.R. A Tutorial on Hidden Markov Models and Selected Applications in Speech. Recognition. IEEE, 1989, 77.

  作者:朱 斌 鄭 靜

轉(zhuǎn)載請注明來自發(fā)表學術(shù)論文網(wǎng):http:///jjlw/24387.html