亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國(guó)內(nèi)或國(guó)外 期刊或論文

您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)教育論文》 不確定性環(huán)境下在線實(shí)時(shí)定價(jià)的深度強(qiáng)化學(xué)習(xí)策略> 正文

不確定性環(huán)境下在線實(shí)時(shí)定價(jià)的深度強(qiáng)化學(xué)習(xí)策略

所屬分類:教育論文 閱讀次 時(shí)間:2022-05-06 10:39

本文摘要:摘要: 電子商務(wù)的迅速發(fā)展為在線實(shí)時(shí)定價(jià)奠定了環(huán)境基礎(chǔ),本文基于深度強(qiáng)化學(xué)習(xí)理論提出了一個(gè)在不確定性環(huán)境下針對(duì)有限銷售時(shí)間段內(nèi)在線銷售給定庫(kù)存量商品的動(dòng)態(tài)定價(jià)學(xué)習(xí)框架 DRL-DP ( Deep ReinforcementLearning Framework for Dynamic Pricing)。 DRL-DP 首先將動(dòng)

  摘要: 電子商務(wù)的迅速發(fā)展為在線實(shí)時(shí)定價(jià)奠定了環(huán)境基礎(chǔ),本文基于深度強(qiáng)化學(xué)習(xí)理論提出了一個(gè)在不確定性環(huán)境下針對(duì)有限銷售時(shí)間段內(nèi)在線銷售給定庫(kù)存量商品的動(dòng)態(tài)定價(jià)學(xué)習(xí)框架 DRL-DP ( Deep ReinforcementLearning Framework for Dynamic Pricing)。 DRL-DP 首先將動(dòng)態(tài)定價(jià)問(wèn)題建模成馬爾科夫決策過(guò)程(Markov DecisionProcess,MDP),然后基于深度強(qiáng)化學(xué)習(xí)理論設(shè)計(jì)了動(dòng)態(tài)定價(jià)算法。 實(shí)驗(yàn)結(jié)果表明在不確定性動(dòng)態(tài)定價(jià)環(huán)境中,DRLDP相比于傳統(tǒng)的表格式強(qiáng)化學(xué)習(xí)動(dòng)態(tài)定價(jià)算法,能夠在需求與環(huán)境特征存在相關(guān)性時(shí)取得更好的收益表現(xiàn)。

  關(guān)鍵詞: 動(dòng)態(tài)定價(jià); 深度強(qiáng)化學(xué)習(xí); 收益管理

在線深度強(qiáng)化學(xué)習(xí)

  引言

  隨著商業(yè)的發(fā)展,傳統(tǒng)的固定定價(jià)模式已經(jīng)難以適應(yīng)需求動(dòng)態(tài)變化的應(yīng)用環(huán)境,給企業(yè)帶來(lái)了諸如庫(kù)存、銷售以及客戶滿意度等問(wèn)題,很難滿足顧客差異化、多元化的消費(fèi)需求。 而動(dòng)態(tài)定價(jià)伴隨商業(yè)數(shù)字化的加快越來(lái)越得到企業(yè)的青睞,這也是企業(yè)避免粗暴定價(jià)模式,走向精細(xì)化運(yùn)營(yíng)方向的一種方式。 特別是國(guó)內(nèi)外基于互聯(lián)網(wǎng)進(jìn)行商品銷售的企業(yè)對(duì)動(dòng)態(tài)定價(jià)策略的運(yùn)用更為明顯,大型在線零售商亞馬遜針對(duì)平臺(tái)上數(shù)百萬(wàn)的商品引入動(dòng)態(tài)定價(jià)策略進(jìn)行價(jià)格調(diào)整來(lái)增加收益和打擊競(jìng)爭(zhēng)者;美團(tuán)、淘寶、京東等電子商務(wù)平臺(tái)也積極引入動(dòng)態(tài)定價(jià)對(duì)其平臺(tái)上的各種商品在不同供應(yīng)時(shí)間點(diǎn)進(jìn)行差異化的定價(jià),諸如京東、淘寶平臺(tái)上的限時(shí)秒殺、閃購(gòu)以及優(yōu)惠券活動(dòng),美團(tuán)上的外賣折扣券、配送費(fèi)用分時(shí)段計(jì)價(jià)的方式。現(xiàn)今,電子商務(wù)讓信息流全面轉(zhuǎn)向了線上平臺(tái),使得數(shù)據(jù)資源集中在了電商平臺(tái)中心。

  一些大型的電商網(wǎng)站采集了豐富的數(shù)據(jù)資源,而這些數(shù)據(jù)中包含了消費(fèi)者行為模式的重要信息,這使得利用數(shù)據(jù)對(duì)客戶需求估計(jì)來(lái)進(jìn)行定價(jià)策略調(diào)整,增加產(chǎn)品周期內(nèi)的累積收益成為了可能。 然而,先前的研究主要存在以下兩方面問(wèn)題:一方面,部分資料對(duì)動(dòng)態(tài)定價(jià)問(wèn)題策略的研究主要基于一些固有的假設(shè),缺乏對(duì)數(shù)據(jù)本身潛在信息的挖掘;另一方面,很多基于數(shù)據(jù)來(lái)研究動(dòng)態(tài)定價(jià)問(wèn)題的策略難以應(yīng)對(duì)大數(shù)據(jù)的應(yīng)用場(chǎng)景,主要問(wèn)題是難以表達(dá)高維數(shù)據(jù)特征所包含的需求信息和定價(jià)之間的復(fù)雜關(guān)系。 近年來(lái),深度強(qiáng)化學(xué)習(xí)理論在游戲[1-2]、推薦系統(tǒng)[3-5]等領(lǐng)域都取得了廣泛的應(yīng)用,這促使了采用深度強(qiáng)化學(xué)習(xí)理論來(lái)研究動(dòng)態(tài)定價(jià)問(wèn)題。本文采用深度強(qiáng)化學(xué)習(xí)理論研究依靠電子商務(wù)平臺(tái)進(jìn)行銷售商品的動(dòng)態(tài)定價(jià)問(wèn)題。 針對(duì)商品受到環(huán)境的復(fù)雜變化導(dǎo)致高水平不確定性需求的產(chǎn)生,依靠定價(jià)策略來(lái)學(xué)習(xí)需求的動(dòng)態(tài)變化而進(jìn)行價(jià)格調(diào)整。

  本文的貢獻(xiàn)如下:1) 提出了解決有限銷售時(shí)間段內(nèi)在線銷售給定庫(kù)存量商品動(dòng)態(tài)定價(jià)問(wèn)題的動(dòng)態(tài)定價(jià)學(xué)習(xí)框架 DRL-DP 用于優(yōu)化商品銷售的長(zhǎng)期累積收益;2) 綜合考慮了影響需求變化的環(huán)境特征,提出了解決動(dòng)態(tài)定價(jià)中高維狀態(tài)特征問(wèn)題的 Q-network 神經(jīng)網(wǎng)絡(luò);3) 設(shè)計(jì)了在線的定價(jià)代理交互環(huán)境用于訓(xùn)練和評(píng)估DRL-DP 的表現(xiàn)。本文的結(jié)構(gòu)如下:第 1 節(jié),對(duì)研究問(wèn)題的相關(guān)文獻(xiàn)進(jìn)行了回顧;第 2 節(jié),對(duì)動(dòng)態(tài)定價(jià)問(wèn)題的要素進(jìn)行了數(shù)學(xué)描述;第3 節(jié),對(duì)動(dòng)態(tài)定價(jià)問(wèn)題的理論建模及算法設(shè)計(jì)進(jìn)行了相關(guān)的敘述;第 4 節(jié)是數(shù)值實(shí)驗(yàn);第 5 節(jié),對(duì)本文的研究工作進(jìn)行了總結(jié)和展望。

  1 文獻(xiàn)回顧動(dòng)態(tài)

  定價(jià)問(wèn)題歷來(lái)受到關(guān)注。 一些學(xué)者從貝葉斯理論的角度來(lái)解決動(dòng)態(tài)定價(jià)問(wèn)題,Mason 和 Välimäki[6] 在研究單個(gè)商品動(dòng)態(tài)定價(jià)問(wèn)題中,對(duì)顧客的到達(dá)率采用了貝葉斯學(xué)習(xí)的方式;Harrison 等[7]將需求不確定性限定在兩種需求函數(shù)中,采用貝葉斯方式學(xué)習(xí)最優(yōu)定價(jià)策略。

  需求模型假設(shè)在一組有限的函數(shù)簇內(nèi),將價(jià)格優(yōu)化轉(zhuǎn)換為多臂賭博機(jī)(MultiarmedBandit,MAB)問(wèn)題,Chhabra 和 Das[8] 研究了針對(duì)在線數(shù)字商品拍賣的 MAB 問(wèn)題學(xué)習(xí);Xu 等[9] 將具有時(shí)變回報(bào)的隱私數(shù)據(jù)動(dòng)態(tài)定價(jià)問(wèn)題轉(zhuǎn)化為 MAB 問(wèn)題;Moradipari 等[10]采用 MAB 框架來(lái)解決價(jià)格受未知因素影響和響應(yīng)隨機(jī)性的電力實(shí)時(shí)定價(jià)問(wèn)題并通過(guò) Thompson Sampling 算法求解。 不確定性環(huán)境下基于魯棒優(yōu)化理論提出了保守性的動(dòng)態(tài)定價(jià)策略,Li 等[11]對(duì)需求率模型具有不確定性的情況采用魯棒優(yōu)化進(jìn)行研究;Cohen 等[12]提出了直接從數(shù)據(jù)中學(xué)習(xí)魯棒性的動(dòng)態(tài)定價(jià)策略。 部分學(xué)者也從博弈論角度考慮多個(gè)參與主體的動(dòng)態(tài)定價(jià)問(wèn)題,陳曉紅等[13] 研究了多零售商動(dòng)態(tài)博弈定價(jià);Srinivasan 等[14]利用博弈論對(duì)新加坡電力市場(chǎng)進(jìn)行了動(dòng)態(tài)定價(jià)建模;曾賀奇等[15] 從博弈論角度考慮了兩競(jìng)爭(zhēng)商定價(jià)問(wèn)題。近年來(lái),強(qiáng)化學(xué)習(xí)在研究動(dòng)態(tài)定價(jià)問(wèn)題上也有一些進(jìn)展。

  Han[16]在解決一般性動(dòng)態(tài)定價(jià)問(wèn)題將 Bayesian 方法和Q-Learning 結(jié)合,采用貝葉斯的方式將 MDP 的轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù)作為分布,并利用采樣方式進(jìn)行動(dòng)作的選擇;Collins等[17]比較了 SARSA、Q-learning 和 Monte-Carlo learning 這三種方法對(duì)于航空公司動(dòng)態(tài)定價(jià)博弈的效果,并且還分析了將強(qiáng)化學(xué)習(xí)應(yīng)用于此類問(wèn)題所獲得的額外效益;Dogan 等[18] 采用強(qiáng)化學(xué)習(xí)理論分析了在不同環(huán)境下各零售商在多零售商競(jìng)爭(zhēng)環(huán)境中的定價(jià)決策;Rana 等[19] 考慮了多個(gè)相互依賴產(chǎn)品的收益問(wèn)題,當(dāng)需求是隨機(jī)的且需求函數(shù)的形式未知時(shí),使用強(qiáng)化學(xué)習(xí)來(lái)模擬相互依賴產(chǎn)品的最優(yōu)定價(jià);Cai 等[20] 通過(guò)強(qiáng)化學(xué)習(xí)研究了電子商務(wù)市場(chǎng)中廣告實(shí)時(shí)競(jìng)價(jià)問(wèn)題;Lu等[21]采用馬爾科夫決策過(guò)程建模了分級(jí)電力市場(chǎng)中能源管理的動(dòng)態(tài)定價(jià)問(wèn)題并采用 Q-Learning 算法求解。綜上所述,前期的相關(guān)文獻(xiàn)對(duì)顧客到達(dá)率采用已知分布,需求和價(jià)格之間的關(guān)系假設(shè)為已知的帶有未知參數(shù)的函數(shù)或者函數(shù)簇。 然而,現(xiàn)實(shí)應(yīng)用場(chǎng)景中的顧客到達(dá)率以及需求受到環(huán)境多種因素綜合影響而變化。

  此外,在需求估計(jì)中采用了統(tǒng)計(jì)學(xué)習(xí)的方式,與價(jià)格優(yōu)化分割成兩階段的決策模型。 而采用強(qiáng)化學(xué)習(xí)理論研究動(dòng)態(tài)定價(jià)問(wèn)題作為一種免模型的方式,對(duì)需求估計(jì)和價(jià)格優(yōu)化相結(jié)合,是單階段決策模型。 但是前期關(guān)于強(qiáng)化學(xué)習(xí)研究動(dòng)態(tài)定價(jià)問(wèn)題的文獻(xiàn)多集中在表格式強(qiáng)化學(xué)習(xí),模型的學(xué)習(xí)和表達(dá)能力有限,無(wú)法處理高維數(shù)據(jù)特征下的定價(jià)問(wèn)題。 而本文研究基于具有良好表征能力的深度強(qiáng)化學(xué)習(xí)理論來(lái)解決需求受到環(huán)境多種因素影響的實(shí)時(shí)動(dòng)態(tài)定價(jià)問(wèn)題。

  2 問(wèn)題描述

  電商平臺(tái)進(jìn)行銷售的部分商品需在固定的銷售時(shí)間段內(nèi)銷售給定的庫(kù)存量,特別是易腐性和時(shí)尚類商品,而平臺(tái)由于數(shù)據(jù)獲取、存儲(chǔ)、利用的便利性以及環(huán)境交互的可實(shí)施性,特別適合于動(dòng)態(tài)定價(jià)策略的運(yùn)用。 這類商品由于在銷售單個(gè)周期時(shí)間內(nèi)不允許進(jìn)行再次補(bǔ)貨,銷售末期剩余的商品不存在殘值。 當(dāng)面臨復(fù)雜的市場(chǎng)變化環(huán)境時(shí),往往需求快速地變化而難以確定,此時(shí)可以利用數(shù)據(jù)學(xué)習(xí)需求的動(dòng)態(tài)變化,通過(guò)相關(guān)的數(shù)據(jù)特征變化來(lái)反映需求的動(dòng)態(tài)變化情況,采用動(dòng)態(tài)定價(jià)策略來(lái)控制庫(kù)存水平的狀態(tài)變化。 因此,當(dāng)面對(duì)復(fù)雜的不確定性需求環(huán)境時(shí),商家一般會(huì)采用動(dòng)態(tài)定價(jià)策略來(lái)提高累積收益。

  3 動(dòng)態(tài)定價(jià)模型

  3. 1 動(dòng)態(tài)定價(jià)的 MDP

  本文將此類動(dòng)態(tài)定價(jià)問(wèn)題建模為離散有限的 MDP。MDP 由 〈S,A,P,R,γ〉 五元組構(gòu)成,S 表示狀態(tài)空間,A 表示動(dòng)作空間,P:S × A × S → [0,1] 表示狀態(tài)轉(zhuǎn)移概率函數(shù),R:S× A → ℝ 表示回報(bào)函數(shù),γ ∈ [0,1] 表示折扣因子。 上述動(dòng)態(tài)定價(jià)問(wèn)題 MDP 的具體分析如下:狀態(tài)空 間 S: 狀 態(tài) 信 息 通 過(guò) 特 征 描 述, 即 S = ( S _observation,S_ stock, S _ seq)。

  其中,特征分為觀測(cè)狀態(tài) S _observation,庫(kù)存狀態(tài) S_stock 以及序列反饋信息 S_seq 三組。觀測(cè)狀態(tài)表示對(duì)定價(jià)市場(chǎng)環(huán)境的感知,可以是當(dāng)前時(shí)間步同類競(jìng)爭(zhēng)商品的價(jià)格、不同時(shí)段顧客的流量等影響顧客到達(dá)率以及需求敏感性的特征;庫(kù)存狀態(tài)由當(dāng)前定價(jià)時(shí)間步到銷售期結(jié)束的剩余時(shí)間量和剩余庫(kù)存量構(gòu)成;序列反饋信息表示從定價(jià)開(kāi)始到當(dāng)前時(shí)間步的庫(kù)存狀態(tài)變化、銷量狀態(tài)變化以及定價(jià)狀態(tài)變化的序列反饋,用于學(xué)習(xí)不同時(shí)間步狀態(tài)信息下采取不同定價(jià)動(dòng)作的需求敏感性變化特性。

  強(qiáng)化學(xué)習(xí)是一種在線自適應(yīng)學(xué)習(xí)框架,被廣泛用于處理序列決策問(wèn)題。 基于強(qiáng)化學(xué)習(xí)理論解決動(dòng)態(tài)定價(jià)問(wèn)題具有的優(yōu)勢(shì)在于強(qiáng)化學(xué)習(xí)從與環(huán)境的交互經(jīng)驗(yàn)中學(xué)習(xí)最佳的定價(jià)策略,能夠隨環(huán)境變化而自適應(yīng)地調(diào)整定價(jià),并將需求估計(jì)與價(jià)格優(yōu)化兩階段結(jié)合在一起。

  Q-network 架構(gòu)的設(shè)計(jì)關(guān)系到正確地近似表達(dá)不同狀態(tài)下采取不同動(dòng)作的累積折扣回報(bào)價(jià)值,在圖 2 中展示了本文設(shè)計(jì)的 Q-network 架構(gòu)。 本文對(duì) Q-network 架構(gòu)的設(shè)計(jì)綜合考慮到了狀態(tài)信息、觀測(cè)信息以及序列反饋信息來(lái)評(píng)估當(dāng)前狀態(tài)下選取不同動(dòng)作的累積折扣回報(bào)價(jià)值。 因此,針對(duì)底層特征提取分別設(shè)計(jì)了觀測(cè)狀態(tài)、庫(kù)存狀態(tài)和序列反饋信息模塊。

  4 數(shù)值實(shí)驗(yàn)

  接下來(lái),本文將 DRL-DP 與基于表格式強(qiáng)化學(xué)習(xí)動(dòng)態(tài)定價(jià)算法 Q-learning[26]、 Q(λ)[27]的定價(jià)策略學(xué)習(xí)能力在模擬的不確定性動(dòng)態(tài)定價(jià)環(huán)境中進(jìn)行了對(duì)比分析。 Q-learning、Q(λ) 與 DRL-DP 在 MDP 定義的不同之處在于狀態(tài)空間為商品剩余的庫(kù)存量,回報(bào)函數(shù)采用立即收益 Pmaxat·nt。 實(shí)驗(yàn)內(nèi)容如下:1)對(duì)比三種強(qiáng)化學(xué)習(xí)動(dòng)態(tài)定價(jià)算法的收益表現(xiàn)以及定價(jià)策略的收斂情況分析;2)分析探索率對(duì)三種強(qiáng)化學(xué)習(xí)動(dòng)態(tài)定價(jià)算法收益的影響;3)分析 DRL-DP 回報(bào)函數(shù)設(shè)計(jì)的合理性。

  4. 1 實(shí)驗(yàn)環(huán)境設(shè)置

  實(shí)驗(yàn)環(huán)境中假設(shè)代理不知道顧客的到達(dá)率以及需求模型,只通過(guò)與環(huán)境交互基于歷史觀測(cè)數(shù)據(jù)學(xué)習(xí)而作出定價(jià)決策,相關(guān)的實(shí)驗(yàn)數(shù)據(jù)通過(guò)如下假設(shè)生成。顧客到達(dá)率模型:假設(shè)顧客的到達(dá)率是具有時(shí)間相關(guān)性的泊松分布,這個(gè)假設(shè)是隨機(jī)性的。 顧客的初始平均到達(dá)率為 μ(1),由在區(qū)間[x0 ,x1 ] 的均勻分布生成,平均到達(dá)率隨時(shí)間 t 遞減 μ(t) = μ(1) - ξt,t = 2,…,T。 這符合對(duì)一部分易腐性和時(shí)尚類商品的需求熱度隨銷售時(shí)間的推移而逐漸降低的現(xiàn)實(shí)應(yīng)用背景。

  4. 2 結(jié)果分析

  文中 4. 1 節(jié)動(dòng)態(tài)定價(jià)問(wèn)題的最優(yōu)定價(jià)策略由已知顧客到達(dá)率和需求全部信息的動(dòng)態(tài)規(guī)劃計(jì)算得到。 總結(jié)了三種算法在與環(huán)境交互學(xué)習(xí)一定迭代幕數(shù)之后的平均收益占最優(yōu)定價(jià)策略取得收益的百分比。 Q-learning 和 Q(λ) 的定價(jià)策略收斂速度較慢,平均收益取 10000 幕迭代所得,DRL-DP 的定價(jià)策略收斂速度快,平均收益取 1000 幕迭代所得。 從總的平均收益水平分析可知,DRL-DP 從觀測(cè)空間的狀態(tài)特征學(xué)習(xí)到了顧客的到達(dá)率信息,收斂速率快,前 1000幕與環(huán)境的交互已經(jīng)比表格式強(qiáng)化學(xué)習(xí)動(dòng)態(tài)定價(jià)算法 10000幕的交互提升了百分之十幾的平均收益水平。

  下面比較三種動(dòng)態(tài)定價(jià)算法策略的收斂情況。 隨著與環(huán)境交互的增多,DRL-DP 在與環(huán)境的交互中逐漸學(xué)習(xí)改進(jìn)定價(jià)策略,隨著迭代幕數(shù)的增多,收益不斷提高,最后策略收斂,收益趨于穩(wěn)定。 此外,可以比較出DRL-DP 的定價(jià)策略學(xué)習(xí)能力明顯優(yōu)于 Q-learning 和 Q(λ),收斂速度快,前 100 幕所取得的平均收益已經(jīng)高于了 Qlearning和 Q(λ), 在[500,1000]幕的平均收益已經(jīng)趨于平穩(wěn),并且顯著高于前兩者算法的定價(jià)策略收斂到平穩(wěn)狀態(tài)后的平均收益。 由于在不確定性的定價(jià)環(huán)境中,需求與顧客的到達(dá)率存在相關(guān)性,Q-learning 和 Q(λ) 定價(jià)模型的學(xué)習(xí)表達(dá)能力有限,造成對(duì)狀態(tài)-動(dòng)作值的估計(jì)需要采樣更多的數(shù)據(jù)而導(dǎo)致算法的收斂速度較慢。 此外,受到顧客到達(dá)率隨機(jī)性的影響,Q-learning 和 Q(λ) 缺乏對(duì)觀測(cè)空間特征信息的掌握,導(dǎo)致 Q-learning 和 Q(λ) 估計(jì)的狀態(tài)-動(dòng)作值不夠準(zhǔn)確并且產(chǎn)生波動(dòng),而 DRL-DP 利用神經(jīng)網(wǎng)絡(luò)去近似值函數(shù)能夠在不確定性的定價(jià)環(huán)境中對(duì)其估計(jì)更加準(zhǔn)確。

  實(shí)驗(yàn)結(jié)果驗(yàn)證了 DRL-DP 在不確定性動(dòng)態(tài)定價(jià)環(huán)境中具有比表格式強(qiáng)化學(xué)習(xí)動(dòng)態(tài)定價(jià)算法更優(yōu)的定價(jià)策略學(xué)習(xí)能力。下面分析探索率對(duì)平均收益的影響,表明探索率采用逐步衰減是一種更為合理的方式。 本文分析了三種算法在逐步衰減探索率(從 1 逐步衰減到 0. 01,即 1→0. 01)和不同固定探索率下的平均收益。 Q-learning 和 Q(λ) 取10000 幕迭代的平均收益,DRL-DP 取 1000 幕迭代的平均收益。

  一個(gè)適中的探索率能夠產(chǎn)生更高的平均收益,而探索過(guò)多不利于定價(jià)策略的收斂而且持續(xù)性過(guò)高的探索率還會(huì)影響顧客體驗(yàn);探索過(guò)少容易使定價(jià)策略收斂到較差的次優(yōu)解,在這兩種情況下都會(huì)導(dǎo)致降低平均收益水平,一個(gè)更好的策略是采用逐步衰減的探索率來(lái)平衡探索與利用之間的關(guān)系。 此外,實(shí)驗(yàn)結(jié)果也表明在不同的探索率下,DRL-DP 相比另外兩種算法在大多數(shù)情況下都能取得更好的平均收益。

  5 結(jié)語(yǔ)

  本文基于深度強(qiáng)化學(xué)習(xí)理論提出了解決不確定性環(huán)境下有限庫(kù)存動(dòng)態(tài)定價(jià)問(wèn)題的學(xué)習(xí)框架 DRL-DP,并模擬了需求跨時(shí)段相互依賴的不確定性動(dòng)態(tài)定價(jià)環(huán)境。 通過(guò)仿真實(shí)驗(yàn)表明在不確定性動(dòng)態(tài)定價(jià)環(huán)境中,需求與定價(jià)環(huán)境的特征存在相關(guān)性時(shí),DRL-DP 相比于傳統(tǒng)的表格式強(qiáng)化學(xué)習(xí)動(dòng)態(tài)定價(jià)算法能夠?qū)W習(xí)到更優(yōu)的動(dòng)態(tài)定價(jià)策略。DRL-DP 與環(huán)境交互學(xué)習(xí)動(dòng)態(tài)定價(jià)策略,自動(dòng)從定價(jià)環(huán)境中的各種影響因素學(xué)習(xí)需求與價(jià)格的關(guān)系來(lái)最大化長(zhǎng)期累積收益,通過(guò)交互經(jīng)驗(yàn)改善動(dòng)態(tài)定價(jià)策略。 DRL-DP 不需要模型配置,同時(shí)適用于高維狀態(tài)特征的學(xué)習(xí),這對(duì)于大數(shù)據(jù)環(huán)境下現(xiàn)實(shí)應(yīng)用問(wèn)題的動(dòng)態(tài)定價(jià)策略探索具有積極的意義。 現(xiàn)實(shí)應(yīng)用場(chǎng)景的環(huán)境更加復(fù)雜多變,希望未來(lái)對(duì)此方面感興趣的學(xué)者能夠基于真實(shí)的應(yīng)用場(chǎng)景數(shù)據(jù)來(lái)解決動(dòng)態(tài)性數(shù)據(jù)的獲取問(wèn)題,以實(shí)現(xiàn)更進(jìn)一步的研究。

  參 考 文 獻(xiàn)

  [1] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level controlthrough deep reinforcement learning[J]. Nature, 2015, 518(7540):529-533.

  [2] Silver D, Lever G, Heess N, et al. Deterministic policy gradientalgorithms[ C]. International Conference on Machine Learning,2014: 387-395.

  [3] Zhao X, Zhang L, Ding Z, et al. Deep reinforcement learning forlist-wise recommendations, arXiv preprint arXiv:1801. 00209.

  [4] Zhao X, Zhang L, Ding Z, et al. Recommendations with negativefeedback via pairwise deep reinforcement learning[C]. KnowledgeDiscovery and Data Mining, 2018: 1040-1048.

  [5] Zou L, Xia L, Ding Z, et al. Reinforcement learning to optimizelong-term user engagement in recommender systems [ C ] / /Proceedings of the 25th ACM SIGKDD International Conference onKnowledge Discovery & Data Mining. 2019: 2810-2818.

  [6] Mason R, Välimäki J. Learning about the arrival of sales [ J].Journal of Economic Theory, 2011, 146(4): 1699-1711.

  作者:王祖德, 陳彩華∗, 李 敏

轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jylw/30138.html