本文摘要:摘要: 電子商務(wù)的迅速發(fā)展為在線實時定價奠定了環(huán)境基礎(chǔ),本文基于深度強化學習理論提出了一個在不確定性環(huán)境下針對有限銷售時間段內(nèi)在線銷售給定庫存量商品的動態(tài)定價學習框架 DRL-DP ( Deep ReinforcementLearning Framework for Dynamic Pricing)。 DRL-DP 首先將動
摘要: 電子商務(wù)的迅速發(fā)展為在線實時定價奠定了環(huán)境基礎(chǔ),本文基于深度強化學習理論提出了一個在不確定性環(huán)境下針對有限銷售時間段內(nèi)在線銷售給定庫存量商品的動態(tài)定價學習框架 DRL-DP ( Deep ReinforcementLearning Framework for Dynamic Pricing)。 DRL-DP 首先將動態(tài)定價問題建模成馬爾科夫決策過程(Markov DecisionProcess,MDP),然后基于深度強化學習理論設(shè)計了動態(tài)定價算法。 實驗結(jié)果表明在不確定性動態(tài)定價環(huán)境中,DRLDP相比于傳統(tǒng)的表格式強化學習動態(tài)定價算法,能夠在需求與環(huán)境特征存在相關(guān)性時取得更好的收益表現(xiàn)。
關(guān)鍵詞: 動態(tài)定價; 深度強化學習; 收益管理
引言
隨著商業(yè)的發(fā)展,傳統(tǒng)的固定定價模式已經(jīng)難以適應(yīng)需求動態(tài)變化的應(yīng)用環(huán)境,給企業(yè)帶來了諸如庫存、銷售以及客戶滿意度等問題,很難滿足顧客差異化、多元化的消費需求。 而動態(tài)定價伴隨商業(yè)數(shù)字化的加快越來越得到企業(yè)的青睞,這也是企業(yè)避免粗暴定價模式,走向精細化運營方向的一種方式。 特別是國內(nèi)外基于互聯(lián)網(wǎng)進行商品銷售的企業(yè)對動態(tài)定價策略的運用更為明顯,大型在線零售商亞馬遜針對平臺上數(shù)百萬的商品引入動態(tài)定價策略進行價格調(diào)整來增加收益和打擊競爭者;美團、淘寶、京東等電子商務(wù)平臺也積極引入動態(tài)定價對其平臺上的各種商品在不同供應(yīng)時間點進行差異化的定價,諸如京東、淘寶平臺上的限時秒殺、閃購以及優(yōu)惠券活動,美團上的外賣折扣券、配送費用分時段計價的方式,F(xiàn)今,電子商務(wù)讓信息流全面轉(zhuǎn)向了線上平臺,使得數(shù)據(jù)資源集中在了電商平臺中心。
一些大型的電商網(wǎng)站采集了豐富的數(shù)據(jù)資源,而這些數(shù)據(jù)中包含了消費者行為模式的重要信息,這使得利用數(shù)據(jù)對客戶需求估計來進行定價策略調(diào)整,增加產(chǎn)品周期內(nèi)的累積收益成為了可能。 然而,先前的研究主要存在以下兩方面問題:一方面,部分資料對動態(tài)定價問題策略的研究主要基于一些固有的假設(shè),缺乏對數(shù)據(jù)本身潛在信息的挖掘;另一方面,很多基于數(shù)據(jù)來研究動態(tài)定價問題的策略難以應(yīng)對大數(shù)據(jù)的應(yīng)用場景,主要問題是難以表達高維數(shù)據(jù)特征所包含的需求信息和定價之間的復(fù)雜關(guān)系。 近年來,深度強化學習理論在游戲[1-2]、推薦系統(tǒng)[3-5]等領(lǐng)域都取得了廣泛的應(yīng)用,這促使了采用深度強化學習理論來研究動態(tài)定價問題。本文采用深度強化學習理論研究依靠電子商務(wù)平臺進行銷售商品的動態(tài)定價問題。 針對商品受到環(huán)境的復(fù)雜變化導致高水平不確定性需求的產(chǎn)生,依靠定價策略來學習需求的動態(tài)變化而進行價格調(diào)整。
本文的貢獻如下:1) 提出了解決有限銷售時間段內(nèi)在線銷售給定庫存量商品動態(tài)定價問題的動態(tài)定價學習框架 DRL-DP 用于優(yōu)化商品銷售的長期累積收益;2) 綜合考慮了影響需求變化的環(huán)境特征,提出了解決動態(tài)定價中高維狀態(tài)特征問題的 Q-network 神經(jīng)網(wǎng)絡(luò);3) 設(shè)計了在線的定價代理交互環(huán)境用于訓練和評估DRL-DP 的表現(xiàn)。本文的結(jié)構(gòu)如下:第 1 節(jié),對研究問題的相關(guān)文獻進行了回顧;第 2 節(jié),對動態(tài)定價問題的要素進行了數(shù)學描述;第3 節(jié),對動態(tài)定價問題的理論建模及算法設(shè)計進行了相關(guān)的敘述;第 4 節(jié)是數(shù)值實驗;第 5 節(jié),對本文的研究工作進行了總結(jié)和展望。
1 文獻回顧動態(tài)
定價問題歷來受到關(guān)注。 一些學者從貝葉斯理論的角度來解決動態(tài)定價問題,Mason 和 Välimäki[6] 在研究單個商品動態(tài)定價問題中,對顧客的到達率采用了貝葉斯學習的方式;Harrison 等[7]將需求不確定性限定在兩種需求函數(shù)中,采用貝葉斯方式學習最優(yōu)定價策略。
需求模型假設(shè)在一組有限的函數(shù)簇內(nèi),將價格優(yōu)化轉(zhuǎn)換為多臂賭博機(MultiarmedBandit,MAB)問題,Chhabra 和 Das[8] 研究了針對在線數(shù)字商品拍賣的 MAB 問題學習;Xu 等[9] 將具有時變回報的隱私數(shù)據(jù)動態(tài)定價問題轉(zhuǎn)化為 MAB 問題;Moradipari 等[10]采用 MAB 框架來解決價格受未知因素影響和響應(yīng)隨機性的電力實時定價問題并通過 Thompson Sampling 算法求解。 不確定性環(huán)境下基于魯棒優(yōu)化理論提出了保守性的動態(tài)定價策略,Li 等[11]對需求率模型具有不確定性的情況采用魯棒優(yōu)化進行研究;Cohen 等[12]提出了直接從數(shù)據(jù)中學習魯棒性的動態(tài)定價策略。 部分學者也從博弈論角度考慮多個參與主體的動態(tài)定價問題,陳曉紅等[13] 研究了多零售商動態(tài)博弈定價;Srinivasan 等[14]利用博弈論對新加坡電力市場進行了動態(tài)定價建模;曾賀奇等[15] 從博弈論角度考慮了兩競爭商定價問題。近年來,強化學習在研究動態(tài)定價問題上也有一些進展。
Han[16]在解決一般性動態(tài)定價問題將 Bayesian 方法和Q-Learning 結(jié)合,采用貝葉斯的方式將 MDP 的轉(zhuǎn)移函數(shù)和獎勵函數(shù)作為分布,并利用采樣方式進行動作的選擇;Collins等[17]比較了 SARSA、Q-learning 和 Monte-Carlo learning 這三種方法對于航空公司動態(tài)定價博弈的效果,并且還分析了將強化學習應(yīng)用于此類問題所獲得的額外效益;Dogan 等[18] 采用強化學習理論分析了在不同環(huán)境下各零售商在多零售商競爭環(huán)境中的定價決策;Rana 等[19] 考慮了多個相互依賴產(chǎn)品的收益問題,當需求是隨機的且需求函數(shù)的形式未知時,使用強化學習來模擬相互依賴產(chǎn)品的最優(yōu)定價;Cai 等[20] 通過強化學習研究了電子商務(wù)市場中廣告實時競價問題;Lu等[21]采用馬爾科夫決策過程建模了分級電力市場中能源管理的動態(tài)定價問題并采用 Q-Learning 算法求解。綜上所述,前期的相關(guān)文獻對顧客到達率采用已知分布,需求和價格之間的關(guān)系假設(shè)為已知的帶有未知參數(shù)的函數(shù)或者函數(shù)簇。 然而,現(xiàn)實應(yīng)用場景中的顧客到達率以及需求受到環(huán)境多種因素綜合影響而變化。
此外,在需求估計中采用了統(tǒng)計學習的方式,與價格優(yōu)化分割成兩階段的決策模型。 而采用強化學習理論研究動態(tài)定價問題作為一種免模型的方式,對需求估計和價格優(yōu)化相結(jié)合,是單階段決策模型。 但是前期關(guān)于強化學習研究動態(tài)定價問題的文獻多集中在表格式強化學習,模型的學習和表達能力有限,無法處理高維數(shù)據(jù)特征下的定價問題。 而本文研究基于具有良好表征能力的深度強化學習理論來解決需求受到環(huán)境多種因素影響的實時動態(tài)定價問題。
2 問題描述
電商平臺進行銷售的部分商品需在固定的銷售時間段內(nèi)銷售給定的庫存量,特別是易腐性和時尚類商品,而平臺由于數(shù)據(jù)獲取、存儲、利用的便利性以及環(huán)境交互的可實施性,特別適合于動態(tài)定價策略的運用。 這類商品由于在銷售單個周期時間內(nèi)不允許進行再次補貨,銷售末期剩余的商品不存在殘值。 當面臨復(fù)雜的市場變化環(huán)境時,往往需求快速地變化而難以確定,此時可以利用數(shù)據(jù)學習需求的動態(tài)變化,通過相關(guān)的數(shù)據(jù)特征變化來反映需求的動態(tài)變化情況,采用動態(tài)定價策略來控制庫存水平的狀態(tài)變化。 因此,當面對復(fù)雜的不確定性需求環(huán)境時,商家一般會采用動態(tài)定價策略來提高累積收益。
3 動態(tài)定價模型
3. 1 動態(tài)定價的 MDP
本文將此類動態(tài)定價問題建模為離散有限的 MDP。MDP 由 〈S,A,P,R,γ〉 五元組構(gòu)成,S 表示狀態(tài)空間,A 表示動作空間,P:S × A × S → [0,1] 表示狀態(tài)轉(zhuǎn)移概率函數(shù),R:S× A → ℝ 表示回報函數(shù),γ ∈ [0,1] 表示折扣因子。 上述動態(tài)定價問題 MDP 的具體分析如下:狀態(tài)空 間 S: 狀 態(tài) 信 息 通 過 特 征 描 述, 即 S = ( S _observation,S_ stock, S _ seq)。
其中,特征分為觀測狀態(tài) S _observation,庫存狀態(tài) S_stock 以及序列反饋信息 S_seq 三組。觀測狀態(tài)表示對定價市場環(huán)境的感知,可以是當前時間步同類競爭商品的價格、不同時段顧客的流量等影響顧客到達率以及需求敏感性的特征;庫存狀態(tài)由當前定價時間步到銷售期結(jié)束的剩余時間量和剩余庫存量構(gòu)成;序列反饋信息表示從定價開始到當前時間步的庫存狀態(tài)變化、銷量狀態(tài)變化以及定價狀態(tài)變化的序列反饋,用于學習不同時間步狀態(tài)信息下采取不同定價動作的需求敏感性變化特性。
強化學習是一種在線自適應(yīng)學習框架,被廣泛用于處理序列決策問題。 基于強化學習理論解決動態(tài)定價問題具有的優(yōu)勢在于強化學習從與環(huán)境的交互經(jīng)驗中學習最佳的定價策略,能夠隨環(huán)境變化而自適應(yīng)地調(diào)整定價,并將需求估計與價格優(yōu)化兩階段結(jié)合在一起。
Q-network 架構(gòu)的設(shè)計關(guān)系到正確地近似表達不同狀態(tài)下采取不同動作的累積折扣回報價值,在圖 2 中展示了本文設(shè)計的 Q-network 架構(gòu)。 本文對 Q-network 架構(gòu)的設(shè)計綜合考慮到了狀態(tài)信息、觀測信息以及序列反饋信息來評估當前狀態(tài)下選取不同動作的累積折扣回報價值。 因此,針對底層特征提取分別設(shè)計了觀測狀態(tài)、庫存狀態(tài)和序列反饋信息模塊。
4 數(shù)值實驗
接下來,本文將 DRL-DP 與基于表格式強化學習動態(tài)定價算法 Q-learning[26]、 Q(λ)[27]的定價策略學習能力在模擬的不確定性動態(tài)定價環(huán)境中進行了對比分析。 Q-learning、Q(λ) 與 DRL-DP 在 MDP 定義的不同之處在于狀態(tài)空間為商品剩余的庫存量,回報函數(shù)采用立即收益 Pmaxat·nt。 實驗內(nèi)容如下:1)對比三種強化學習動態(tài)定價算法的收益表現(xiàn)以及定價策略的收斂情況分析;2)分析探索率對三種強化學習動態(tài)定價算法收益的影響;3)分析 DRL-DP 回報函數(shù)設(shè)計的合理性。
4. 1 實驗環(huán)境設(shè)置
實驗環(huán)境中假設(shè)代理不知道顧客的到達率以及需求模型,只通過與環(huán)境交互基于歷史觀測數(shù)據(jù)學習而作出定價決策,相關(guān)的實驗數(shù)據(jù)通過如下假設(shè)生成。顧客到達率模型:假設(shè)顧客的到達率是具有時間相關(guān)性的泊松分布,這個假設(shè)是隨機性的。 顧客的初始平均到達率為 μ(1),由在區(qū)間[x0 ,x1 ] 的均勻分布生成,平均到達率隨時間 t 遞減 μ(t) = μ(1) - ξt,t = 2,…,T。 這符合對一部分易腐性和時尚類商品的需求熱度隨銷售時間的推移而逐漸降低的現(xiàn)實應(yīng)用背景。
4. 2 結(jié)果分析
文中 4. 1 節(jié)動態(tài)定價問題的最優(yōu)定價策略由已知顧客到達率和需求全部信息的動態(tài)規(guī)劃計算得到。 總結(jié)了三種算法在與環(huán)境交互學習一定迭代幕數(shù)之后的平均收益占最優(yōu)定價策略取得收益的百分比。 Q-learning 和 Q(λ) 的定價策略收斂速度較慢,平均收益取 10000 幕迭代所得,DRL-DP 的定價策略收斂速度快,平均收益取 1000 幕迭代所得。 從總的平均收益水平分析可知,DRL-DP 從觀測空間的狀態(tài)特征學習到了顧客的到達率信息,收斂速率快,前 1000幕與環(huán)境的交互已經(jīng)比表格式強化學習動態(tài)定價算法 10000幕的交互提升了百分之十幾的平均收益水平。
下面比較三種動態(tài)定價算法策略的收斂情況。 隨著與環(huán)境交互的增多,DRL-DP 在與環(huán)境的交互中逐漸學習改進定價策略,隨著迭代幕數(shù)的增多,收益不斷提高,最后策略收斂,收益趨于穩(wěn)定。 此外,可以比較出DRL-DP 的定價策略學習能力明顯優(yōu)于 Q-learning 和 Q(λ),收斂速度快,前 100 幕所取得的平均收益已經(jīng)高于了 Qlearning和 Q(λ), 在[500,1000]幕的平均收益已經(jīng)趨于平穩(wěn),并且顯著高于前兩者算法的定價策略收斂到平穩(wěn)狀態(tài)后的平均收益。 由于在不確定性的定價環(huán)境中,需求與顧客的到達率存在相關(guān)性,Q-learning 和 Q(λ) 定價模型的學習表達能力有限,造成對狀態(tài)-動作值的估計需要采樣更多的數(shù)據(jù)而導致算法的收斂速度較慢。 此外,受到顧客到達率隨機性的影響,Q-learning 和 Q(λ) 缺乏對觀測空間特征信息的掌握,導致 Q-learning 和 Q(λ) 估計的狀態(tài)-動作值不夠準確并且產(chǎn)生波動,而 DRL-DP 利用神經(jīng)網(wǎng)絡(luò)去近似值函數(shù)能夠在不確定性的定價環(huán)境中對其估計更加準確。
實驗結(jié)果驗證了 DRL-DP 在不確定性動態(tài)定價環(huán)境中具有比表格式強化學習動態(tài)定價算法更優(yōu)的定價策略學習能力。下面分析探索率對平均收益的影響,表明探索率采用逐步衰減是一種更為合理的方式。 本文分析了三種算法在逐步衰減探索率(從 1 逐步衰減到 0. 01,即 1→0. 01)和不同固定探索率下的平均收益。 Q-learning 和 Q(λ) 取10000 幕迭代的平均收益,DRL-DP 取 1000 幕迭代的平均收益。
一個適中的探索率能夠產(chǎn)生更高的平均收益,而探索過多不利于定價策略的收斂而且持續(xù)性過高的探索率還會影響顧客體驗;探索過少容易使定價策略收斂到較差的次優(yōu)解,在這兩種情況下都會導致降低平均收益水平,一個更好的策略是采用逐步衰減的探索率來平衡探索與利用之間的關(guān)系。 此外,實驗結(jié)果也表明在不同的探索率下,DRL-DP 相比另外兩種算法在大多數(shù)情況下都能取得更好的平均收益。
5 結(jié)語
本文基于深度強化學習理論提出了解決不確定性環(huán)境下有限庫存動態(tài)定價問題的學習框架 DRL-DP,并模擬了需求跨時段相互依賴的不確定性動態(tài)定價環(huán)境。 通過仿真實驗表明在不確定性動態(tài)定價環(huán)境中,需求與定價環(huán)境的特征存在相關(guān)性時,DRL-DP 相比于傳統(tǒng)的表格式強化學習動態(tài)定價算法能夠?qū)W習到更優(yōu)的動態(tài)定價策略。DRL-DP 與環(huán)境交互學習動態(tài)定價策略,自動從定價環(huán)境中的各種影響因素學習需求與價格的關(guān)系來最大化長期累積收益,通過交互經(jīng)驗改善動態(tài)定價策略。 DRL-DP 不需要模型配置,同時適用于高維狀態(tài)特征的學習,這對于大數(shù)據(jù)環(huán)境下現(xiàn)實應(yīng)用問題的動態(tài)定價策略探索具有積極的意義。 現(xiàn)實應(yīng)用場景的環(huán)境更加復(fù)雜多變,希望未來對此方面感興趣的學者能夠基于真實的應(yīng)用場景數(shù)據(jù)來解決動態(tài)性數(shù)據(jù)的獲取問題,以實現(xiàn)更進一步的研究。
參 考 文 獻
[1] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level controlthrough deep reinforcement learning[J]. Nature, 2015, 518(7540):529-533.
[2] Silver D, Lever G, Heess N, et al. Deterministic policy gradientalgorithms[ C]. International Conference on Machine Learning,2014: 387-395.
[3] Zhao X, Zhang L, Ding Z, et al. Deep reinforcement learning forlist-wise recommendations, arXiv preprint arXiv:1801. 00209.
[4] Zhao X, Zhang L, Ding Z, et al. Recommendations with negativefeedback via pairwise deep reinforcement learning[C]. KnowledgeDiscovery and Data Mining, 2018: 1040-1048.
[5] Zou L, Xia L, Ding Z, et al. Reinforcement learning to optimizelong-term user engagement in recommender systems [ C ] / /Proceedings of the 25th ACM SIGKDD International Conference onKnowledge Discovery & Data Mining. 2019: 2810-2818.
[6] Mason R, Välimäki J. Learning about the arrival of sales [ J].Journal of Economic Theory, 2011, 146(4): 1699-1711.
作者:王祖德, 陳彩華∗, 李 敏
轉(zhuǎn)載請注明來自發(fā)表學術(shù)論文網(wǎng):http://m.liangshanbai.cn/jylw/30138.html