本文摘要:logistic回歸變量主要在流行病學(xué)中應(yīng)用較多,這種曲線圖主要是探索某疾病的危險(xiǎn)因素,根據(jù)曲線圖大概推測(cè)出疾病發(fā)生的概率等等,這可以讓我們對(duì)疾病有個(gè)大概的了解,下面小編推薦一篇關(guān)于logistic回歸變量的電子論文。 摘要:BP神經(jīng)網(wǎng)絡(luò)是一種使用非線性可導(dǎo)
logistic回歸變量主要在流行病學(xué)中應(yīng)用較多,這種曲線圖主要是探索某疾病的危險(xiǎn)因素,根據(jù)曲線圖大概推測(cè)出疾病發(fā)生的概率等等,這可以讓我們對(duì)疾病有個(gè)大概的了解,下面小編推薦一篇關(guān)于logistic回歸變量的電子論文。
摘要:BP神經(jīng)網(wǎng)絡(luò)是一種使用非線性可導(dǎo)函數(shù)作為傳遞函數(shù)的前饋神經(jīng)網(wǎng)絡(luò),具有較高的精確度,但過(guò)多的預(yù)測(cè)變量會(huì)影響B(tài)P神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性。采用Logistic回歸變量篩選方法能在一定程度上提高分類準(zhǔn)確性,提高模型效率。對(duì)2013年滬深兩市A股分類評(píng)級(jí)進(jìn)行了研究,證明基于Logistic回歸變量篩選的神經(jīng)網(wǎng)絡(luò)提高了兩極類別分類的準(zhǔn)確性。
關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò);Logistic回歸;變量篩選
0引言
人工神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)擬合是通過(guò)對(duì)輸入和輸出的分析,來(lái)更新各神經(jīng)元間的連接權(quán)重,是一種非線性的統(tǒng)計(jì)模型,具有較高的精確度[1]。但是,對(duì)于多種因素共同決定的復(fù)雜問(wèn)題來(lái)說(shuō),由于影響因變量的預(yù)測(cè)變量過(guò)多,將全部預(yù)測(cè)變量加入模型進(jìn)行分析,一些重要性較低的變量噪聲就會(huì)影響整個(gè)模型的精度,達(dá)不到分析效果[2]。由此,本文提出一種優(yōu)化的基于Logistic回歸變量篩選的神經(jīng)網(wǎng)絡(luò)分析方法。
1原理
1.1BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種基于有監(jiān)督的學(xué)習(xí)、使用非線性可導(dǎo)函數(shù)作為傳遞函數(shù)的前饋神經(jīng)網(wǎng)絡(luò)[3]。BP神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的非線性映射能力、較高的自學(xué)習(xí)和自適應(yīng)能力、將學(xué)習(xí)成果應(yīng)用于新環(huán)境和新知識(shí)的能力以及相當(dāng)?shù)娜蒎e(cuò)能力[4]。
BP算法(Error Back Proragation)學(xué)習(xí)過(guò)程由信號(hào)的正向傳播與誤差的反向傳播兩個(gè)過(guò)程組成。正向傳播時(shí),輸入樣本從輸入層傳入,經(jīng)各隱層逐層處理后,傳向輸出層[5]。若輸出層的實(shí)際輸出與期望的輸出不符,則轉(zhuǎn)入誤差的反向傳播階段。誤差反傳是將輸出誤差以某種形式通過(guò)隱層向輸入層逐層反傳,并將誤差分?jǐn)偨o各層的所有單元,從而獲得各層單元的誤差信號(hào),此誤差信號(hào)即作為修正各單元權(quán)值的依據(jù)[6]。這種信號(hào)正向傳播與誤差反向傳播的各層權(quán)值調(diào)整過(guò)程,是周而復(fù)始進(jìn)行的。權(quán)值不斷調(diào)整的過(guò)程,也就是網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過(guò)程。此過(guò)程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可接受的程度,或進(jìn)行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止[78]。如圖1所示,向量X為輸入層輸入向量,向量Y為隱層輸出向量,向量O為輸出層輸出向量,矩陣V為輸入層到隱層之間的權(quán)值矩陣,矩陣W為隱層到輸出層之間的權(quán)值矩陣。
1.3基于Logistic回歸變量篩選的BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)方法
使用IBM SPSS Modeler 15.0構(gòu)建模型[11]。用Logistic回歸分析方法擬合數(shù)據(jù),提取出符合變量篩選條件的預(yù)測(cè)變量[12]。構(gòu)建Logistic回歸模型時(shí)使用分區(qū)數(shù)據(jù)并為每個(gè)分割構(gòu)建獨(dú)立的模型;選用多項(xiàng)式過(guò)程,變量提取方法使用步進(jìn)法并使用主效應(yīng)模型,目標(biāo)基準(zhǔn)類別使用第一類別,迭代次數(shù)上限為20次。挑選出滿足給定顯著水準(zhǔn)的預(yù)測(cè)變量后,將這些預(yù)測(cè)變量加入數(shù)據(jù)流作為BP神經(jīng)網(wǎng)絡(luò)輸入層變量,目標(biāo)選擇創(chuàng)建標(biāo)準(zhǔn)模型,并使用BP算法建立MLP神經(jīng)網(wǎng)絡(luò)模型,停止條件為最大訓(xùn)練時(shí)間10分鐘,防止過(guò)度擬合集合設(shè)為30%。使用上述權(quán)值調(diào)整算法建立神經(jīng)網(wǎng)絡(luò)進(jìn)行分類分析,具體模型如圖2所示。
2實(shí)例分析
股票評(píng)級(jí)是股票資信評(píng)估的一個(gè)重要項(xiàng)目,它可以為投資者提供股票的風(fēng)險(xiǎn)信息,降低投資者的風(fēng)險(xiǎn)成本,是投資者決策的重要依據(jù)[13]。由于股票價(jià)格受到政治、經(jīng)濟(jì)、社會(huì)等多種因素影響,使用傳統(tǒng)的模型擬合往往無(wú)法達(dá)到令人滿意的效果[14],本文提出的模型正好能解決此難題。
2.1數(shù)據(jù)準(zhǔn)備
選取2013年度上證A股、深證A股所有股票,導(dǎo)出2013年1月4日至2013年12月31日間股票交易數(shù)據(jù),并從銳思數(shù)據(jù)庫(kù)、中國(guó)證券報(bào)網(wǎng)站、新浪財(cái)經(jīng)數(shù)據(jù)中心等平臺(tái)匯總上市公司四季度報(bào)(年報(bào))數(shù)據(jù)。其中年報(bào)數(shù)據(jù)保留盈利能力(包括凈資產(chǎn)收益等7項(xiàng)指標(biāo))、運(yùn)營(yíng)能力(包括應(yīng)收賬款周轉(zhuǎn)率等6項(xiàng)指標(biāo))、成長(zhǎng)能力(包括主營(yíng)業(yè)務(wù)收入增長(zhǎng)率等6項(xiàng)指標(biāo))、償債能力(包括流動(dòng)比率等6項(xiàng)指標(biāo))、現(xiàn)金流量(包括現(xiàn)金流量比等5項(xiàng)指標(biāo)),共計(jì)30項(xiàng)財(cái)務(wù)分析指標(biāo)。
2.2數(shù)據(jù)清理
由于樣本含量足夠大,將近2 500例,對(duì)于存在缺失值的實(shí)例,將整條數(shù)據(jù)刪除,不作分析使用。
2.3數(shù)據(jù)變換及離散化
(1)考慮到個(gè)別股票在2013年度存在除權(quán)除息,如果直接按市場(chǎng)價(jià)格計(jì)算股票漲跌幅,就會(huì)偏離實(shí)際情況,因此對(duì)這部分股票需要按實(shí)際收益計(jì)算其漲跌幅度。
(2)計(jì)算出年度股票漲跌幅后,將其離散化處理,漲跌幅(-∞,-20%],(-20%,0%],(0%,20%],(20%,+∞)分別離散為0,1,2,3四個(gè)數(shù)值。
2.4數(shù)據(jù)集成
將股票價(jià)格及漲跌數(shù)據(jù),上市公司財(cái)務(wù)指標(biāo)數(shù)據(jù)集成至一個(gè)數(shù)據(jù)庫(kù),最終得到有效數(shù)據(jù)1 856例。
2.5建立模型
構(gòu)建Logistic回歸模型,以步進(jìn)法通過(guò)似然比統(tǒng)計(jì)篩選得到7個(gè)預(yù)測(cè)變量,如圖3所示,再用此7個(gè)預(yù)測(cè)變量構(gòu)建人工神經(jīng)網(wǎng)絡(luò)模型如圖4所示。對(duì)照模型使用未使用變量篩選的人工神經(jīng)網(wǎng)絡(luò)。構(gòu)建模型時(shí),訓(xùn)練數(shù)據(jù)占80%,測(cè)試數(shù)據(jù)占20%。
2.6實(shí)驗(yàn)結(jié)果
評(píng)級(jí)總正確率較未使用變量篩選的模型,在培訓(xùn)和測(cè)試數(shù)據(jù)分區(qū)分別有了1.5和3個(gè)百分點(diǎn)的提高,分別為48.64%和50.52%;在評(píng)級(jí)=0時(shí)分別有了21和28個(gè)百分點(diǎn)的提高,分別為60.61%和64.63%,從ROC下方面積可以清晰看到這個(gè)變化,如圖7、圖8所示;在評(píng)級(jí)=3時(shí)培訓(xùn)分區(qū)有了5個(gè)百分點(diǎn)的提高,為82.8%,測(cè)試區(qū)沒(méi)有提高。但在評(píng)級(jí)=1或者評(píng)級(jí)=2時(shí)正確率卻有了不同程度的下降。
2.7實(shí)驗(yàn)結(jié)果分析
使用Logistic回歸篩選變量后的BP神經(jīng)網(wǎng)絡(luò)在對(duì)股票進(jìn)行評(píng)級(jí)時(shí),其評(píng)級(jí)正確率在漲幅最大區(qū)域因原模型準(zhǔn)確率已高達(dá)77%,提升幅度不是特別大,但在跌幅最大區(qū)域卻有了顯著提高。其原因在于篩選后的變量擴(kuò)大了影響程度較大的變量的影響,縮小了原有影響程度較小的變量產(chǎn)生噪聲的影響,使處于漲幅極端的兩類因變量特征更加明顯,其分類正確率自然會(huì)有提升。而對(duì)于處于漲幅中間區(qū)域的兩類因變量來(lái)說(shuō),因其漲跌幅較小,各種自變量的影響相互博弈,刪減自變量,對(duì)其正確分類必然產(chǎn)生較大影響,降低了分類正確率。但在實(shí)際生活中,人們關(guān)心的往往是如何使利益最大化,并盡可能減小風(fēng)險(xiǎn)成本。因此,本文所提出的模型價(jià)值顯而易見(jiàn)。
3結(jié)語(yǔ)
股票分級(jí)實(shí)驗(yàn)證明,基于Logistic回歸篩選變量后的BP神經(jīng)網(wǎng)絡(luò)在保證總體分類正確率穩(wěn)步提升的同時(shí)在極大、極小分類正確率上也有了顯著的提高。因此,在對(duì)極值分類有較高要求且預(yù)測(cè)變量較多的應(yīng)用領(lǐng)域,此模型可作為一種分類參考,以提高分類效率。
參考文獻(xiàn)參考文獻(xiàn):
[1]SONG Y P, PENG X Q. New structure adapting neural network and its training method[J]. Control and Decision,2010,25(8):12651268.
[2]韓玲.基于人工神經(jīng)網(wǎng)絡(luò)—多層感知器(MLP)的遙感影像分類模型[J].測(cè)繪通報(bào),2004(9):2931.
[3]韓力群.人工神經(jīng)網(wǎng)絡(luò)教程[M].北京:北京郵電大學(xué)出版社,2006.
[4]LI Y, WANG Z, AO Z G, et al.Optimization for breakout prediction system of BP neural network[J]. Control and Decision, 2010,25(3): 453456.
小編推薦優(yōu)秀的電子期刊 《電子設(shè)計(jì)技術(shù)》
《電子設(shè)計(jì)技術(shù)》(月刊)創(chuàng)刊于1994年,由中國(guó)電子報(bào)社主辦。 本刊辦刊宗旨:成為中國(guó)電子設(shè)計(jì)業(yè)主導(dǎo)刊物,讀者:電子設(shè)計(jì)業(yè)工程師及技術(shù)管理人員。榮獲2001年獲信息產(chǎn)業(yè)部1999-2000年度電子科技期刊出版質(zhì)量獎(jiǎng)、2004年獲信息產(chǎn)業(yè)部2003-2004年度電子科技期刊報(bào)道選題獎(jiǎng)。
轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/4035.html