亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國內或國外 期刊或論文

您當前的位置:發(fā)表學術論文網經濟論文》 大數據在鄉(xiāng)村振興發(fā)展水平評價中的應用以鄉(xiāng)村稱號數據為例> 正文

大數據在鄉(xiāng)村振興發(fā)展水平評價中的應用以鄉(xiāng)村稱號數據為例

所屬分類:經濟論文 閱讀次 時間:2022-01-25 10:39

本文摘要:[摘要]傳統統計數據在鄉(xiāng)村振興發(fā)展水平評價中存在數據滯后、更新緩慢等問題,大數據技術有助于解決這些問題.在構建大數據優(yōu)化鄉(xiāng)村振興發(fā)展水平評價的理論邏輯基礎上,使用爬蟲技術從互聯網獲取33個鄉(xiāng)村稱號的47381個微觀數據,并運用分詞技術對多源異構數據進行統一格式的

  [摘要]傳統統計數據在鄉(xiāng)村振興發(fā)展水平評價中存在數據滯后、更新緩慢等問題,大數據技術有助于解決這些問題.在構建大數據優(yōu)化鄉(xiāng)村振興發(fā)展水平評價的理論邏輯基礎上,使用爬蟲技術從互聯網獲取33個鄉(xiāng)村稱號的47381個微觀數據,并運用分詞技術對多源異構數據進行統一格式的處理和存儲.在實證分析中將指標體系拓展為標簽體系,對2020年中國省級鄉(xiāng)村振興發(fā)展水平進行評估.研究發(fā)現,大數據技術通過拓展鄉(xiāng)村大數據源、使用新算法等,能夠提升鄉(xiāng)村振興發(fā)展水平評價的質量和效率.

  [關鍵詞]大數據;鄉(xiāng)村振興;鄉(xiāng)村稱號;指標體系;標簽模型

鄉(xiāng)村振興

  一、引言

  中共十九大提出鄉(xiāng)村振興戰(zhàn)略,明確“產業(yè)興旺、生態(tài)宜居、鄉(xiāng)風文明、治理有效、生活富裕”二十字方針.在此背景下,如何對各地鄉(xiāng)村振興發(fā)展水平進行測度和評價,發(fā)掘優(yōu)勢,補全短板,進而因勢利導推動鄉(xiāng)村發(fā)展,是實現中國鄉(xiāng)村振興的關鍵.當前,已有研究通過構建相關指標體系來測度中國鄉(xiāng)村振興發(fā)展水平,并使用統計年鑒[1]、農業(yè)普查數據[2]、調查數據庫[1]以及調研數據[3]進行實證分析.然而,統計數據雖然具有可靠性較高的優(yōu)點,但滯后期一般為2-3年,調研數據則較少進行追蹤調查.由于難以獲取更多有效數據,導致政府、學術機構等難以全面、科學評價中國鄉(xiāng)村振興發(fā)展水平.

  隨著國家大數據戰(zhàn)略推進,大數據技術更加成熟,正加速成為創(chuàng)造價值、發(fā)掘潛力的驅動力,其應用逐漸滲透到經濟社會的各個微觀單元.在農業(yè)農村領域,大數據技術在農產品價格監(jiān)測[4]、農產品流通[5]、農業(yè)災害預警[6]等領域得到廣泛應用,但無論在理論上還是實踐上,尚未有文獻對大數據在鄉(xiāng)村發(fā)展評價方面的應用進行系統研究.事實上,大數據在鄉(xiāng)村振興發(fā)展水平評價中大有可為,這主要得益于鄉(xiāng)村大數據的沉淀.

  在采集到鄉(xiāng)村大數據資源后,大數據技術還可以在分析、處理和展示數據方面發(fā)揮獨特優(yōu)勢,為全方位、多維度、立體化刻畫鄉(xiāng)村發(fā)展面貌,評價中國鄉(xiāng)村振興發(fā)展水平提供技術支撐,也為解決中國農業(yè)農村問題提供新的方案.本文以從互聯網爬取的鄉(xiāng)村稱號數據為例,對大數據在中國鄉(xiāng)村振興評價中的應用進行探索,為鄉(xiāng)村振興評價領域中使用新數據、新模型、新技術提供參考,同時也給出大數據在解決經濟社會問題時的具體使用方法.相比已有研究,本文主要在四個方面進行創(chuàng)新.第一,本文創(chuàng)新性地使用非傳統數據源,為評價鄉(xiāng)村振興發(fā)展水平提供更多維度.

  第二,本文提出非傳統數據的采集和處理方法,為規(guī)范使用大數據源提供模板.第三,本文應用非結構化和半結構化數據的量化方法,解決了大數據中數據量化難的問題.第四,本文結合使用傳統分析方法和新型分析方法,挖掘出更多有效信息.總體來看,本文在數據源選擇、數據處理、數據計算和數據展示的全流程都體現了大數據思維,在實際操作中,使用爬蟲技術、分詞技術、大數據匹配技術和可視化技術等信息技術手段,具有一定創(chuàng)新性.

  二、大數據優(yōu)化鄉(xiāng)村振興發(fā)展水平評價的理論邏輯

  (一)大數據技術全生命周期視角下的鄉(xiāng)村振興發(fā)展水平評價優(yōu)化在農業(yè)農村數據量不斷增加、大數據技術迅速發(fā)展的背景下,本文重新審視如何評價鄉(xiāng)村振興發(fā)展水平這一問題.大數據具有“5V”特征,即海量(Volume)、高速(Velocity)、多樣(Variety)、真實(Veracity)和低價值密度(Value).大數據技術是指大數據的應用技術.從大數據的生命周期來看,具體分為大數據采集、大數據預處理、大數據存儲和大數據分析等四個階段.在各個階段,大數據技術均有助于鄉(xiāng)村振興發(fā)展水平評價優(yōu)化.

  第一,在大數據采集階段,大數據技術可以對不同來源的鄉(xiāng)村數據進行采集,包括行政記錄、商業(yè)記錄、互聯網數據、電子設備傳感數據等,這些數據可以統稱為非傳統數據,不同于統計部門采集的傳統數據[7].使用非傳統數據進行分析能夠增加數據量級和層次,拓展數據維度,豐富數據類型,減少數據滯后并提高數據頻率.

  第二,在大數據預處理階段,首先需要對缺失數據、異常數據做處理,將其按照一定方法補全或者剔除.然后,要將多源異構鄉(xiāng)村大數據整理成為統一格式數據,并對一些文本型數據做量化處理,將其轉換成數值型數據.第三,在大數據存儲階段,要將海量的鄉(xiāng)村數據存儲在數據庫中,且必須保障安全、快速和高效存儲.第四,在大數據分析階段,借助機器學習、深度學習等大數據分析方法對數據進行處理,并使用可視化技術對數據進行展示.

  (二)大數據技術助力鄉(xiāng)村振興發(fā)展水平評價質量和效率提升大數據技術通過以上四個階段,能夠優(yōu)化鄉(xiāng)村振興發(fā)展水平評價,主要體現在兩個方面.一是質量提升.從本質上看,鄉(xiāng)村振興發(fā)展水平評價是一個特征發(fā)掘過程,大數據技術優(yōu)勢恰在于此.從廣度上看,大數據技術通過對廣泛的數據來源進行采集,能夠為刻畫鄉(xiāng)村發(fā)展面貌提供更多“原材料”.從深度上看,算法和技術可以為提取數據特征提供更多手段.二是效率優(yōu)化.大數據技術可以直接采集原始數據,進行快速運算和分析,然后輸出結果,能夠縮短各個環(huán)節(jié)所用時間,同時減少人工失誤導致的數據偏差,從而提高鄉(xiāng)村振興發(fā)展水平評價效率.

  三、鄉(xiāng)村稱號數據概念說明和處理

  (一)鄉(xiāng)村稱號數據概念介紹和數據質量初步評估

  在鄉(xiāng)村數據采集階段,要特別關注數據質量問題.在大數據環(huán)境下,數據質量問題更加突出,原因來自諸多因素,比如大數據來源多元化、數據總體多變且覆蓋不全、數據表現非標準、數據內涵非確定和數據真假難辨等[8].

  因此,大數據質量評估要考慮“十性”要求:可得性、相關性、可靠性、有效性、及時性、適用性、準確性、連貫性、可比性和可解釋性[7].通過梳理文獻中涉及的鄉(xiāng)村大數據源,本文選定鄉(xiāng)村稱號數據作為切入點進行研究.鄉(xiāng)村稱號數據是指由政府部門經過評審并發(fā)布的鄉(xiāng)村稱號名單,如“農業(yè)產業(yè)強鎮(zhèn)”、“中國美麗休閑鄉(xiāng)村”等.雖然稱號是由政府部門發(fā)布,但其具有來源分散、更新速度較快、半結構或非結構化、文本型數據等特征,因此相關數據屬于非傳統數據.結合上述數據質量評估標準,本文對稱號數據質量進行初步評估,發(fā)現其滿足有關數據質量的“十性”要求.

  (二)鄉(xiāng)村稱號數據采集和篩選

  發(fā)布鄉(xiāng)村稱號的政府部門包括農業(yè)部、商務部、生態(tài)環(huán)境部等.本文分三步對稱號數據進行采集和篩選.

  第一步,初步搜索稱號.首先,在各政府部門網站搜索框中輸入“稱號”、“試點”、“示范”等關鍵詞,然后對2005-2020年相關目錄進行查看,即本文不查詢2005年之后沒有更新過任何批次的稱號.經過人工查找,定位包含稱號名單的條目,這些條目的形式一般為“標題+正文+稱號名單”.經統計,共獲得54個稱號.第二步,篩選有效稱號.54個稱號并非都適合評價鄉(xiāng)村振興發(fā)展水平,需要根據稱號政策含義進一步篩選.

  一是剔除具有扶貧性質的稱號.以“農民合作社質量提升整縣推進試點”為例,考慮到該稱號名單中包含很多仍處于貧困狀態(tài)的縣級行政單位,不能很好地代表鄉(xiāng)村振興發(fā)展水平,因此,對這類稱號進行剔除處理.二是剔除具有明顯地域偏差的稱號.地域偏差是指由于不同地域適合發(fā)展的農業(yè)產業(yè)不同,因此不宜將與某類產業(yè)相關的稱號納入鄉(xiāng)村振興評價體系.三是剔除對象數量過少的稱號.如“農業(yè)重大技術協同推廣計劃試點”僅在2018年公布過8個試點,數量太少,不宜納入評價體系.在對所有稱號進行篩選后,本文得到29個有效稱號.此外,在搜索引擎中直接搜索“農村稱號”,還得到中國文明網、人民網、中國生態(tài)文化協會等官方媒體和協會評選出的3個稱號.由于“淘寶村”稱號能夠體現農村電子商務產業(yè)的發(fā)展情況。

  因此本文也將其納入到有效稱號列表中.最終,本文得到33個有效稱號共128個批次的名單.第三步,采集稱號數據.在獲取33個稱號各批次名單的原始鏈接后,從網站爬取數據,大部分為網頁數據,少部分頁面提供文件下載鏈接,文件格式包括Word、Excel、PDF、CEB等多種類型,數據基本上是半結構化數據.本文使用爬蟲技術手段獲取全部名單數據.

  (三)鄉(xiāng)村稱號數據預處理

  在大數據預處理階段,本文關注多源異構數據的整合問題.33個稱號數據的格式和結構不統一,甚至同一稱號不同批次的數據格式和結構也不同.由于農村稱號對象大部分是行政單位,因此,本文分三步對農村稱號數據進行預處理.第一步,提取稱號對象中的行政單位名稱.大部分稱號格式為“X省X市X縣X鄉(xiāng)鎮(zhèn)X村”,縣級稱號格式為“X省X市X縣”,鄉(xiāng)鎮(zhèn)級稱號格式類似.

  本文對128個批次名單數據中所有行政單位名稱進行提取.第二步,按照行政級別對原始數據進行處理.對于原始數據中各級行政單位信息都完整的稱號,可以直接使用分詞技術將“X省X市X縣X鄉(xiāng)鎮(zhèn)X村”中各個行政單位分開,以“全國民主法治示范村”和“淘寶村”兩個稱號為例,將稱號對象按照省、市、縣、鄉(xiāng)、村五級行政區(qū)劃進行處理和存儲.對于原始數據中各級行政單位信息不完全的稱號,首先需要從國家統計局網站的統計用區(qū)劃和城鄉(xiāng)劃分代碼頁面爬取全國所有地區(qū)的行政區(qū)劃層級和代碼,然后將稱號中所含的行政區(qū)劃信息與統計局行政區(qū)劃信息進行大數據匹配,補全缺失信息。按照五級行政區(qū)劃存儲.

  對于稱號對象為非行政區(qū)劃的稱號,如“全國主食加工示范企業(yè)”,本文將企業(yè)名單與國家企業(yè)信用信息公示系統進行匹配,獲得企業(yè)的注冊地址,并按以上步驟重復處理過程.最終獲取128個批次名單的47381個對象.第三步,根據本文需要對數據進行量化處理.經過前兩步,本文已經將多種格式、多種類型的數據整理成為統一格式數據,但這類文本型數據無法與指標體系結合,同時,不同稱號的對象有差異,稱號對象既包含行政區(qū)劃,又包含企業(yè)、園區(qū)等,相互之間不可比,因此需要進行量化處理.

  本文以省級鄉(xiāng)村振興發(fā)展水平評價為例,首先分別對各個稱號在省級層面進行數量統計.考慮到不同省份的村、鄉(xiāng)鎮(zhèn)、區(qū)縣數量差異較大,因此不能直接使用絕對數量,需要將其轉換成比例數據,轉換過程需要考慮稱號對象的行政區(qū)劃層級.當稱號對象行政區(qū)劃層級十分清晰,為縣級或村級時,使用各省份縣級或村級行政單位的數量作為除數,對絕對數量結果進行處理;當稱號對象包含不同的行政區(qū)劃時,如“全國一村一品示范村鎮(zhèn)”稱號對象同時包含村和鎮(zhèn),此時需要選用較高層級的行政區(qū)劃數量,即各省份鎮(zhèn)的數量作為除數;對于基地、企業(yè)等只能細分到縣級的稱號,使用縣級行政單位數量作為除數;除以上三種情況外,如果對象為園區(qū)、優(yōu)勢區(qū)、企業(yè)等稱號,使用村級行政單位數量作為除數.

  四、基于稱號數據的鄉(xiāng)村振興發(fā)展水平評價

  (一)模型構建目前對鄉(xiāng)村振興進行評價的主要方法是構建指標體系.指標體系是最為經典的一種評價方法,本文也使用指標體系來對鄉(xiāng)村振興發(fā)展水平進行評價.由于標簽模型具有框架設定更為自由、標簽數據類型更加多樣等優(yōu)勢,本文考慮使用信息領域“數據畫像”中的標簽技術,將指標體系拓展為標簽體系,對鄉(xiāng)村振興發(fā)展情況進行可視化展示.

  1.指標體系構建

  本文選取2020年為評價年度,利用33個稱號來構建指標體系.根據鄉(xiāng)村振興戰(zhàn)略“二十字方針”要求,將一級指標確定為產業(yè)興旺、生態(tài)宜居、鄉(xiāng)風文明、治理有效和共同富裕,然后將33個稱號作為底層指標,將稱號按其含義分配到所屬的一級指標中.

  2.標簽模型構建標簽體系是一種靈活、多維和適合大數據系統的模型體系.在信息技術領域,標簽技術通常被用在“用戶畫像”領域,即通過為事物打上不同的標簽來描述和刻畫用戶特征.本文創(chuàng)新性地將畫像技術的核心———標簽技術應用到鄉(xiāng)村振興的評價領域,為評價鄉(xiāng)村振興發(fā)展水平提供了更多技術工具和展示方法.

  本文將與鄉(xiāng)村稱號相關的標簽分為三類.

  第一類,事實標簽.標簽名稱與稱號名稱相同,標簽值是經過標準化處理的原始數據.事實標簽可以對底層指標數據進行展示.第二類,模型標簽.模型標簽是指經過模型計算得到具體標簽值的標簽.本文模型是指標體系,經過指標體系處理,可以計算各省份的總指數值、5個一級指標值和33個二級指標值,然后分別對各省份總指數值、一級指標值和二級指標值進行排名,最后給各省份打上標簽.

  例如,假設山西省“國家農業(yè)科技園”二級指標值在各省份中排名第8,可以打上“國家農業(yè)科技園排名第八”的標簽.第三類,預測標簽.預測標簽是指基于多年數據進行預測的標簽.可以將獲取的鄉(xiāng)村稱號微觀數據按照年度進行累計計算,得到連續(xù)多年數據,在此基礎上進行預測標簽值的計算.例如,假設2019年山東省“鄉(xiāng)風文明”一級指標值排名第6,2020年排名第4,可以打上“山東省鄉(xiāng)風文明2020年上升2位,有上升趨勢”的標簽.

  (二)實證分析

  1.指標體系結果分析

  熵權法是一種客觀賦權方法,能夠避免人為因素的干擾.因此,本文選用熵權法計算指標權重.同時,本文使用機器學習中的聚類分析方法,將31個省份(不包括港澳臺)聚為3類,縱坐標為鄉(xiāng)村振興總指數值.天津、上海和北京三地名列前茅,屬于第一梯隊,吉林、寧夏等11個省份屬于第二梯隊,四川、河北等17個省份屬于第三梯隊.可以看出,鄉(xiāng)村振興指數與東中西部地理位置的關聯性較弱.雖然東部沿海省份總體發(fā)展水平明顯高于大部分中部省份和西部省份,但寧夏、貴州、重慶等西部省份的總指數值較高,出現在前十名,這與以往的研究結果差異較大.因此,使用新型數據可以從更多維度對鄉(xiāng)村振興發(fā)展水平進行刻畫,有助于更加全面地了解鄉(xiāng)村發(fā)展情況.

  2.標簽模型展示

  各省份都可以使用標簽技術對事實標簽、模型標簽和預測標簽進行展示.本文以北京市和四川省為例,使用詞云圖展示事實標簽.從北京市詞云圖可以看出,“全國主食加工示范企業(yè)”標簽最為顯著,這與北京市市場經濟發(fā)達,適合企業(yè)發(fā)展的大環(huán)境相關,此外,“全國文明村鎮(zhèn)”、“全國環(huán)境優(yōu)美鄉(xiāng)鎮(zhèn)”、“數字農業(yè)建設項目試點”等多個標簽也較為突出,說明北京市在鄉(xiāng)村振興發(fā)展的多個方面具有獨特優(yōu)勢.四川省的“全國農村創(chuàng)業(yè)創(chuàng)新園區(qū)(基地)”和“淘寶村”標簽比較突出,說明四川省作為西部省份,其農業(yè)農村發(fā)展出現了新的動向,如推動農業(yè)技術創(chuàng)新、發(fā)展農村電子商務等,這些變化有助于縮小東西部鄉(xiāng)村發(fā)展差距.關于模型標簽和預測標簽,理想狀態(tài)是使用算法并編寫程序,將計算過程和結果輸出等步驟標準化、流程化,本文在此不做展示.

  五、進一步探討

  統計數據和大數據的結合使用是政府統計工作的未來趨勢,本文使用稱號數據作為切入點進行研究.隨著各級政府數據資源共享和開放工作進程的推進,大量鄉(xiāng)村數據資源被集合起來,在此基礎上,政府部門可以對統計數據和大數據進行拼接,基于多維數據進行數據分析.使用大數據要注意四點事項:

  一是警惕“數據陷阱”,防止出現由于過度挖掘導致的過度擬合現象.二是警惕有偏的大數據,即數據量夠大,但代表性不足的大數據,使用這類數據進行分析的結果往往遠離事實.在實際工作中,需要先對相關大數據源進行人工篩查,確保其代表性、相關性和可靠性.

  三是要重視對“小數據”研究.根據數據含義、數據類型等將“大數據”拆解為“小數據”,對各個“小數據”內部情況進行詳細研究,解決好每個“小數據”內部數據質量問題.四是利用統計思維處理大數據.大數據應用不是將大數據扔進一個“黑盒子”中等待結果輸出,而是需要結合統計方法的人工全程參與.大數據方法與傳統統計方法并不沖突.未來,隨著大數據技術的進一步發(fā)展,大數據分析和預測結果將成為政府部門作出決策的重要參考和依據,積極運用大數據技術和提高工作人員大數據素養(yǎng)將成為影響政府治理水平和服務能力的重要因素.

  [參考文獻]

  [1]賈晉,李雪峰,申云.鄉(xiāng)村振興戰(zhàn)略的指標體系構建與實證分析[J].財經科學,2018(11).

  [2]劉瑾,李望月,張仲,高維龍.我國鄉(xiāng)村振興發(fā)展水平測度與評估———基于省級數據的實證研究[J].農村經濟與科技,2020,31(05).

  [3]張挺,李閩榕,徐艷梅.鄉(xiāng)村振興評價指標體系構建與實證研究[J].管理世界,2018,34(08).

  [4]DevalkarS,SeshadriS,GhoshC,etal.DataScienceApplicationsinIndianAgriculture[J].ProductionandOperationsManagement,2018,27(9):1701G1708.

  [5]趙曉飛,付中麒.大數據背景下我國農產品流通渠道變革實現路徑與保障機制[J].中國流通經濟,2020,34(12).

  [6]李濤,馮仲科,孫素芬,程文生.基于Hadoop的氣象大數據分析GIS平臺設計與試驗[J].農業(yè)機械學報,2019,50(01).

  [7]余芳東.非傳統數據質量評估的國際經驗及借鑒[J].統計研究,2017,34(12).

  [8]李金昌.大數據應用的質量控制[J].統計研究,2020,37(02).

  作者:劉瑾1李振2,3鞏蓉蓉1劉英4

轉載請注明來自發(fā)表學術論文網:http:///jjlw/29475.html