本文摘要:[摘要]傳統(tǒng)統(tǒng)計數(shù)據(jù)在鄉(xiāng)村振興發(fā)展水平評價中存在數(shù)據(jù)滯后、更新緩慢等問題,大數(shù)據(jù)技術(shù)有助于解決這些問題.在構(gòu)建大數(shù)據(jù)優(yōu)化鄉(xiāng)村振興發(fā)展水平評價的理論邏輯基礎(chǔ)上,使用爬蟲技術(shù)從互聯(lián)網(wǎng)獲取33個鄉(xiāng)村稱號的47381個微觀數(shù)據(jù),并運用分詞技術(shù)對多源異構(gòu)數(shù)據(jù)進(jìn)行統(tǒng)一格式的
[摘要]傳統(tǒng)統(tǒng)計數(shù)據(jù)在鄉(xiāng)村振興發(fā)展水平評價中存在數(shù)據(jù)滯后、更新緩慢等問題,大數(shù)據(jù)技術(shù)有助于解決這些問題.在構(gòu)建大數(shù)據(jù)優(yōu)化鄉(xiāng)村振興發(fā)展水平評價的理論邏輯基礎(chǔ)上,使用爬蟲技術(shù)從互聯(lián)網(wǎng)獲取33個鄉(xiāng)村稱號的47381個微觀數(shù)據(jù),并運用分詞技術(shù)對多源異構(gòu)數(shù)據(jù)進(jìn)行統(tǒng)一格式的處理和存儲.在實證分析中將指標(biāo)體系拓展為標(biāo)簽體系,對2020年中國省級鄉(xiāng)村振興發(fā)展水平進(jìn)行評估.研究發(fā)現(xiàn),大數(shù)據(jù)技術(shù)通過拓展鄉(xiāng)村大數(shù)據(jù)源、使用新算法等,能夠提升鄉(xiāng)村振興發(fā)展水平評價的質(zhì)量和效率.
[關(guān)鍵詞]大數(shù)據(jù);鄉(xiāng)村振興;鄉(xiāng)村稱號;指標(biāo)體系;標(biāo)簽?zāi)P?/p>
一、引言
中共十九大提出鄉(xiāng)村振興戰(zhàn)略,明確“產(chǎn)業(yè)興旺、生態(tài)宜居、鄉(xiāng)風(fēng)文明、治理有效、生活富裕”二十字方針.在此背景下,如何對各地鄉(xiāng)村振興發(fā)展水平進(jìn)行測度和評價,發(fā)掘優(yōu)勢,補全短板,進(jìn)而因勢利導(dǎo)推動鄉(xiāng)村發(fā)展,是實現(xiàn)中國鄉(xiāng)村振興的關(guān)鍵.當(dāng)前,已有研究通過構(gòu)建相關(guān)指標(biāo)體系來測度中國鄉(xiāng)村振興發(fā)展水平,并使用統(tǒng)計年鑒[1]、農(nóng)業(yè)普查數(shù)據(jù)[2]、調(diào)查數(shù)據(jù)庫[1]以及調(diào)研數(shù)據(jù)[3]進(jìn)行實證分析.然而,統(tǒng)計數(shù)據(jù)雖然具有可靠性較高的優(yōu)點,但滯后期一般為2-3年,調(diào)研數(shù)據(jù)則較少進(jìn)行追蹤調(diào)查.由于難以獲取更多有效數(shù)據(jù),導(dǎo)致政府、學(xué)術(shù)機構(gòu)等難以全面、科學(xué)評價中國鄉(xiāng)村振興發(fā)展水平.
隨著國家大數(shù)據(jù)戰(zhàn)略推進(jìn),大數(shù)據(jù)技術(shù)更加成熟,正加速成為創(chuàng)造價值、發(fā)掘潛力的驅(qū)動力,其應(yīng)用逐漸滲透到經(jīng)濟社會的各個微觀單元.在農(nóng)業(yè)農(nóng)村領(lǐng)域,大數(shù)據(jù)技術(shù)在農(nóng)產(chǎn)品價格監(jiān)測[4]、農(nóng)產(chǎn)品流通[5]、農(nóng)業(yè)災(zāi)害預(yù)警[6]等領(lǐng)域得到廣泛應(yīng)用,但無論在理論上還是實踐上,尚未有文獻(xiàn)對大數(shù)據(jù)在鄉(xiāng)村發(fā)展評價方面的應(yīng)用進(jìn)行系統(tǒng)研究.事實上,大數(shù)據(jù)在鄉(xiāng)村振興發(fā)展水平評價中大有可為,這主要得益于鄉(xiāng)村大數(shù)據(jù)的沉淀.
在采集到鄉(xiāng)村大數(shù)據(jù)資源后,大數(shù)據(jù)技術(shù)還可以在分析、處理和展示數(shù)據(jù)方面發(fā)揮獨特優(yōu)勢,為全方位、多維度、立體化刻畫鄉(xiāng)村發(fā)展面貌,評價中國鄉(xiāng)村振興發(fā)展水平提供技術(shù)支撐,也為解決中國農(nóng)業(yè)農(nóng)村問題提供新的方案.本文以從互聯(lián)網(wǎng)爬取的鄉(xiāng)村稱號數(shù)據(jù)為例,對大數(shù)據(jù)在中國鄉(xiāng)村振興評價中的應(yīng)用進(jìn)行探索,為鄉(xiāng)村振興評價領(lǐng)域中使用新數(shù)據(jù)、新模型、新技術(shù)提供參考,同時也給出大數(shù)據(jù)在解決經(jīng)濟社會問題時的具體使用方法.相比已有研究,本文主要在四個方面進(jìn)行創(chuàng)新.第一,本文創(chuàng)新性地使用非傳統(tǒng)數(shù)據(jù)源,為評價鄉(xiāng)村振興發(fā)展水平提供更多維度.
第二,本文提出非傳統(tǒng)數(shù)據(jù)的采集和處理方法,為規(guī)范使用大數(shù)據(jù)源提供模板.第三,本文應(yīng)用非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的量化方法,解決了大數(shù)據(jù)中數(shù)據(jù)量化難的問題.第四,本文結(jié)合使用傳統(tǒng)分析方法和新型分析方法,挖掘出更多有效信息.總體來看,本文在數(shù)據(jù)源選擇、數(shù)據(jù)處理、數(shù)據(jù)計算和數(shù)據(jù)展示的全流程都體現(xiàn)了大數(shù)據(jù)思維,在實際操作中,使用爬蟲技術(shù)、分詞技術(shù)、大數(shù)據(jù)匹配技術(shù)和可視化技術(shù)等信息技術(shù)手段,具有一定創(chuàng)新性.
二、大數(shù)據(jù)優(yōu)化鄉(xiāng)村振興發(fā)展水平評價的理論邏輯
(一)大數(shù)據(jù)技術(shù)全生命周期視角下的鄉(xiāng)村振興發(fā)展水平評價優(yōu)化在農(nóng)業(yè)農(nóng)村數(shù)據(jù)量不斷增加、大數(shù)據(jù)技術(shù)迅速發(fā)展的背景下,本文重新審視如何評價鄉(xiāng)村振興發(fā)展水平這一問題.大數(shù)據(jù)具有“5V”特征,即海量(Volume)、高速(Velocity)、多樣(Variety)、真實(Veracity)和低價值密度(Value).大數(shù)據(jù)技術(shù)是指大數(shù)據(jù)的應(yīng)用技術(shù).從大數(shù)據(jù)的生命周期來看,具體分為大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲和大數(shù)據(jù)分析等四個階段.在各個階段,大數(shù)據(jù)技術(shù)均有助于鄉(xiāng)村振興發(fā)展水平評價優(yōu)化.
第一,在大數(shù)據(jù)采集階段,大數(shù)據(jù)技術(shù)可以對不同來源的鄉(xiāng)村數(shù)據(jù)進(jìn)行采集,包括行政記錄、商業(yè)記錄、互聯(lián)網(wǎng)數(shù)據(jù)、電子設(shè)備傳感數(shù)據(jù)等,這些數(shù)據(jù)可以統(tǒng)稱為非傳統(tǒng)數(shù)據(jù),不同于統(tǒng)計部門采集的傳統(tǒng)數(shù)據(jù)[7].使用非傳統(tǒng)數(shù)據(jù)進(jìn)行分析能夠增加數(shù)據(jù)量級和層次,拓展數(shù)據(jù)維度,豐富數(shù)據(jù)類型,減少數(shù)據(jù)滯后并提高數(shù)據(jù)頻率.
第二,在大數(shù)據(jù)預(yù)處理階段,首先需要對缺失數(shù)據(jù)、異常數(shù)據(jù)做處理,將其按照一定方法補全或者剔除.然后,要將多源異構(gòu)鄉(xiāng)村大數(shù)據(jù)整理成為統(tǒng)一格式數(shù)據(jù),并對一些文本型數(shù)據(jù)做量化處理,將其轉(zhuǎn)換成數(shù)值型數(shù)據(jù).第三,在大數(shù)據(jù)存儲階段,要將海量的鄉(xiāng)村數(shù)據(jù)存儲在數(shù)據(jù)庫中,且必須保障安全、快速和高效存儲.第四,在大數(shù)據(jù)分析階段,借助機器學(xué)習(xí)、深度學(xué)習(xí)等大數(shù)據(jù)分析方法對數(shù)據(jù)進(jìn)行處理,并使用可視化技術(shù)對數(shù)據(jù)進(jìn)行展示.
(二)大數(shù)據(jù)技術(shù)助力鄉(xiāng)村振興發(fā)展水平評價質(zhì)量和效率提升大數(shù)據(jù)技術(shù)通過以上四個階段,能夠優(yōu)化鄉(xiāng)村振興發(fā)展水平評價,主要體現(xiàn)在兩個方面.一是質(zhì)量提升.從本質(zhì)上看,鄉(xiāng)村振興發(fā)展水平評價是一個特征發(fā)掘過程,大數(shù)據(jù)技術(shù)優(yōu)勢恰在于此.從廣度上看,大數(shù)據(jù)技術(shù)通過對廣泛的數(shù)據(jù)來源進(jìn)行采集,能夠為刻畫鄉(xiāng)村發(fā)展面貌提供更多“原材料”.從深度上看,算法和技術(shù)可以為提取數(shù)據(jù)特征提供更多手段.二是效率優(yōu)化.大數(shù)據(jù)技術(shù)可以直接采集原始數(shù)據(jù),進(jìn)行快速運算和分析,然后輸出結(jié)果,能夠縮短各個環(huán)節(jié)所用時間,同時減少人工失誤導(dǎo)致的數(shù)據(jù)偏差,從而提高鄉(xiāng)村振興發(fā)展水平評價效率.
三、鄉(xiāng)村稱號數(shù)據(jù)概念說明和處理
(一)鄉(xiāng)村稱號數(shù)據(jù)概念介紹和數(shù)據(jù)質(zhì)量初步評估
在鄉(xiāng)村數(shù)據(jù)采集階段,要特別關(guān)注數(shù)據(jù)質(zhì)量問題.在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)質(zhì)量問題更加突出,原因來自諸多因素,比如大數(shù)據(jù)來源多元化、數(shù)據(jù)總體多變且覆蓋不全、數(shù)據(jù)表現(xiàn)非標(biāo)準(zhǔn)、數(shù)據(jù)內(nèi)涵非確定和數(shù)據(jù)真假難辨等[8].
因此,大數(shù)據(jù)質(zhì)量評估要考慮“十性”要求:可得性、相關(guān)性、可靠性、有效性、及時性、適用性、準(zhǔn)確性、連貫性、可比性和可解釋性[7].通過梳理文獻(xiàn)中涉及的鄉(xiāng)村大數(shù)據(jù)源,本文選定鄉(xiāng)村稱號數(shù)據(jù)作為切入點進(jìn)行研究.鄉(xiāng)村稱號數(shù)據(jù)是指由政府部門經(jīng)過評審并發(fā)布的鄉(xiāng)村稱號名單,如“農(nóng)業(yè)產(chǎn)業(yè)強鎮(zhèn)”、“中國美麗休閑鄉(xiāng)村”等.雖然稱號是由政府部門發(fā)布,但其具有來源分散、更新速度較快、半結(jié)構(gòu)或非結(jié)構(gòu)化、文本型數(shù)據(jù)等特征,因此相關(guān)數(shù)據(jù)屬于非傳統(tǒng)數(shù)據(jù).結(jié)合上述數(shù)據(jù)質(zhì)量評估標(biāo)準(zhǔn),本文對稱號數(shù)據(jù)質(zhì)量進(jìn)行初步評估,發(fā)現(xiàn)其滿足有關(guān)數(shù)據(jù)質(zhì)量的“十性”要求.
(二)鄉(xiāng)村稱號數(shù)據(jù)采集和篩選
發(fā)布鄉(xiāng)村稱號的政府部門包括農(nóng)業(yè)部、商務(wù)部、生態(tài)環(huán)境部等.本文分三步對稱號數(shù)據(jù)進(jìn)行采集和篩選.
第一步,初步搜索稱號.首先,在各政府部門網(wǎng)站搜索框中輸入“稱號”、“試點”、“示范”等關(guān)鍵詞,然后對2005-2020年相關(guān)目錄進(jìn)行查看,即本文不查詢2005年之后沒有更新過任何批次的稱號.經(jīng)過人工查找,定位包含稱號名單的條目,這些條目的形式一般為“標(biāo)題+正文+稱號名單”.經(jīng)統(tǒng)計,共獲得54個稱號.第二步,篩選有效稱號.54個稱號并非都適合評價鄉(xiāng)村振興發(fā)展水平,需要根據(jù)稱號政策含義進(jìn)一步篩選.
一是剔除具有扶貧性質(zhì)的稱號.以“農(nóng)民合作社質(zhì)量提升整縣推進(jìn)試點”為例,考慮到該稱號名單中包含很多仍處于貧困狀態(tài)的縣級行政單位,不能很好地代表鄉(xiāng)村振興發(fā)展水平,因此,對這類稱號進(jìn)行剔除處理.二是剔除具有明顯地域偏差的稱號.地域偏差是指由于不同地域適合發(fā)展的農(nóng)業(yè)產(chǎn)業(yè)不同,因此不宜將與某類產(chǎn)業(yè)相關(guān)的稱號納入鄉(xiāng)村振興評價體系.三是剔除對象數(shù)量過少的稱號.如“農(nóng)業(yè)重大技術(shù)協(xié)同推廣計劃試點”僅在2018年公布過8個試點,數(shù)量太少,不宜納入評價體系.在對所有稱號進(jìn)行篩選后,本文得到29個有效稱號.此外,在搜索引擎中直接搜索“農(nóng)村稱號”,還得到中國文明網(wǎng)、人民網(wǎng)、中國生態(tài)文化協(xié)會等官方媒體和協(xié)會評選出的3個稱號.由于“淘寶村”稱號能夠體現(xiàn)農(nóng)村電子商務(wù)產(chǎn)業(yè)的發(fā)展情況。
因此本文也將其納入到有效稱號列表中.最終,本文得到33個有效稱號共128個批次的名單.第三步,采集稱號數(shù)據(jù).在獲取33個稱號各批次名單的原始鏈接后,從網(wǎng)站爬取數(shù)據(jù),大部分為網(wǎng)頁數(shù)據(jù),少部分頁面提供文件下載鏈接,文件格式包括Word、Excel、PDF、CEB等多種類型,數(shù)據(jù)基本上是半結(jié)構(gòu)化數(shù)據(jù).本文使用爬蟲技術(shù)手段獲取全部名單數(shù)據(jù).
(三)鄉(xiāng)村稱號數(shù)據(jù)預(yù)處理
在大數(shù)據(jù)預(yù)處理階段,本文關(guān)注多源異構(gòu)數(shù)據(jù)的整合問題.33個稱號數(shù)據(jù)的格式和結(jié)構(gòu)不統(tǒng)一,甚至同一稱號不同批次的數(shù)據(jù)格式和結(jié)構(gòu)也不同.由于農(nóng)村稱號對象大部分是行政單位,因此,本文分三步對農(nóng)村稱號數(shù)據(jù)進(jìn)行預(yù)處理.第一步,提取稱號對象中的行政單位名稱.大部分稱號格式為“X省X市X縣X鄉(xiāng)鎮(zhèn)X村”,縣級稱號格式為“X省X市X縣”,鄉(xiāng)鎮(zhèn)級稱號格式類似.
本文對128個批次名單數(shù)據(jù)中所有行政單位名稱進(jìn)行提取.第二步,按照行政級別對原始數(shù)據(jù)進(jìn)行處理.對于原始數(shù)據(jù)中各級行政單位信息都完整的稱號,可以直接使用分詞技術(shù)將“X省X市X縣X鄉(xiāng)鎮(zhèn)X村”中各個行政單位分開,以“全國民主法治示范村”和“淘寶村”兩個稱號為例,將稱號對象按照省、市、縣、鄉(xiāng)、村五級行政區(qū)劃進(jìn)行處理和存儲.對于原始數(shù)據(jù)中各級行政單位信息不完全的稱號,首先需要從國家統(tǒng)計局網(wǎng)站的統(tǒng)計用區(qū)劃和城鄉(xiāng)劃分代碼頁面爬取全國所有地區(qū)的行政區(qū)劃層級和代碼,然后將稱號中所含的行政區(qū)劃信息與統(tǒng)計局行政區(qū)劃信息進(jìn)行大數(shù)據(jù)匹配,補全缺失信息。按照五級行政區(qū)劃存儲.
對于稱號對象為非行政區(qū)劃的稱號,如“全國主食加工示范企業(yè)”,本文將企業(yè)名單與國家企業(yè)信用信息公示系統(tǒng)進(jìn)行匹配,獲得企業(yè)的注冊地址,并按以上步驟重復(fù)處理過程.最終獲取128個批次名單的47381個對象.第三步,根據(jù)本文需要對數(shù)據(jù)進(jìn)行量化處理.經(jīng)過前兩步,本文已經(jīng)將多種格式、多種類型的數(shù)據(jù)整理成為統(tǒng)一格式數(shù)據(jù),但這類文本型數(shù)據(jù)無法與指標(biāo)體系結(jié)合,同時,不同稱號的對象有差異,稱號對象既包含行政區(qū)劃,又包含企業(yè)、園區(qū)等,相互之間不可比,因此需要進(jìn)行量化處理.
本文以省級鄉(xiāng)村振興發(fā)展水平評價為例,首先分別對各個稱號在省級層面進(jìn)行數(shù)量統(tǒng)計.考慮到不同省份的村、鄉(xiāng)鎮(zhèn)、區(qū)縣數(shù)量差異較大,因此不能直接使用絕對數(shù)量,需要將其轉(zhuǎn)換成比例數(shù)據(jù),轉(zhuǎn)換過程需要考慮稱號對象的行政區(qū)劃層級.當(dāng)稱號對象行政區(qū)劃層級十分清晰,為縣級或村級時,使用各省份縣級或村級行政單位的數(shù)量作為除數(shù),對絕對數(shù)量結(jié)果進(jìn)行處理;當(dāng)稱號對象包含不同的行政區(qū)劃時,如“全國一村一品示范村鎮(zhèn)”稱號對象同時包含村和鎮(zhèn),此時需要選用較高層級的行政區(qū)劃數(shù)量,即各省份鎮(zhèn)的數(shù)量作為除數(shù);對于基地、企業(yè)等只能細(xì)分到縣級的稱號,使用縣級行政單位數(shù)量作為除數(shù);除以上三種情況外,如果對象為園區(qū)、優(yōu)勢區(qū)、企業(yè)等稱號,使用村級行政單位數(shù)量作為除數(shù).
四、基于稱號數(shù)據(jù)的鄉(xiāng)村振興發(fā)展水平評價
(一)模型構(gòu)建目前對鄉(xiāng)村振興進(jìn)行評價的主要方法是構(gòu)建指標(biāo)體系.指標(biāo)體系是最為經(jīng)典的一種評價方法,本文也使用指標(biāo)體系來對鄉(xiāng)村振興發(fā)展水平進(jìn)行評價.由于標(biāo)簽?zāi)P途哂锌蚣茉O(shè)定更為自由、標(biāo)簽數(shù)據(jù)類型更加多樣等優(yōu)勢,本文考慮使用信息領(lǐng)域“數(shù)據(jù)畫像”中的標(biāo)簽技術(shù),將指標(biāo)體系拓展為標(biāo)簽體系,對鄉(xiāng)村振興發(fā)展情況進(jìn)行可視化展示.
1.指標(biāo)體系構(gòu)建
本文選取2020年為評價年度,利用33個稱號來構(gòu)建指標(biāo)體系.根據(jù)鄉(xiāng)村振興戰(zhàn)略“二十字方針”要求,將一級指標(biāo)確定為產(chǎn)業(yè)興旺、生態(tài)宜居、鄉(xiāng)風(fēng)文明、治理有效和共同富裕,然后將33個稱號作為底層指標(biāo),將稱號按其含義分配到所屬的一級指標(biāo)中.
2.標(biāo)簽?zāi)P蜆?gòu)建標(biāo)簽體系是一種靈活、多維和適合大數(shù)據(jù)系統(tǒng)的模型體系.在信息技術(shù)領(lǐng)域,標(biāo)簽技術(shù)通常被用在“用戶畫像”領(lǐng)域,即通過為事物打上不同的標(biāo)簽來描述和刻畫用戶特征.本文創(chuàng)新性地將畫像技術(shù)的核心———標(biāo)簽技術(shù)應(yīng)用到鄉(xiāng)村振興的評價領(lǐng)域,為評價鄉(xiāng)村振興發(fā)展水平提供了更多技術(shù)工具和展示方法.
本文將與鄉(xiāng)村稱號相關(guān)的標(biāo)簽分為三類.
第一類,事實標(biāo)簽.標(biāo)簽名稱與稱號名稱相同,標(biāo)簽值是經(jīng)過標(biāo)準(zhǔn)化處理的原始數(shù)據(jù).事實標(biāo)簽可以對底層指標(biāo)數(shù)據(jù)進(jìn)行展示.第二類,模型標(biāo)簽.模型標(biāo)簽是指經(jīng)過模型計算得到具體標(biāo)簽值的標(biāo)簽.本文模型是指標(biāo)體系,經(jīng)過指標(biāo)體系處理,可以計算各省份的總指數(shù)值、5個一級指標(biāo)值和33個二級指標(biāo)值,然后分別對各省份總指數(shù)值、一級指標(biāo)值和二級指標(biāo)值進(jìn)行排名,最后給各省份打上標(biāo)簽.
例如,假設(shè)山西省“國家農(nóng)業(yè)科技園”二級指標(biāo)值在各省份中排名第8,可以打上“國家農(nóng)業(yè)科技園排名第八”的標(biāo)簽.第三類,預(yù)測標(biāo)簽.預(yù)測標(biāo)簽是指基于多年數(shù)據(jù)進(jìn)行預(yù)測的標(biāo)簽.可以將獲取的鄉(xiāng)村稱號微觀數(shù)據(jù)按照年度進(jìn)行累計計算,得到連續(xù)多年數(shù)據(jù),在此基礎(chǔ)上進(jìn)行預(yù)測標(biāo)簽值的計算.例如,假設(shè)2019年山東省“鄉(xiāng)風(fēng)文明”一級指標(biāo)值排名第6,2020年排名第4,可以打上“山東省鄉(xiāng)風(fēng)文明2020年上升2位,有上升趨勢”的標(biāo)簽.
(二)實證分析
1.指標(biāo)體系結(jié)果分析
熵權(quán)法是一種客觀賦權(quán)方法,能夠避免人為因素的干擾.因此,本文選用熵權(quán)法計算指標(biāo)權(quán)重.同時,本文使用機器學(xué)習(xí)中的聚類分析方法,將31個省份(不包括港澳臺)聚為3類,縱坐標(biāo)為鄉(xiāng)村振興總指數(shù)值.天津、上海和北京三地名列前茅,屬于第一梯隊,吉林、寧夏等11個省份屬于第二梯隊,四川、河北等17個省份屬于第三梯隊.可以看出,鄉(xiāng)村振興指數(shù)與東中西部地理位置的關(guān)聯(lián)性較弱.雖然東部沿海省份總體發(fā)展水平明顯高于大部分中部省份和西部省份,但寧夏、貴州、重慶等西部省份的總指數(shù)值較高,出現(xiàn)在前十名,這與以往的研究結(jié)果差異較大.因此,使用新型數(shù)據(jù)可以從更多維度對鄉(xiāng)村振興發(fā)展水平進(jìn)行刻畫,有助于更加全面地了解鄉(xiāng)村發(fā)展情況.
2.標(biāo)簽?zāi)P驼故?/p>
各省份都可以使用標(biāo)簽技術(shù)對事實標(biāo)簽、模型標(biāo)簽和預(yù)測標(biāo)簽進(jìn)行展示.本文以北京市和四川省為例,使用詞云圖展示事實標(biāo)簽.從北京市詞云圖可以看出,“全國主食加工示范企業(yè)”標(biāo)簽最為顯著,這與北京市市場經(jīng)濟發(fā)達(dá),適合企業(yè)發(fā)展的大環(huán)境相關(guān),此外,“全國文明村鎮(zhèn)”、“全國環(huán)境優(yōu)美鄉(xiāng)鎮(zhèn)”、“數(shù)字農(nóng)業(yè)建設(shè)項目試點”等多個標(biāo)簽也較為突出,說明北京市在鄉(xiāng)村振興發(fā)展的多個方面具有獨特優(yōu)勢.四川省的“全國農(nóng)村創(chuàng)業(yè)創(chuàng)新園區(qū)(基地)”和“淘寶村”標(biāo)簽比較突出,說明四川省作為西部省份,其農(nóng)業(yè)農(nóng)村發(fā)展出現(xiàn)了新的動向,如推動農(nóng)業(yè)技術(shù)創(chuàng)新、發(fā)展農(nóng)村電子商務(wù)等,這些變化有助于縮小東西部鄉(xiāng)村發(fā)展差距.關(guān)于模型標(biāo)簽和預(yù)測標(biāo)簽,理想狀態(tài)是使用算法并編寫程序,將計算過程和結(jié)果輸出等步驟標(biāo)準(zhǔn)化、流程化,本文在此不做展示.
五、進(jìn)一步探討
統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)的結(jié)合使用是政府統(tǒng)計工作的未來趨勢,本文使用稱號數(shù)據(jù)作為切入點進(jìn)行研究.隨著各級政府?dāng)?shù)據(jù)資源共享和開放工作進(jìn)程的推進(jìn),大量鄉(xiāng)村數(shù)據(jù)資源被集合起來,在此基礎(chǔ)上,政府部門可以對統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)進(jìn)行拼接,基于多維數(shù)據(jù)進(jìn)行數(shù)據(jù)分析.使用大數(shù)據(jù)要注意四點事項:
一是警惕“數(shù)據(jù)陷阱”,防止出現(xiàn)由于過度挖掘?qū)е碌倪^度擬合現(xiàn)象.二是警惕有偏的大數(shù)據(jù),即數(shù)據(jù)量夠大,但代表性不足的大數(shù)據(jù),使用這類數(shù)據(jù)進(jìn)行分析的結(jié)果往往遠(yuǎn)離事實.在實際工作中,需要先對相關(guān)大數(shù)據(jù)源進(jìn)行人工篩查,確保其代表性、相關(guān)性和可靠性.
三是要重視對“小數(shù)據(jù)”研究.根據(jù)數(shù)據(jù)含義、數(shù)據(jù)類型等將“大數(shù)據(jù)”拆解為“小數(shù)據(jù)”,對各個“小數(shù)據(jù)”內(nèi)部情況進(jìn)行詳細(xì)研究,解決好每個“小數(shù)據(jù)”內(nèi)部數(shù)據(jù)質(zhì)量問題.四是利用統(tǒng)計思維處理大數(shù)據(jù).大數(shù)據(jù)應(yīng)用不是將大數(shù)據(jù)扔進(jìn)一個“黑盒子”中等待結(jié)果輸出,而是需要結(jié)合統(tǒng)計方法的人工全程參與.大數(shù)據(jù)方法與傳統(tǒng)統(tǒng)計方法并不沖突.未來,隨著大數(shù)據(jù)技術(shù)的進(jìn)一步發(fā)展,大數(shù)據(jù)分析和預(yù)測結(jié)果將成為政府部門作出決策的重要參考和依據(jù),積極運用大數(shù)據(jù)技術(shù)和提高工作人員大數(shù)據(jù)素養(yǎng)將成為影響政府治理水平和服務(wù)能力的重要因素.
[參考文獻(xiàn)]
[1]賈晉,李雪峰,申云.鄉(xiāng)村振興戰(zhàn)略的指標(biāo)體系構(gòu)建與實證分析[J].財經(jīng)科學(xué),2018(11).
[2]劉瑾,李望月,張仲,高維龍.我國鄉(xiāng)村振興發(fā)展水平測度與評估———基于省級數(shù)據(jù)的實證研究[J].農(nóng)村經(jīng)濟與科技,2020,31(05).
[3]張挺,李閩榕,徐艷梅.鄉(xiāng)村振興評價指標(biāo)體系構(gòu)建與實證研究[J].管理世界,2018,34(08).
[4]DevalkarS,SeshadriS,GhoshC,etal.DataScienceApplicationsinIndianAgriculture[J].ProductionandOperationsManagement,2018,27(9):1701G1708.
[5]趙曉飛,付中麒.大數(shù)據(jù)背景下我國農(nóng)產(chǎn)品流通渠道變革實現(xiàn)路徑與保障機制[J].中國流通經(jīng)濟,2020,34(12).
[6]李濤,馮仲科,孫素芬,程文生.基于Hadoop的氣象大數(shù)據(jù)分析GIS平臺設(shè)計與試驗[J].農(nóng)業(yè)機械學(xué)報,2019,50(01).
[7]余芳東.非傳統(tǒng)數(shù)據(jù)質(zhì)量評估的國際經(jīng)驗及借鑒[J].統(tǒng)計研究,2017,34(12).
[8]李金昌.大數(shù)據(jù)應(yīng)用的質(zhì)量控制[J].統(tǒng)計研究,2020,37(02).
作者:劉瑾1李振2,3鞏蓉蓉1劉英4
轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jjlw/29475.html