本文摘要:摘要:HSK是一項國際漢語能力標準化考試。新HSK大綱中附表所列650個默認詞多依據(jù)專家知識人工列舉式的擴充。該文在《現(xiàn)代漢語詞典》《現(xiàn)代漢語語法信息詞典》等資源的基礎上,利用知識工程的方法,迭代使用減字默認、組合默認等詞匯等級類推規(guī)則,力爭實現(xiàn)類
摘要:HSK是一項國際漢語能力標準化考試。新HSK大綱中附表所列650個“默認詞”多依據(jù)專家知識人工列舉式的擴充。該文在《現(xiàn)代漢語詞典》《現(xiàn)代漢語語法信息詞典》等資源的基礎上,利用知識工程的方法,迭代使用減字默認、組合默認等詞匯等級類推規(guī)則,力爭實現(xiàn)類推過程中隱性知識的顯性化、分散知識的系統(tǒng)化,使得詞匯等級類推的每一個環(huán)節(jié)都有章可循、有據(jù)可依,完成了基于新HSK大綱詞匯等級的系統(tǒng)類推工作。接著,結(jié)合所構(gòu)建的漢語詞法知識庫對類推結(jié)果進行了篩選•最終得到了23762個詞語的類推等級。最后•通過對類推結(jié)果的統(tǒng)計分析,表明該文的研究工作可以更好地發(fā)揮新HSK詞匯大綱在漢語詞匯定級、文本難度分級中的指導作用,也可為其他領域教學詞匯大綱的制定提供一定的借鑒。
關鍵詞:新HSK大綱;等級類推;詞法知識庫;相對爛
漢語教學論文投稿刊物:《國際漢語教學研究》以推進漢語國際教育研究與事業(yè)發(fā)展為宗旨,以漢語教學研究為核心,依托海內(nèi)外漢語國際教育領域的專家、學者、教師、研究人員的學識與實踐,搭建學術(shù)研究成果的交流平臺,構(gòu)筑學科人才與優(yōu)秀教師的發(fā)展園地。
o引言
HSK是一項國際漢語能力標準化考試。目前,HSK已成為留學中國的通行證、申請來華留學獎學金的必備條件和學校教學評估的重要手段•并被越來越多國家的政府部門和跨國企業(yè)作為員工招聘、提薪和晉升的重要依據(jù)。為使?jié)h語水平考試(HSK)更好地服務于漢語學習者,國家漢辦組織中外漢語教學、語言學、心理學和教育測量學等領域的專家,在充分調(diào)查、了解海外漢語教學實際情況的基礎上.吸收原有HSK的優(yōu)點,借鑒近年來國際語言測試研究最新成果,推出新漢語水平考試(HSK)[I\新HSK詞匯大綱由于收詞規(guī)模的限制,對于許多類型的詞匯只是象征性的收詞.從而導致本應收入大綱的詞匯沒有收入進來。例如,大綱只收了“星期、星期一、星期日”,而沒有收錄“星期二”至“星期六”等詞語;收錄了“月、正月、八月”,而沒有收錄其他月份詞語;收錄了“春、夏、秋、冬”,而沒有收錄“春天、夏天、秋天、冬天”。
類似地,像“這個、很多、這么、人們、每天、這些、那兒、一天、那個、每個、上學、老人、大熊貓、打開、外國、男人、春節(jié)……”這些常用詞語都沒有收錄。但如果把這些詞都算作超綱詞,顯然是不合理的。這些詞匯對應的大綱等級信息缺失,將給教材編寫、水平測評等一系列應用問題帶來巨大的障礙。本文旨在探索詞匯等級的類推機制,力爭實現(xiàn)類推過程中隱性知識的顯性化及分散知識的系統(tǒng)化.使得詞匯等級類推的每一個環(huán)節(jié)都有章可循,有據(jù)可依,從而更好地發(fā)揮新HSK詞匯大綱在漢語詞匯定級、文本難度分級中的指導作用,夯實其在本領域的基礎資源地位。同時,也可為其他領域教學詞匯大綱的制定提供一定的借鑒。
1資源基礎
1.1詞匯大綱資源
1.1.1新HSK詞匯大綱
新HSK詞匯大綱采用2015年9月人民教育出版社岀版的《HSK考試大綱》最新版本皿。大綱收錄了國際漢語教學中常用的基礎詞匯,并對這些詞匯按照一至六級進行了等級劃分。另外,在每一級詞表之后舉例式地給出了若干個類推詞匯,共計650個。
1.1.2《通用大綱》《國際漢語教學通用課程大綱》⑵(以下簡稱《通用大綱》)中,漢字部分分為六級,共計2500個漢字;詞匯部分基本沿用《HSK考試大綱》。
1.1.3《音節(jié)大綱》詞匯《漢語國際教育用音節(jié)漢字詞匯等級劃分》⑷(以下簡稱《音節(jié)大綱》),是面向全球漢語國際教育的國家標準,是一種標準化、系統(tǒng)化、規(guī)范化的等級水平劃分!兑艄(jié)大綱》詞匯三個等級共收詞11092個。
1.2漢語詞典資源
1.2.1現(xiàn)代漢語詞典
《現(xiàn)代漢語詞典》(以下簡稱《現(xiàn)漢》)⑷是我國第一部規(guī)范性的語文詞典,以規(guī)范性、科學性和實用性為主要特點,在漢語語言教學理論研究界具有較強的權(quán)威性。作為一部全面收錄現(xiàn)代漢語中基本詞、常用詞等的綜合性詞典.在漢語普及、推廣普通話、漢語規(guī)范等方面發(fā)揮著重要作用可。
1.2.2現(xiàn)代漢語語法信息詞典
《現(xiàn)代漢語語法信息詞典》(以下簡稱《GKB》)是為計算機實現(xiàn)漢語句子的自動分析與生成而由北京大學研制的一部面向中文信息處理領域的電子詞典。其收詞從包括《現(xiàn)代漢語詞典》《現(xiàn)代漢語頻率詞典》《信息處理用現(xiàn)代漢語五千詞表》在內(nèi)的多部詞典中選出,經(jīng)過時間和實踐檢驗證明能夠有效服務于中文信息處理領域.適合作為中文信息處理用基本單位。
1.3詞法標注資源
1.3.1現(xiàn)代漢語構(gòu)詞結(jié)構(gòu)模式
對于漢語的構(gòu)詞,研究者們很早就注意到詞匯的構(gòu)詞結(jié)構(gòu)與句法結(jié)構(gòu)具有相似性。趙元任⑷認為在詞語的構(gòu)詞成分之間存在著類似于句子之間的關系。根據(jù)詞語內(nèi)語素與語素之間的關系,朱德熙®也有過類似的論述。苑春法等指出,復合詞的基本結(jié)構(gòu)基本上和詞組、短語、句子的結(jié)構(gòu)一樣,也存在著主謂、偏正、聯(lián)合、述賓、述補等結(jié)構(gòu);跇(gòu)詞結(jié)構(gòu)的這種思想,郭冬冬等⑴切設計了一套描述構(gòu)詞結(jié)構(gòu)的符號集.用來描述詞素之間的組合關系,在此基礎上構(gòu)建了包含672條詞匯構(gòu)詞結(jié)構(gòu)模式的現(xiàn)代漢語構(gòu)詞模式知識庫。
2基于規(guī)則的新HSK詞匯等級類推
索緒爾〔⑷把凡是不屬于語音性質(zhì)的詞的外形變化,都看作是類推引起的,而類推必須有一個模型及對此模型的有規(guī)則的模仿。類推形式就是以一個或幾個其他形式為模型,按照一定規(guī)則構(gòu)成的形式。在漢語領域,姜同絢指出,類推變化在漢語詞語中表現(xiàn)得非常充分,不僅表現(xiàn)在詞語的構(gòu)成、語音的演變上,還表現(xiàn)在詞義發(fā)展上。類推作用于構(gòu)詞,一方面跟語義有關,另一方面與人們總是善于由已知知識去推知和掌握未知知識的認知規(guī)律相一致。
類推機制在新詞語結(jié)構(gòu)生成中的作用主要可以從音節(jié)的增減、附加法構(gòu)詞能力、詞族現(xiàn)象和外來詞語的借用及類推影響等方面分析考慮。本研究將《現(xiàn)漢》收錄詞語刪除非Unicode編碼詞語后,共得詞形65831個;與GKB收錄詞形取并集,共得92091個,作為詞匯等級類推的候選集。另外,由于單音節(jié)詞匯等級的類推相對更不穩(wěn)定,故直接將《通用大綱》收錄而新HSK大綱沒有收錄的1579個單音節(jié)詞匯及其等級納入進來。
2.1基于減字類推規(guī)則的詞匯等級類推
所謂的減字類推規(guī)則,指的是一個多音節(jié)詞語通過減去部分音節(jié)的方法而得到新的詞語,并且新得到詞語的等級由原多音節(jié)詞語的等級確定。即:由一個詞語減字默認詞的等級與原詞的等級相同。例如,電子郵件3=>郵件3;日用品5=〉用品5;知足常樂6=>知足6;等等。如果對于同一個詞語的等級,可由多個不同的多音節(jié)詞語通過減字默認的方式得到,并且所得出的等級不同,則取最低的類推等級。例如:“服務員2=>服務2;服務區(qū)4=>服務4”,則“服務”的減字默認級別為“2”?偟膩碚f,減字默認類推規(guī)則可概括為,“類推等級同原詞匯等級”、“就低不就高”。類推算法流程如圖2所示。通過減字類推共得到207個雙音節(jié)詞匯及其等級。
2.2基于詞義合成方式知識庫的詞匯等級篩選
類推是否合理不僅與構(gòu)詞結(jié)構(gòu)方式有關,還與類推詞匯的意指方式有著密切的聯(lián)系。例如,天1,書1=>天書1;冷l,n2=>冷門2;白2,臉3=>白臉3;發(fā)3,毛4=>發(fā)毛4;白2,領5=>白領5;用I6,熬6=〉煎熬6o上述這些例子中類推得到的詞匯大多發(fā)生了轉(zhuǎn)義,無法很好地根據(jù)類推前詞匯的等級來類推這些詞匯的等級。在前面幾節(jié)中通過類推得到了25229個詞語及其等級。利用所構(gòu)建的詞義合成方式知識庫對該部分進行篩選過濾.過濾掉詞義合成方式為慣指部分以外的1467個詞語,最終剩余23762個詞語及其類推等級.將此詞匯集合稱為“HSK類推擴充集”。
3實驗結(jié)果數(shù)據(jù)分析
3.1八套國家漢辦主干教材詞匯覆蓋對比分析
本文采用國家漢辦8套主干教材課文文本作為實驗對象,分別以新HSK詞匯大綱和類推詞匯集對八套教材進行詞匯覆蓋情況的統(tǒng)計。8套教材為:《新實用漢語》《快樂漢語》《長城漢語》《跟我學漢語》《漢語教學直通車》《當代中文》《漢語樂園》《中文聽說讀寫》。從人工標注好的8套教材語料"⑷統(tǒng)計得到詞形6191個、詞次111929個,去除其中的人名、地名、機構(gòu)名、數(shù)字等非通用詞匯之后•剩余詞形5888個詞、詞次108532個。類推前后詞匯集對教材語料的覆蓋情況對比如表12所示。從計算所得到的相鄰級別之間相對爛來看,對于初、中難度級別的文本類推前后的區(qū)分度比較接近,說明HSK類推集的詞匯等級基本符合原大綱的難度定級標準。而對于較高難度級別的文本,原大綱由于收詞過少,直接用其作標準進行文本難度級別判斷,明顯存在區(qū)分度偏低的問題;而基于HSK類推擴充集統(tǒng)計高難度語料的詞匯等級分布,不同級別之間相對爛有明顯的提升,這說明類推工作對于原大綱的補足作用是明顯的。
4結(jié)語
本文利用知識工程的方法,迭代使用減字默認、組合默認等詞匯等級類推規(guī)則.力爭實現(xiàn)類推過程中隱性知識的顯性化、分散知識的系統(tǒng)化,使得詞匯等級類推的每一個環(huán)節(jié)都有章可循,有據(jù)可依,完成了基于新HSK大綱詞匯等級的系統(tǒng)類推工作,并結(jié)合所構(gòu)建的漢語詞法知識庫對類推結(jié)果進行了篩選。最后,通過對類推結(jié)果的統(tǒng)計分析.表明本文的研究工作可以更好地發(fā)揮新HSK詞匯大綱在漢語詞匯定級、文本難度分級中的指導作用.也可為其他領域教學詞匯大綱的制定提供一定的借鑒。
參考文獻
[1]孔子學院總部/國家漢辦.HSK考試大綱(一級〜六級)[M1北京:人民教育出版社,2015.
[2]孔子學院總部/國家漢辦.國際漢語教學通用課程大綱[M].北京:北京語言大學出版社,2014.
轉(zhuǎn)載請注明來自發(fā)表學術(shù)論文網(wǎng):http:///jylw/22033.html