基于構詞法的網絡新詞自動識別初探A Study on Automatic Identification for Internet New Words According to Word-Building Rule
鄭家恒,李文花
摘要(Abstract):
網絡新詞語的自動識別是中文信息處理中的一個熱點研究課題。文章在對加工過的網上文本語料統計的基礎上 ,根據漢語構詞法建立規則庫 ,通過調用“互斥性字串”過濾規則和構詞規則來確定新詞語。設計并實現了網絡新詞語的自動識別實驗系統 ,經封閉測試 ,準確率為 91.2 % ,召回率為 95 %。
關鍵詞(KeyWords): 網絡詞語;漢語構詞法;新詞語自動識別
基金項目(Foundation): 國家 8 6 3項目 (2 0 0 1AA1140 31)
作者(Author): 鄭家恒,李文花
Email:
DOI: 10.13451/j.cnki.shanxi.univ(nat.sci.).2002.02.007
參考文獻(References):
- [1] 鄭家恒、李文花.新詞語自動識別方法研究[A].自然語言理解與機器翻譯[M].北京:清華大學出版社,2001.
- [2] 劉開瑛.中文文本自動分詞和標注[M].北京:商務印書館,2000.
- [3] NIE Jian- yun,MARIE-L OU ISE HANNAN,U nknown word detection and segmentation ofChinese using statistical andheuristic knowledge[J].Communications ofCOL IPS,1995,5(2)DEL :69-77.
- [4] 陸志葦.現代漢語構詞法(修訂本)[M].北京:中華書局,1975
文章評論(Comment):
|
||||||||||||||||||
|