河北大学学报(自然科学版) ›› 2006, Vol. 26 ›› Issue (5): 557-560.DOI: 10.3969/j.issn.1000-1565.2006.05.024

• • 上一篇    

基于互信息的宋史语料库词表的提取

李新福1,赵杰2,梁巍3   

  1. 1.河北大学,数学与计算机学院,河北,保定,071002; 2.河北大学,电子信息工程学院,河北,保定,071002; 3.河北大学管理学院,河北,保定,071002
  • 出版日期:2006-09-25 发布日期:2006-09-25
  • 基金资助:
    河北省自然科学基金,河北省教育厅科研项目

Word Extraction Based on Mutual Information for Ancient Chinese Language Database

LI Xin-fu1,ZHAO Jie2,LIANG Wei3   

  • Online:2006-09-25 Published:2006-09-25

摘要: 基于统计语言模型,对<续资治通鉴长编>进行了统计分析.根据互信息特征抽取候选字串,通过人机交互确定其是否构成词,然后动态修正相关字串的互信息值,逐步建立宋史语料库词表.实验中据互信息阈值抽取候选字串6 500个,根据汉语大词典确定是词的有3 694个,占56.8%.结果表明互信息法是建立古汉语语料库词表的有效辅助手段.

关键词: 古籍数据库, 互信息, 抽词, 统计特征

中图分类号: