摘要: 基于统计语言模型,对<续资治通鉴长编>进行了统计分析.根据互信息特征抽取候选字串,通过人机交互确定其是否构成词,然后动态修正相关字串的互信息值,逐步建立宋史语料库词表.实验中据互信息阈值抽取候选字串6 500个,根据汉语大词典确定是词的有3 694个,占56.8%.结果表明互信息法是建立古汉语语料库词表的有效辅助手段.
中图分类号:
李新福,赵杰,梁巍. 基于互信息的宋史语料库词表的提取[J]. 河北大学学报(自然科学版), 2006, 26(5): 557-560.
LI Xin-fu,ZHAO Jie,LIANG Wei. Word Extraction Based on Mutual Information for Ancient Chinese Language Database[J]. Journal of Hebei University (Natural Science Edition), 2006, 26(5): 557-560.