基于互信息的宋史语料库词表的提取

doi:10.3969/j.issn.1000-1565.2006.05.024

河北大学学报(自然科学版) ›› 2006, Vol. 26 ›› Issue (5): 557-560.DOI: 10.3969/j.issn.1000-1565.2006.05.024

• • 上一篇

基于互信息的宋史语料库词表的提取

李新福¹,赵杰²,梁巍³

1.河北大学,数学与计算机学院,河北,保定,071002； 2.河北大学,电子信息工程学院,河北,保定,071002； 3.河北大学管理学院,河北,保定,071002

出版日期:2006-09-25 发布日期:2006-09-25
基金资助:
河北省自然科学基金，河北省教育厅科研项目

Word Extraction Based on Mutual Information for Ancient Chinese Language Database

LI Xin-fu¹,ZHAO Jie²,LIANG Wei³

Online:2006-09-25 Published:2006-09-25

摘要/Abstract

摘要： 基于统计语言模型,对<续资治通鉴长编>进行了统计分析.根据互信息特征抽取候选字串,通过人机交互确定其是否构成词,然后动态修正相关字串的互信息值,逐步建立宋史语料库词表.实验中据互信息阈值抽取候选字串6 500个,根据汉语大词典确定是词的有3 694个,占56.8%.结果表明互信息法是建立古汉语语料库词表的有效辅助手段.

关键词: 古籍数据库, 互信息, 抽词, 统计特征

中图分类号:

TP391

李新福,赵杰,梁巍. 基于互信息的宋史语料库词表的提取[J]. 河北大学学报(自然科学版), 2006, 26(5): 557-560.

LI Xin-fu,ZHAO Jie,LIANG Wei. Word Extraction Based on Mutual Information for Ancient Chinese Language Database[J]. Journal of Hebei University (Natural Science Edition), 2006, 26(5): 557-560.

[1]	李纯果,张春琴,李海峰. 基于排序互信息的无监督特征选择[J]. 河北大学学报(自然科学版), 2020, 40(2): 200-204.
[2]	毛华, 赵书峰. 最小相关性最大依赖度属性约简的改进算法[J]. 河北大学学报(自然科学版), 2019, 39(3): 225-229.
[3]	王煜,张明,马力. 基于词条聚合和决策树的文本分类方法[J]. 河北大学学报(自然科学版), 2005, 25(3): 338-342.

基于互信息的宋史语料库词表的提取

Word Extraction Based on Mutual Information for Ancient Chinese Language Database

PDF (PC)

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 3

编辑推荐

Metrics

本文评价