河北大学学报(自然科学版) ›› 2001, Vol. 21 ›› Issue (4): 431-437.DOI: 10.3969/j.issn.1000-1565.2001.04.023

• • 上一篇    下一篇

基于样本实例的Web信息抽取

张绍华,徐林昊,杨文柱,薛文玲,李天柱   

  1. 河北大学,数学与计算机学院,河北,保定,071002
  • 出版日期:2001-10-25 发布日期:2001-10-25

Web Information Extraction Based on Samples

  • Online:2001-10-25 Published:2001-10-25

摘要: 主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.

关键词: HTML, 模式, 抽取器, 信息抽取, Web查询

中图分类号: