河北大学学报(自然科学版) ›› 2003, Vol. 23 ›› Issue (1): 106-112.DOI: 10.3969/j.issn.1000-1565.2003.01.029

• • 上一篇    

Web信息抽取技术研究进展

陈少飞,郝亚南,李天柱,徐林昊,杨文柱   

  1. 河北大学数学与计算机学院,河北,保定,071002
  • 出版日期:2003-02-25 发布日期:2003-02-25

Evolution of Information Extraction Techniques on the Web

  • Online:2003-02-25 Published:2003-02-25

摘要: Web信息抽取技术是当今的一个研究热点.目前出现了基于不同原理的多种信息抽取技术,它们具有不同的性能.本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了分析和比较,在此基础上提出了待研究的问题.

关键词: HTML, XML, 语义, 规则, 信息抽取

中图分类号: