河北大学学报(自然科学版) ›› 2004, Vol. 24 ›› Issue (2): 212-218.DOI: 10.3969/j.issn.1000-1565.2004.02.024

• • 上一篇    下一篇

基于文档结构的信息抽取规则的描述语言比较研究

张志强,李天柱,张波,陈少飞,郝亚南   

  1. 河北大学,数学与计算机学院,河北,保定,071002
  • 出版日期:2004-03-25 发布日期:2004-03-25

Describe Languages' Comparing for Web Information Extraction Rules Based on Page Structure

  • Online:2004-03-25 Published:2004-03-25

摘要: 基于文档结构的信息抽取工具很多,XWrap,W4F,Lixto以及自主开发的PQagent是其中比较有代表性的几个.这几个工具采用了不同的规则描述形式,XWrap,W4F,Lixto使用的是自定义的规则描述形式,PQagent采用了通用的规范XQuery来描述规则.现将XWrap,W4F,Lixto使用的规则描述形式与PQagent采用的XQuery进行比较,说明了采用XQuery描述抽取规则的优越性.

关键词: 信息抽取, 抽取规则, 描述语言, XQuery

中图分类号: