基于样本实例的Web信息抽取

doi:10.3969/j.issn.1000-1565.2001.04.023

河北大学学报(自然科学版) ›› 2001, Vol. 21 ›› Issue (4): 431-437.DOI: 10.3969/j.issn.1000-1565.2001.04.023

基于样本实例的Web信息抽取

张绍华,徐林昊,杨文柱,薛文玲,李天柱

河北大学,数学与计算机学院,河北,保定,071002

出版日期:2001-10-25 发布日期:2001-10-25

Web Information Extraction Based on Samples

Online:2001-10-25 Published:2001-10-25

摘要/Abstract

摘要： 主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.

关键词: HTML, 模式, 抽取器, 信息抽取, Web查询

中图分类号:

TP391 TP393

张绍华,徐林昊,杨文柱,薛文玲,李天柱. 基于样本实例的Web信息抽取[J]. 河北大学学报(自然科学版), 2001, 21(4): 431-437.

[1]	车轩,刘德禄,乔晓强. 十八叔胺修饰硅胶色谱固定相制备及分离性能研究[J]. 河北大学学报(自然科学版), 2023, 43(1): 40-47.
[2]	申瑞彩,翟俊海,侯璎真. 多生成器生成对抗网络[J]. 河北大学学报(自然科学版), 2021, 41(6): 734-744.
[3]	王胜玉,梁鹏,段立广,乔晓强. 咪唑嵌合半胱氨酸修饰固定相制备及色谱应用[J]. 河北大学学报(自然科学版), 2020, 40(1): 18-26.
[4]	夏立娅,李小亭,李晓杨,张晓瑜,尹洁璇. 矿物元素结合簇类独立软模式法对冬枣产地判别模型的优化[J]. 河北大学学报(自然科学版), 2016, 36(4): 374-379.
[5]	魏育新,陈蕊丽. InAs/GaAs量子点激光器增益特性[J]. 河北大学学报(自然科学版), 2016, 36(3): 232-236.
[6]	张红医,王艳霞,景聪,陈辉. 中药毛细管电泳谱图的可视化比照[J]. 河北大学学报(自然科学版), 2010, 30(2): 152-157.
[7]	翟淑花,李文秀,高谦,李会云. 基于遗传规划的岩石流变模型辨识[J]. 河北大学学报(自然科学版), 2008, 28(6): 578-582.
[8]	田华,石圣羽,宗晓萍. 基于不变矩特征及BP神经网络的图像模式识别[J]. 河北大学学报(自然科学版), 2008, 28(2): 214-217.
[9]	杨敬伟,杨文柱,高悦. 基于 DOM 的 Web 信息抽取规则的构造与实现[J]. 河北大学学报(自然科学版), 2007, 27(2): 209-212.
[10]	杨敬伟,薛玉倩,刘振鹏. 基于C/S与B/S混合模式的软件体系结构[J]. 河北大学学报(自然科学版), 2006, 26(3): 315-318,323.
[11]	孙毅,程晓荣. PLC接入技术及其网络管理模式与功能设计[J]. 河北大学学报(自然科学版), 2004, 24(5): 546-549.
[12]	赵守伟. 数据挖掘在网络异常检测中的应用[J]. 河北大学学报(自然科学版), 2004, 24(4): 444-447.
[13]	张志强,李天柱,张波,陈少飞,郝亚南. 基于文档结构的信息抽取规则的描述语言比较研究[J]. 河北大学学报(自然科学版), 2004, 24(2): 212-218.
[14]	郝亚南,陈少飞,李天柱. 数据交换中的数据格式转换[J]. 河北大学学报(自然科学版), 2003, 23(2): 215-220.
[15]	陈少飞,郝亚南,李天柱,徐林昊,杨文柱. Web信息抽取技术研究进展[J]. 河北大学学报(自然科学版), 2003, 23(1): 106-112.

基于样本实例的Web信息抽取

Web Information Extraction Based on Samples

PDF (PC)

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价