河北大学学报(自然科学版) ›› 2007, Vol. 27 ›› Issue (1): 99-102.DOI: 10.3969/j.issn.1000-1565.2007.01.025

• • 上一篇    下一篇

网页超链抓取及自动分类技术实现

顾潇华,郭军城   

  1. 河北大学,管理学院,河北,保定,071002
  • 出版日期:2007-01-25 发布日期:2007-01-25
  • 基金资助:
    河北省软科学项目

A Scheme of Extraction Hyperlink from Web Page and Automatic Classification

GU Xiao-hua,GUO Jun-cheng   

  • Online:2007-01-25 Published:2007-01-25

摘要: 为网络环境下个性化信息服务系统实现自动建库功能,提出了一种网络蜘蛛程序的技术方案.该方案使用DELPHI集成开发环境提供的TIdhttp组件抓取网页文本,并利用正则表达式和Mshtml组件从中提取超链信息保存到指定数据库,并能对网页文本进行自动的统计分类.

关键词: 超链抓取, 正则表达式, DELPHI

中图分类号: