Updated: Aug 8, 2003

研究课题 :

基于web Service的Web信息集成技术研究

 

引言 | 研究目标 | 系统结构 | 研究内容 | 发表论文 | 系统演示

 


引言:

  • 信息系统集成技术已经历了二十多年的发展,研究者已提出了很多信息集成的体系结构和实现方案,然而这些方法研究的主要集成对象是传统的异构数据库系统。随着Internet 的飞速发展,网络迅速成为一种重要的信息传播和交换的手段,尤其是Web上,有着及其丰富的数据来源。如何获取Web上的有用数据并加以综合利用,即构建Web信息集成系统,成为一个引起广泛关注的研究领域。

      [BACK]

研究目标:

  • 基于Web Services构建Web数据集成系统是目前较为理想的方法。WDIWS系统的初步目标是实现一个架构于Web Service技术之上的Web数据集成系统。在这个系统中,用户需要提供数据源信息以用于确定数据源和查找或者生成所需要的wrapper,集成计划,信息发送计划。系统通过符合用户需求的wrapper或者service得到包含用户目标数据的一系列XML文档。然后集成引擎通过查询这些XML文档得到最终所需要的结果。最后,这些结果按照用户定制的发送计划发送到用户的终端。

      [BACK]



系统结构:


研究内容:

    1. Wrapper生成技术(Wrapper Generation for Web Data Extraction)

    由于Web上的数据绝大多数是通过HTML语言来展现的,而HTML语言的特点是任何组织或个人都可以很随易地在Web上发布内容多样、形式各异的信息,结果使得Web上的数据处于杂乱无序的状态,数据集成性非常差,给Web应用的建立造成了极大的困难。Wrapper的任务就是负责将HTML格式的数据抽取并转化为结构化的数据。Wrapper是Web数据集成系统的重要组成部分之一。

    我们提出了模式导航的wrapper生成方法SG-WRAP[ICDE2002,JCST]。该方法的设计和实现是基于下列观察:首先,用户的交互可能是对特定数据源快速有效生成wrapper的最好方式,因为HTML页面各种各样,而且HTML标签所能表达的语义信息很少。但是,要尽可能减少与用户的交互。目前的多数方法在这方面还有可以改进的余地。其次,wrapper生成的最终目的是将源数据转换成某些易于处理的结构,而并非去理解源数据的结构。当用户从Web上收集数据时,他很清楚自身的需要,因此,不需要对整个HTML文档进行wrapper的生成。
    SG-WRAP中wrapper生成的步骤是:首先,用户使用DTD或XML Schema定义一个HTML文档中所要抽取数据的模式;接着,用户在系统给出的交互界面中,通过鼠标将HTML页面中的例子数据与模式中的元素关联起来;最后,系统根据用户提供例子映射关系归纳生成抽取规则并生成wrapper。

    2.Wrapper维护(Wrapper Maintenance)

    上述各种wrapper建立方法存在一个共同的问题,那就是当Web数据源的页面格式发生变化时,wrapper就会失效。由于wrapper与页面格式相关,所以当Web站点页面格式发生变化时,生成的wrapper就会失效,也就是说,无法从数据源中获得数据或得到错误的数据。实际中,Web页面的变化是经常出现的。这就提出了一个新问题─wrapper维护。即wrapper失效时,如何修复失效的wrapper使之继续正确抽取数据。

    我们提出的方法SG-WRAM[ICDE2003]能够处理更多复杂的变化。Wrapper的维护主要涉及两个问题:(1)变化数据项的识别和(2)抽取实例的获取。SG-WRAM提出了一种基于模式的wrapper维护方法来解决上述问题。我们认为变化后的页面仍然保留一些原有数据项的特征,如元数据、数据类型、数据模型和其他特征(如是否含有超链接)。这些特征可以从用户定义的模式和原有的抽取规则中获得,因而可以辅助系统自动地进行wrapper维护。

    3.信息集成引擎(Integration Engine)

    系统使用XQuery来表示集成计划(用户的要求都通过对XML文档的查询表达出来)。因此Integration Engine部分其实就是一个Xquery的查询引擎。其数据源是由wrapper或者网站提供的service得到的包含用户目标数据的XML文档。 实现方式就是通过调用一个XML数据库(比如中国人民大学开发的OrientX)来实现。

4.基于内容的移动设备信息发布(Information Extraction for Mobile Devices)

 

  [BACK]

发表论文

 


      [BACK]

系统演示

 


  [BACK]

[Home] [Research] [Projects] [Activities] [Publications][Courses][Seminar][Lab] [Links]

School of Information
Renmin University of China , Beijing 100872, China
Phone:86-10-62519453 , Fax:86-10-62519453

[comments to xfmeng@ruc.edu.cn]