• 您的位置我爱Aspx >> 综合资讯 >> 基于 Web 的数据挖掘
  • 基于 Web 的数据挖掘

  • 作者:yezi  来源:yezi blog  日期:2007-8-1 22:39:14  关键字:web,数据
  • 自动抽取用 HTML、XML 和 Java 编写的信息

    Jared Jackson (jjared@almaden.ibm.com)

    Jussi Myllymaki (jussi@almaden.ibm.com)

    IBM 研究员

    2001 年 6 月

    不可否认,万维网是到目前为止世界上最丰富和最密集的信息来源。但是,它的结构使它很难用系统的方法来利用信息。本文描述的方法和工具将使那些熟悉 Web 最常用技术的开发人员能快速而便捷地获取他们所需的以 Web 方式发 布的信息。

    在信息时代快速成长起来的万维网导致各种各样的公用信息被大量分发。不幸的是,尽管作为信息主要载体的 HTML 提供了一种方便地向读者呈现信息的方法,但它可能并不是一个很好的可以从中自动抽取与数据驱动的服务或应用程序相关的信息的结构。

    已经尝试了多种方法来解决这个问题。大多数方法都采用一些专用查询语言的形式把 HTML 页面的各个部分映射成代码,而这些代码将 Web 页面上的信息填入到数据库中。尽管这些方法可能提供一些好处,但大部分会因为以下两个原因变得不切实际:首先,它们需要开发人员花时间去学习一种无法在其它情况下使用的查询语言,其次,它们还不够健壮到能处理不可避免的对目标 Web 页面的简单更改。

    在本文中,将讨论使用标准 Web 技术—— HTML、XML 和 Java ——开发的一种 基于 Web 的数据挖掘方法。这种方法即使不比其它专用方法更强大,也和其它方法不相上下,并且对于那些已经熟悉 Web 技术的人来说,只需要付出很少的努力就可以收到很好的效果。另外,本文还附送了许多开始数据抽取所需的代码。

    HTML:优点与缺点

    HTML 通常是一个很难用程序手段处理的媒体。Web 页面中的大多数内容描述与数据驱动的系统无关的格式编排,并且,由于要动态添加标题以及编写其它服务器端脚本,所以文档结构可能在每次连接到页面时都需要进行更改。又因为所有 Web 页面主要部分的格式编排不合理,所以使问题变得更为复杂,其结果是现在的 Web 浏览器在进行 HTML 语法分析 时非常不严谨。

    我对这篇文章有话说?
  • 广告位招租,广告代号:content_468_15
  • 上一篇:比较老了--hotmail邮箱升级到25m
    下一篇:N秒后自动转到另一个页面的代码