• 您的位置我爱Aspx >> 综合资讯 >> 基于 Web 的数据挖掘
  • 基于 Web 的数据挖掘

  • 作者:yezi  来源:yezi blog  日期:2007-8-1 22:39:14  关键字:web,数据
  • 信息源从现在起将存在多久?一个星期、一个月或甚至一年?

    信息源的布局结构有多稳定?

    我们寻求能够在动态环境下工作的健壮的解决方案的过程中,在抽取可用的最可靠和最稳定的信息源时,我们的工作将是最简单的。

    一旦确定了信息源,我们在抽取过程中的第一步就是将数据 从 HTML 转换成 XML。我们将通过构造名为 XMLHelper(由 static helper 函数 组成)的 Java 类来完成这一任务以及其它与 XML 相关任务。这个类的全部信息源可以 通过以下到XMLHelper.java和XMLHelperException.java 的 链接找到。随着本文的继续展开,我们将构建这个类的方法。

    我们使用 Tidy 库提供的函数在 XMLHelper.tidyHTML() 方法中执行 转换。这个方法接受 URL 作为一个参数并返回一个“XML 文档”作 为结果。当调用此方法或任何其它与 XML 相关的方法时,请仔细检查是否有任何异常清单一显示了执行这些操作的 代码。图 3 显示了代码结果,Microsoft 的 Internet Explorer XML 查看器使用 Weather 页面中的 XML

    图 3. 转换成 XHTML 的 Yahoo! Weather Web 页面

    查找数据的引用点

    请注意,无论是在 Web 页面还是源 XHTML 视图中的绝大多数的信息都与我们完 全无关。我们接下来的一个任务是在 XML 树中找出一个特定区域,我们可从中抽取我们的数据而无需关心外来信息。对于更复杂的抽取,我们可能需要在单个页面上找出这些区域的若干实例。

    完成这一任务的最简单的办法通常是,首先检查 Web 页面,然后使用 XML。只需要看一下页面,就可以知道我们正在查找的信息位于页面的中上部区域中。即使对 HTML 的熟悉程度非常有限,也很容易推断出我们正在查找的数据可能都包含在同一 个 <table> 元素下,并且这个表可能总是包含 象“Appar Temp”和“Dewpoint”这样的字,无论当天的数据可能是什么。

    我对这篇文章有话说?
  • 广告位招租,广告代号:content_468_15
  • 上一篇:比较老了--hotmail邮箱升级到25m
    下一篇:N秒后自动转到另一个页面的代码