• 您的位置我爱Aspx >> 综合资讯 >> 基于 Web 的数据挖掘
  • 基于 Web 的数据挖掘

  • 作者:yezi  来源:yezi blog  日期:2007-8-1 22:39:14  关键字:web,数据
  • 图 1 举例说明了抽取的全过程。Web 页面只有在创建了一个可合并到现有数据集的数据集后才会被检索和处理。

    图 1. 概要说明抽取过程

    只需要很少的几个步骤,我们就可以拥有一个收集我们信息的合适而可靠的系统。这里列出这些步骤是为了提供该过程的简要概述,图 1 中显示的是这一过程 的较高形式。

    1。标识数据源并把它映射成 XHTML。

    2。查找数据内的引用点。

    3。将数据映射成 XML。

    4。并结果并处理数据。

    这些步骤中的每一步都将加以详细说明,并将提供执行它们所必需的代码。

    获取信 XHTML 格式的源信息

    为了抽取数据,当然需要知道可以在哪里找到它。在大多数情况下,源信息是显而易见的。如果要从 developerWorks 收集文章的标题和 URL,我们将使用 http://www.ibm.com/developerWorks/ 作为我们的目标。在天气这个例子中,我们有若干可供选择的信息源。我们将在示例中使用 Yahoo!Weather,但使用其它信息源也具有同等效果。我们将特别跟踪 URL:

    http://weather.yahoo.com/forecast/Seattle_WA_US_f.html 上 的数据。图 2 显示了这个页面的屏幕快照。

    图 2. 华盛顿州西雅图的 Yahoo! Weather Web 页面

    在考虑信息源时,牢记以下这些要素非常重要:

    信息源是否是在可靠的网络连接上生成可靠的数据?

    我对这篇文章有话说?
  • 广告位招租,广告代号:content_468_15
  • 上一篇:比较老了--hotmail邮箱升级到25m
    下一篇:N秒后自动转到另一个页面的代码