• 您的位置我爱Aspx >> 综合资讯 >> 基于 Web 的数据挖掘
  • 基于 Web 的数据挖掘

  • 作者:yezi  来源:yezi blog  日期:2007-8-1 22:39:14  关键字:web,数据
  • 尽管存在这些问题,但是 HTML 在数据挖掘方面仍然具有优势。您所感兴趣的数据通常可以用 HTML 树中深度嵌套的单 个 <table> 或 <div> 标记隔离开来。这使得抽取过程可以专门在文档的一小部分内执行。在缺少客户机端脚本的情况下,只有一种定义下拉菜单和其它数据列表的方法。HTML 的这些方面允许我们在一旦拥有可用格式的数据时能集中精力于数据抽取。

    背景技术

    这里描述的数据挖掘技术的关键是把现有的 Web 页面转换成 XML,或转换成 XHTML 可能更适当,并使用众多工具中的一小部分来处理 XML 结构的数据, 以检索出适当的数据。

    幸好有一个解决方案可以改正 HTML 页面设计的薄弱之处。Tidy(可以从一些编程语言中获取的库)是一个免费使用的产品,可用于改正 HTML 文档中的常见错误并生成格式编排良好的等价文档。还可以使用 Tidy 来 生成 XHTML(XML 的子集)格式的这些文档。(请参阅参考资料)。

    本文中的代码示例是用 Java 编写的,并且在编译和运行它们时,需要在您系统 的 classpath 中存在 Tidy jar 文 件。它们还需要通过 Apache 项目、Xerces 和 Xalan 使 XML 库可 用。这两个库都基于 IBM 提供的代码并分别控制 XML 语法分析 和 XSL 变换。这三种库中的每一个都可从 Web 上免费获取,要找到它们,可以追随上述链接或参考本文后面的参考资料。理解 Java 编程语言、XML 和 XSL 变换将对您理解以下示例有帮助。有关这些技术的参考资料,可以在本文后面找到。

    方法概述和示例简介

    我们用示例的方式来介绍数据抽取的方法。假设我们有兴趣跟踪几个月以来每天不同时间测得的华盛顿州西雅图的温度和湿度级别。假如,没有现成的软件用于报告此类信息以满足我们的需求,我们仍然拥有从众多公共网站收集此类信息的机会。

    我对这篇文章有话说?
  • 广告位招租,广告代号:content_468_15
  • 上一篇:比较老了--hotmail邮箱升级到25m
    下一篇:N秒后自动转到另一个页面的代码