我爱Aspx >> 综合资讯 >> 基于 Web 的数据挖掘尽管存在这些问题,但是 HTML 在数据挖掘方面仍然具有优势。您所感兴趣的数据通常可以用 HTML 树中深度嵌套的单 个 <table> 或 <div> 标记隔离开来。这使得抽取过程可以专门在文档的一小部分内执行。在缺少客户机端脚本的情况下,只有一种定义下拉菜单和其它数据列表的方法。HTML 的这些方面允许我们在一旦拥有可用格式的数据时能集中精力于数据抽取。
背景技术
这里描述的数据挖掘技术的关键是把现有的 Web 页面转换成 XML,或转换成 XHTML 可能更适当,并使用众多工具中的一小部分来处理 XML 结构的数据, 以检索出适当的数据。
幸好有一个解决方案可以改正 HTML 页面设计的薄弱之处。Tidy(可以从一些编程语言中获取的库)是一个免费使用的产品,可用于改正 HTML 文档中的常见错误并生成格式编排良好的等价文档。还可以使用 Tidy 来 生成 XHTML(XML 的子集)格式的这些文档。(请参阅参考资料)。
本文中的代码示例是用 Java 编写的,并且在编译和运行它们时,需要在您系统 的 classpath 中存在 Tidy jar 文 件。它们还需要通过 Apache 项目、Xerces 和 Xalan 使 XML 库可 用。这两个库都基于 IBM 提供的代码并分别控制 XML 语法分析 和 XSL 变换。这三种库中的每一个都可从 Web 上免费获取,要找到它们,可以追随上述链接或参考本文后面的参考资料。理解 Java 编程语言、XML 和 XSL 变换将对您理解以下示例有帮助。有关这些技术的参考资料,可以在本文后面找到。
方法概述和示例简介
我们用示例的方式来介绍数据抽取的方法。假设我们有兴趣跟踪几个月以来每天不同时间测得的华盛顿州西雅图的温度和湿度级别。假如,没有现成的软件用于报告此类信息以满足我们的需求,我们仍然拥有从众多公共网站收集此类信息的机会。
【我对这篇文章有话说?】
将ASP.NET页面内的数据导出到Exc..[08-01]
ORACLE8I转换数据到SQL SERVER[08-01]
用Dreamweaver进行数据库操作[08-01]
asp.net WebForm页面间传值方法[08-01]
用Dreamweaver 8 搞定“web标准”[08-01]
初谈ADO.NET中利用DataAdapter进..[08-01]
教你制做Web实时进度条[08-01]
用X-Space建造自己的Web2.0文件下..[08-01]
实现Web迅雷空闲时自动杀毒[08-01]
怎样在Web开发中完美控制IE标题栏[08-01]
N秒后自动转到另一个页面的代码[08-01]
一首歌:世界巨星合唱We Are The..[08-01]
带USB闪盘功能的瑞士军刀(图)[08-01]
内容管理初探[08-01]
从案例聊个人网站策划[08-01]
多人游戏源文件[08-01]
FlashintheCan 2004 finalists[08-01]
一些代码,资料收藏[08-01]
Google页面等级一般算法[08-01]
电影醉画仙的官方站[08-01]