我爱Aspx >> 综合资讯 >> 基于 Web 的数据挖掘信息源从现在起将存在多久?一个星期、一个月或甚至一年?
信息源的布局结构有多稳定?
我们寻求能够在动态环境下工作的健壮的解决方案的过程中,在抽取可用的最可靠和最稳定的信息源时,我们的工作将是最简单的。
一旦确定了信息源,我们在抽取过程中的第一步就是将数据 从 HTML 转换成 XML。我们将通过构造名为 XMLHelper(由 static helper 函数 组成)的 Java 类来完成这一任务以及其它与 XML 相关任务。这个类的全部信息源可以 通过以下到XMLHelper.java和XMLHelperException.java 的 链接找到。随着本文的继续展开,我们将构建这个类的方法。
我们使用 Tidy 库提供的函数在 XMLHelper.tidyHTML() 方法中执行 转换。这个方法接受 URL 作为一个参数并返回一个“XML 文档”作 为结果。当调用此方法或任何其它与 XML 相关的方法时,请仔细检查是否有任何异常清单一显示了执行这些操作的 代码。图 3 显示了代码结果,Microsoft 的 Internet Explorer XML 查看器使用 Weather 页面中的 XML
图 3. 转换成 XHTML 的 Yahoo! Weather Web 页面

查找数据的引用点
请注意,无论是在 Web 页面还是源 XHTML 视图中的绝大多数的信息都与我们完 全无关。我们接下来的一个任务是在 XML 树中找出一个特定区域,我们可从中抽取我们的数据而无需关心外来信息。对于更复杂的抽取,我们可能需要在单个页面上找出这些区域的若干实例。
完成这一任务的最简单的办法通常是,首先检查 Web 页面,然后使用 XML。只需要看一下页面,就可以知道我们正在查找的信息位于页面的中上部区域中。即使对 HTML 的熟悉程度非常有限,也很容易推断出我们正在查找的数据可能都包含在同一 个 <table> 元素下,并且这个表可能总是包含 象“Appar Temp”和“Dewpoint”这样的字,无论当天的数据可能是什么。
【我对这篇文章有话说?】
将ASP.NET页面内的数据导出到Exc..[08-01]
ORACLE8I转换数据到SQL SERVER[08-01]
用Dreamweaver进行数据库操作[08-01]
asp.net WebForm页面间传值方法[08-01]
用Dreamweaver 8 搞定“web标准”[08-01]
初谈ADO.NET中利用DataAdapter进..[08-01]
教你制做Web实时进度条[08-01]
用X-Space建造自己的Web2.0文件下..[08-01]
实现Web迅雷空闲时自动杀毒[08-01]
怎样在Web开发中完美控制IE标题栏[08-01]
N秒后自动转到另一个页面的代码[08-01]
一首歌:世界巨星合唱We Are The..[08-01]
带USB闪盘功能的瑞士军刀(图)[08-01]
内容管理初探[08-01]
从案例聊个人网站策划[08-01]
多人游戏源文件[08-01]
FlashintheCan 2004 finalists[08-01]
一些代码,资料收藏[08-01]
Google页面等级一般算法[08-01]
电影醉画仙的官方站[08-01]