我爱Aspx >> 综合资讯 >> 基于 Web 的数据挖掘图 1 举例说明了抽取的全过程。Web 页面只有在创建了一个可合并到现有数据集的数据集后才会被检索和处理。
图 1. 概要说明抽取过程

只需要很少的几个步骤,我们就可以拥有一个收集我们信息的合适而可靠的系统。这里列出这些步骤是为了提供该过程的简要概述,图 1 中显示的是这一过程 的较高形式。
1。标识数据源并把它映射成 XHTML。
2。查找数据内的引用点。
3。将数据映射成 XML。
4。并结果并处理数据。
这些步骤中的每一步都将加以详细说明,并将提供执行它们所必需的代码。
获取信 XHTML 格式的源信息
为了抽取数据,当然需要知道可以在哪里找到它。在大多数情况下,源信息是显而易见的。如果要从 developerWorks 收集文章的标题和 URL,我们将使用 http://www.ibm.com/developerWorks/ 作为我们的目标。在天气这个例子中,我们有若干可供选择的信息源。我们将在示例中使用 Yahoo!Weather,但使用其它信息源也具有同等效果。我们将特别跟踪 URL:
http://weather.yahoo.com/forecast/Seattle_WA_US_f.html 上 的数据。图 2 显示了这个页面的屏幕快照。
图 2. 华盛顿州西雅图的 Yahoo! Weather Web 页面

在考虑信息源时,牢记以下这些要素非常重要:
信息源是否是在可靠的网络连接上生成可靠的数据?
【我对这篇文章有话说?】
将ASP.NET页面内的数据导出到Exc..[08-01]
ORACLE8I转换数据到SQL SERVER[08-01]
用Dreamweaver进行数据库操作[08-01]
asp.net WebForm页面间传值方法[08-01]
用Dreamweaver 8 搞定“web标准”[08-01]
初谈ADO.NET中利用DataAdapter进..[08-01]
教你制做Web实时进度条[08-01]
用X-Space建造自己的Web2.0文件下..[08-01]
实现Web迅雷空闲时自动杀毒[08-01]
怎样在Web开发中完美控制IE标题栏[08-01]
N秒后自动转到另一个页面的代码[08-01]
一首歌:世界巨星合唱We Are The..[08-01]
带USB闪盘功能的瑞士军刀(图)[08-01]
内容管理初探[08-01]
从案例聊个人网站策划[08-01]
多人游戏源文件[08-01]
FlashintheCan 2004 finalists[08-01]
一些代码,资料收藏[08-01]
Google页面等级一般算法[08-01]
电影醉画仙的官方站[08-01]