我爱Aspx >> 综合资讯 >> 基于 Web 的数据挖掘WeatherExtractor.java 文件中给出了用于运行整个过程的代码。我把程序执行调度任务留给读者,因为执行这些任务的与系统相关的方法通常比简单的编程方法高级。图 5 显示 了每天运行一次 WeatherExtractor,共运行四天的结果

结束语
在本文中,我们已经描述并证明从目前存在的最大信息来源——万维网——抽取信息的强壮方法的基本原则。我们还讨论了能够使任何 Java 开发人员花最少的精力和具备最少的抽取经验就可以开始他们自己抽取工作所必需的编码工具。尽管本文中的示例仅集中于抽取有关华盛顿,西雅图天气的信息,但是这里出现的所有代码几乎都可以在任何数据抽取中重复使用。事实上,除 对 WeatherExtractor 类进行少许更改外,需要为其它数据挖掘项目进行更改的代码只有 XSL 变换代码(顺便提一下,它从 不需要编译)。
这种方法与想象中的一样简单。通过明智地选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的锚,可以使您拥有一个维护成本低廉,可靠的数据抽取系统。并且,根据经验级别和要抽取的数据量,您可以在一小时之内就能安装与运行它。
参考资料
Tidy for Java由Sami Lempinen维护,并 可从 SourceForge下载
XML 库、Xerces和 Xalan 可 以从 Apache Project 网站获取
有关 XML 的更详细信息,developerWorks 提供了一个与该技术相关的专区
有关 XSL 和 XPath 的教程有很 多,可以使用您喜爱的 Web 搜索引擎找到它们。
Jussi Myllymaki 著有一篇有关 ANDES 系统中 Web 搜寻与数据抽取之间关系的论文,刊登在香港的 WWW10 上
【我对这篇文章有话说?】
将ASP.NET页面内的数据导出到Exc..[08-01]
ORACLE8I转换数据到SQL SERVER[08-01]
用Dreamweaver进行数据库操作[08-01]
asp.net WebForm页面间传值方法[08-01]
用Dreamweaver 8 搞定“web标准”[08-01]
初谈ADO.NET中利用DataAdapter进..[08-01]
教你制做Web实时进度条[08-01]
用X-Space建造自己的Web2.0文件下..[08-01]
实现Web迅雷空闲时自动杀毒[08-01]
怎样在Web开发中完美控制IE标题栏[08-01]
N秒后自动转到另一个页面的代码[08-01]
一首歌:世界巨星合唱We Are The..[08-01]
带USB闪盘功能的瑞士军刀(图)[08-01]
内容管理初探[08-01]
从案例聊个人网站策划[08-01]
多人游戏源文件[08-01]
FlashintheCan 2004 finalists[08-01]
一些代码,资料收藏[08-01]
Google页面等级一般算法[08-01]
电影醉画仙的官方站[08-01]