• 您的位置我爱Aspx >> 综合资讯 >> 基于 Web 的数据挖掘
  • 基于 Web 的数据挖掘

  • 作者:yezi  来源:yezi blog  日期:2007-8-1 22:39:14  关键字:web,数据
  • WeatherExtractor.java 文件中给出了用于运行整个过程的代码。我把程序执行调度任务留给读者,因为执行这些任务的与系统相关的方法通常比简单的编程方法高级。图 5 显示 了每天运行一次 WeatherExtractor,共运行四天的结果

    结束语

    在本文中,我们已经描述并证明从目前存在的最大信息来源——万维网——抽取信息的强壮方法的基本原则。我们还讨论了能够使任何 Java 开发人员花最少的精力和具备最少的抽取经验就可以开始他们自己抽取工作所必需的编码工具。尽管本文中的示例仅集中于抽取有关华盛顿,西雅图天气的信息,但是这里出现的所有代码几乎都可以在任何数据抽取中重复使用。事实上,除 对 WeatherExtractor 类进行少许更改外,需要为其它数据挖掘项目进行更改的代码只有 XSL 变换代码(顺便提一下,它从 不需要编译)。

    这种方法与想象中的一样简单。通过明智地选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的锚,可以使您拥有一个维护成本低廉,可靠的数据抽取系统。并且,根据经验级别和要抽取的数据量,您可以在一小时之内就能安装与运行它。

    参考资料

    Tidy for Java由Sami Lempinen维护,并 可从 SourceForge下载

    XML 库、Xerces和 Xalan 可 以从 Apache Project 网站获取

    有关 XML 的更详细信息,developerWorks 提供了一个与该技术相关的专区

    有关 XSL 和 XPath 的教程有很 多,可以使用您喜爱的 Web 搜索引擎找到它们。

    Jussi Myllymaki 著有一篇有关 ANDES 系统中 Web 搜寻与数据抽取之间关系的论文,刊登在香港的 WWW10 上

    我对这篇文章有话说?
  • 广告位招租,广告代号:content_468_15
  • 上一篇:比较老了--hotmail邮箱升级到25m
    下一篇:N秒后自动转到另一个页面的代码