我爱Aspx >> 综合资讯 >> 基于 Web 的数据挖掘自动抽取用 HTML、XML 和 Java 编写的信息
Jared Jackson (jjared@almaden.ibm.com)
Jussi Myllymaki (jussi@almaden.ibm.com)
IBM 研究员
2001 年 6 月
不可否认,万维网是到目前为止世界上最丰富和最密集的信息来源。但是,它的结构使它很难用系统的方法来利用信息。本文描述的方法和工具将使那些熟悉 Web 最常用技术的开发人员能快速而便捷地获取他们所需的以 Web 方式发 布的信息。
在信息时代快速成长起来的万维网导致各种各样的公用信息被大量分发。不幸的是,尽管作为信息主要载体的 HTML 提供了一种方便地向读者呈现信息的方法,但它可能并不是一个很好的可以从中自动抽取与数据驱动的服务或应用程序相关的信息的结构。
已经尝试了多种方法来解决这个问题。大多数方法都采用一些专用查询语言的形式把 HTML 页面的各个部分映射成代码,而这些代码将 Web 页面上的信息填入到数据库中。尽管这些方法可能提供一些好处,但大部分会因为以下两个原因变得不切实际:首先,它们需要开发人员花时间去学习一种无法在其它情况下使用的查询语言,其次,它们还不够健壮到能处理不可避免的对目标 Web 页面的简单更改。
在本文中,将讨论使用标准 Web 技术—— HTML、XML 和 Java ——开发的一种 基于 Web 的数据挖掘方法。这种方法即使不比其它专用方法更强大,也和其它方法不相上下,并且对于那些已经熟悉 Web 技术的人来说,只需要付出很少的努力就可以收到很好的效果。另外,本文还附送了许多开始数据抽取所需的代码。
HTML:优点与缺点
HTML 通常是一个很难用程序手段处理的媒体。Web 页面中的大多数内容描述与数据驱动的系统无关的格式编排,并且,由于要动态添加标题以及编写其它服务器端脚本,所以文档结构可能在每次连接到页面时都需要进行更改。又因为所有 Web 页面主要部分的格式编排不合理,所以使问题变得更为复杂,其结果是现在的 Web 浏览器在进行 HTML 语法分析 时非常不严谨。
【我对这篇文章有话说?】
将ASP.NET页面内的数据导出到Exc..[08-01]
ORACLE8I转换数据到SQL SERVER[08-01]
用Dreamweaver进行数据库操作[08-01]
asp.net WebForm页面间传值方法[08-01]
用Dreamweaver 8 搞定“web标准”[08-01]
初谈ADO.NET中利用DataAdapter进..[08-01]
教你制做Web实时进度条[08-01]
用X-Space建造自己的Web2.0文件下..[08-01]
实现Web迅雷空闲时自动杀毒[08-01]
怎样在Web开发中完美控制IE标题栏[08-01]
N秒后自动转到另一个页面的代码[08-01]
一首歌:世界巨星合唱We Are The..[08-01]
带USB闪盘功能的瑞士军刀(图)[08-01]
内容管理初探[08-01]
从案例聊个人网站策划[08-01]
多人游戏源文件[08-01]
FlashintheCan 2004 finalists[08-01]
一些代码,资料收藏[08-01]
Google页面等级一般算法[08-01]
电影醉画仙的官方站[08-01]