用 web-harvest 挖掘需要的数据-非决定性因素-搜狐博客

来源：百度文库编辑：神马文学网时间：2024/04/19 05:28:42

首先,在官方网站下载web-harvest,目前最新版本是1.0，下载页面分三个下载包，分别是webharvest1-exe.zip，webharvest1-bin.zip，webharvest1-project.zip，他们没实质区别，第一个是包含了全部第三方包（一起打入了同一个jar文件直接可运行），第二个做为一个中间件出现，附带了所有独立的第三方jar包，第三个则是源码，当然要最大的灵活性自然选择下载源码了：》

下载下来后再eclipse建立一个空项目，把所有解压出来的文件夹仍进去，然后把src和config设为source folder（源码目录）然后看到default包下面有个Test.java的文件，下面我们来看看这个文件：

        ScraperConfiguration config = newScraperConfiguration("c:/temp/scrapertest/dddd.xml");
        Scraperscraper = new Scraper(config, "c:/temp/scrapertest/");
       scraper.setDebug(true);
        long startTime =System.currentTimeMillis();
        scraper.execute();
       System.out.println("time elapsed: " + (System.currentTimeMillis() -startTime));

除去log4j的注解外，剩下的就是这几行代码啦，我们看到运行挖掘任务只需要3行代码，创建config，用config和挖取到数据存储目录做参数创建Scraper，然后执行就OK。

好了，先试试，它能不能工作，在刚才解压出来的文件中，有一个examples文件夹下面有很多，配置文件可以先试试手，首先，看看图片挖取的例子google_images.xml，更改上面的两行代码

ScraperConfiguration config = newScraperConfiguration("E:/workspace/webharvest/examples/google_images.xml");

Scraper scraper = new Scraper(config, "E:/workspace/webharvest/examples/");

然后运行这个Test在console窗口会看到抓取过程，完成后再E:\workspace\webharvest\examples\google_images目录下就能看到刚才抓取到的所有图片了，抓取非常简单，到此为止，我们看看他的配置文件，google_images.xml到底有什么魔法。

在google_images.xml中,这个配置文件中首先引用了一个functions.xml,在google_images.xml同级目录下，我们先看看这个文件。这个文件中定义了一个function（函数）名字是download-multipage-list虽然不符合java函数定义规则，但是这里只是一个函数名，函数return了一个循环出来的结果集，empty标记表示其中的执行结果不包含在返回结果集内，那么主要返回的就是：



这段了，这段代码表示，用xpath方式(解析规则是expression表达式决定的)解析引用的content内容，做为一个行记录（这个行记录会被默认封装成一个List（不是普通的list而是：org.webharvest.runtime.variables.ListVariable）；

循环的主体主要实现读取数页（多少页由$maxloops变量决定）的数据.

现在看看empty内部的功能：

首先





是定义一个content变量，内容是访问${pageUrl}页面内容。

接着：

是用xpath表达式（${nextXPath}）取content变量内部的值（也就是刚才${pageUrl}页面解析）得到下一页的URL地址。

对pageUrl重新赋值，将下一页赋值给pageUrl下次循环读下一页数据解析。

好了这个函数简单的说就是用来分页取数据的。

回到google-images.xml文件我们继续看：

      platon

很简单，定义一个变量做搜索条件给url中，然后用html-to-xml标记把http标记访问url的页面html内容转换为xml，最后用xpath一个表达式得到页面真实的url（看来google确实比较麻烦，其他网站可以直接得到url的）。

                       //td[.='Next']/a/@href            //img[contains(@src,'images?q=tbn')]/@src             5
   这段的功能就是调用分页函数，把itemXPath参数中的xpath表达式内容，限定解析的页面内容封装成一个list啦

首先定义了4个参数，然后调用functions定义的download-multipage-list函数，最后将返回值赋给imgLinks（这就完成了图片url的抓取工作了）。

虽然已经完成了抓取过程，但是图片还没有保存在本地呢，这里我们就要循环调用file标签，来把url中的图片逐一保存在本地啦。
这里很简单，需要注意的就是loop循环，比较不同的是loop必须包含一个list和body，会把list逐一迭代出来，body代码中有句sys.fullUrl函数，是用来处理抓到的相对地址修正为完整的http开头的绝对地址，参数url是前面我们定义的，link是loop循环体变量在循环里面定义的。

看完了这个我们做个我们看到只要用xpath表达式，对任何页面的相对位置抓取都不是问题了。

Web-harvest已经解决了大部分问题，我们要做的就是写配置文件了。

用 web-harvest 挖掘需要的数据-非决定性因素-搜狐博客基于WEB 的数据挖掘综述基于WEB 的数据挖掘综述1 浅谈网络信息挖掘 : web数据挖掘 --- 数据挖掘研究院 Web数据挖掘的研究现状及发展十年砍柴：高考舞弊泛滥决定性因素非器材浅谈网络信息挖掘 : web数据挖掘 --- 数据挖掘研究院22 个性化推荐技术漫谈 - WEB数据挖掘 - 数据挖掘研究院 - China Data Mi... 错误的改革路线是苏联演变的决定性因素数据挖掘的数据集资源数据挖掘的数据集资源价值观是决定最终是否成功的决定性因素影响女人幸福的7大决定性因素使用 Oracle 数据挖掘 API - ora_eizo的博客 - IXPUB技术博客 ... 数据挖掘 [转载]开源的数据挖掘工具-卢参义的博客-科学网 [转载]开源的数据挖掘工具new-卢参义的博客-科学网实现挖掘Web日志的数据仓库系统数据挖掘相关的基本问题 - 商务智能时代来临... - 博客园数据挖掘--极具发展前景的新领域 GIS系统数据挖掘功能的扩展数据挖掘的10个常见问题数据挖掘相关的基本问题数据挖掘的10个常见问题