在MyEclipse中搭建Nutch开发环境.doc

上传人:11****ws 文档编号:3084289 上传时间:2019-05-20 格式:DOC 页数:14 大小:821.77KB
下载 相关 举报
在MyEclipse中搭建Nutch开发环境.doc_第1页
第1页 / 共14页
在MyEclipse中搭建Nutch开发环境.doc_第2页
第2页 / 共14页
在MyEclipse中搭建Nutch开发环境.doc_第3页
第3页 / 共14页
在MyEclipse中搭建Nutch开发环境.doc_第4页
第4页 / 共14页
在MyEclipse中搭建Nutch开发环境.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、在 MyEclipse 中搭建 Nutch 开发环境1 以 Java Project 形式搭建1.1 第一步:下载 Nutch 的压缩包到 Nutch 的网站上下载 Nutch 的压缩包,这里以 Nutch1.1 为例。Nutch 各版本的下载地址为 http:/archive.apache.org/dist/nutch/,进入该网页后,找到 apache-nutch-1.1-bin.tar.gz 文件,将其下载到自己的电脑里。1.2 第二步:新建一个 Java 项目打开 MyEclipse,点击 FileNewJava Project 新建一个 Java 项目,输入 Project Name

2、如 Nutch1.1,点击 Finish 按钮。如下图所示。1.3 第三步:导入 Nutch 的代码将第一步下载的 Nutch 压缩包解压,解压后的目录结构如下图所示。将 src/java 目录下的整个 org 文件夹 copy 到 Nutch1.1 项目的 src 目录下。1.4 第四步:导入 Nutch 的配置文件、Jar 包、插件在第三步解压后的目录下,找到 conf、lib、plugins 三个文件夹,将这三个文件夹 copy到 Nutch1.1 项目的根目录下(即与 src 目录同级) 。Copy 完后,Nutch1.1 项目的目录结构如图所示。1.5 第五步:替换 Nutch 中

3、Hadoop 的核心包官方版本的 Hadoop 是不支持 Windows 下的存取操作的,我们需要将其替换为自己修改过的 Jar 包。在 Nutch1.1 项目的 lib 目录下,找到 Hadoop 的核心包(如:hadoop-0.20.2-core.jar) ,将其删除,然后将自己的 Jar 包(hadoop-0.21.0-core.jar)copy 到该目录下。1.6 第六步:在 MyEclipse 中为项目加载 Jar 包在 MyEclipse 中刷新 Nutch1.1 项目,可以看到如下所示的目录结构。我们会发现 src 目录下有错误存在,这是因为尽管该项目的 lib 目录下有 Jar

4、 包,但是没有将其加入到 ClassPath 变量中。下面来解决这个问题。在 Nutch1.1 目录上单击右键Build PathConfigure Build Path将打开如下所示的对话框。在 Libraries 选项卡里,点击 Add JARs按钮,将出现如下所示的对话框。展开 Nutch1.1 目录,展开 lib 目录,将 lib 文件夹及其子文件夹下的全部 Jar 包选中,然后单击 OK 按钮,如下图所示。单击 OK 按钮后,将回到 Libraries 选项卡,此时该选项卡将如下所示。最后,单击 Libraries 选项卡里的 OK 按钮,回到 MyEclipse 的主页面,看看 s

5、rc 目录上的错误是不是消失了。1.7 第七步:在 MyEclipse 中为项目加载配置文件同理,虽然 conf 目录下已经有配置文件了,但 Java 虚拟机仍不能识别它们,因为它们也没有加入到 ClassPath 变量中。下面我们来将其加入。在 conf 目录上单击右键Build PathUse as Source Folder。然后我们会发现 conf目录变成了一个“Source Folder”,这样 conf 目录下的配置文件就被中加入到 ClassPath变量中了。1.8 第八步:修改 Nutch 中的配置Nutch 中默认的配置并不能使 Nutch 正常运行,需要修改几个地方后才能使

6、 Nutch 运行起来。1.8.1 修改 nutch-default.xml在 conf 目录下找到 nutch-default.xml 文件,将其打开,找到 http.agent.name 配置项,如果该项的 value 值为空,则随便加入一个值,然后保存。如下图所示。1.8.2 修改 crawl-urlfilter.txt在 conf 目录下找到 crawl-urlfilter.txt 文件,将其打开,找到# accept hosts in MY.DOMAIN.NAME 配置项,将其下面的正则表达式+http:/(a-z0-9*.)*MY.DOMAIN.NAME/改为+http:/(a-z

7、0-9*.)*。找到# skip URLs containing certain characters as probable queries, etc. 配置项,如果其下面有 -?*!=形式的正则表达式,将其删除,或将- 号改为+号。最后,保存所作的修改。如下图所示。此外,还可以修改 nutch-site.xml 这个文件的配置。 (这里略去,不作修改)1.9 第九步:测试 Crawl 类,修正运行中的各种错误经过以上的操作,Nutch 的开发环境的搭建就有可能大功告成了,现在我们就可以开始运行 Nutch 了。我们通过 Crawl 类来运行 Nutch,运行时将出现两种结果,一是顺利地运行

8、完成,二是程序被各种异常终止(即运行失败) 。如果出现第一种结果,恭喜你,Nutch的开发环境搭建成功;如果出现第二种结果,很抱歉,你可能离成功还有很远,不过没关系,你可以一步一个脚印,修正运行中的各个错误。下面,按如下步骤来运行 Nutch,修正运行中的各种错误。1.9.1 运行前的准备工作Nutch 爬虫运行时需要一个入口,即一个或若干个 url,通常将 url 存放在一个 txt 文件中。因此,运行前需要有这样的 txt 文件。在 Nutch1.1 项目的根目录下新建一个名为“testData”的文件夹,在该文件夹下新建一个名为“urls.txt”的文件,在 urls.txt 文件中写入若干 url,如下图所示。1.9.2 打开 Crawl 类,配置运行参数在 MyEclipse 中,展开 src 目录,找到 org/apache/nutch/crawl 包下的 Crawl.java 类,双击打开。在 MyEclipse 的工具栏上找到 ,点击右边的黑色小三角,再点击 Run Configurations,将打开一个对话框,如下图所示。点击 Arguments 选项卡,如下图所示输入运行参数和虚拟内存,点击 Apply 按钮,再点击 Close 按钮,返回主界面。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 策划方案

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。