ImageVerifierCode 换一换
格式:DOC , 页数:14 ,大小:821.77KB ,
资源ID:3084289      下载积分:15 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-3084289.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(在MyEclipse中搭建Nutch开发环境.doc)为本站会员(11****ws)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

在MyEclipse中搭建Nutch开发环境.doc

1、在 MyEclipse 中搭建 Nutch 开发环境1 以 Java Project 形式搭建1.1 第一步:下载 Nutch 的压缩包到 Nutch 的网站上下载 Nutch 的压缩包,这里以 Nutch1.1 为例。Nutch 各版本的下载地址为 http:/archive.apache.org/dist/nutch/,进入该网页后,找到 apache-nutch-1.1-bin.tar.gz 文件,将其下载到自己的电脑里。1.2 第二步:新建一个 Java 项目打开 MyEclipse,点击 FileNewJava Project 新建一个 Java 项目,输入 Project Name

2、如 Nutch1.1,点击 Finish 按钮。如下图所示。1.3 第三步:导入 Nutch 的代码将第一步下载的 Nutch 压缩包解压,解压后的目录结构如下图所示。将 src/java 目录下的整个 org 文件夹 copy 到 Nutch1.1 项目的 src 目录下。1.4 第四步:导入 Nutch 的配置文件、Jar 包、插件在第三步解压后的目录下,找到 conf、lib、plugins 三个文件夹,将这三个文件夹 copy到 Nutch1.1 项目的根目录下(即与 src 目录同级) 。Copy 完后,Nutch1.1 项目的目录结构如图所示。1.5 第五步:替换 Nutch 中

3、Hadoop 的核心包官方版本的 Hadoop 是不支持 Windows 下的存取操作的,我们需要将其替换为自己修改过的 Jar 包。在 Nutch1.1 项目的 lib 目录下,找到 Hadoop 的核心包(如:hadoop-0.20.2-core.jar) ,将其删除,然后将自己的 Jar 包(hadoop-0.21.0-core.jar)copy 到该目录下。1.6 第六步:在 MyEclipse 中为项目加载 Jar 包在 MyEclipse 中刷新 Nutch1.1 项目,可以看到如下所示的目录结构。我们会发现 src 目录下有错误存在,这是因为尽管该项目的 lib 目录下有 Jar

4、 包,但是没有将其加入到 ClassPath 变量中。下面来解决这个问题。在 Nutch1.1 目录上单击右键Build PathConfigure Build Path将打开如下所示的对话框。在 Libraries 选项卡里,点击 Add JARs按钮,将出现如下所示的对话框。展开 Nutch1.1 目录,展开 lib 目录,将 lib 文件夹及其子文件夹下的全部 Jar 包选中,然后单击 OK 按钮,如下图所示。单击 OK 按钮后,将回到 Libraries 选项卡,此时该选项卡将如下所示。最后,单击 Libraries 选项卡里的 OK 按钮,回到 MyEclipse 的主页面,看看 s

5、rc 目录上的错误是不是消失了。1.7 第七步:在 MyEclipse 中为项目加载配置文件同理,虽然 conf 目录下已经有配置文件了,但 Java 虚拟机仍不能识别它们,因为它们也没有加入到 ClassPath 变量中。下面我们来将其加入。在 conf 目录上单击右键Build PathUse as Source Folder。然后我们会发现 conf目录变成了一个“Source Folder”,这样 conf 目录下的配置文件就被中加入到 ClassPath变量中了。1.8 第八步:修改 Nutch 中的配置Nutch 中默认的配置并不能使 Nutch 正常运行,需要修改几个地方后才能使

6、 Nutch 运行起来。1.8.1 修改 nutch-default.xml在 conf 目录下找到 nutch-default.xml 文件,将其打开,找到 http.agent.name 配置项,如果该项的 value 值为空,则随便加入一个值,然后保存。如下图所示。1.8.2 修改 crawl-urlfilter.txt在 conf 目录下找到 crawl-urlfilter.txt 文件,将其打开,找到# accept hosts in MY.DOMAIN.NAME 配置项,将其下面的正则表达式+http:/(a-z0-9*.)*MY.DOMAIN.NAME/改为+http:/(a-z

7、0-9*.)*。找到# skip URLs containing certain characters as probable queries, etc. 配置项,如果其下面有 -?*!=形式的正则表达式,将其删除,或将- 号改为+号。最后,保存所作的修改。如下图所示。此外,还可以修改 nutch-site.xml 这个文件的配置。 (这里略去,不作修改)1.9 第九步:测试 Crawl 类,修正运行中的各种错误经过以上的操作,Nutch 的开发环境的搭建就有可能大功告成了,现在我们就可以开始运行 Nutch 了。我们通过 Crawl 类来运行 Nutch,运行时将出现两种结果,一是顺利地运行

8、完成,二是程序被各种异常终止(即运行失败) 。如果出现第一种结果,恭喜你,Nutch的开发环境搭建成功;如果出现第二种结果,很抱歉,你可能离成功还有很远,不过没关系,你可以一步一个脚印,修正运行中的各个错误。下面,按如下步骤来运行 Nutch,修正运行中的各种错误。1.9.1 运行前的准备工作Nutch 爬虫运行时需要一个入口,即一个或若干个 url,通常将 url 存放在一个 txt 文件中。因此,运行前需要有这样的 txt 文件。在 Nutch1.1 项目的根目录下新建一个名为“testData”的文件夹,在该文件夹下新建一个名为“urls.txt”的文件,在 urls.txt 文件中写入若干 url,如下图所示。1.9.2 打开 Crawl 类,配置运行参数在 MyEclipse 中,展开 src 目录,找到 org/apache/nutch/crawl 包下的 Crawl.java 类,双击打开。在 MyEclipse 的工具栏上找到 ,点击右边的黑色小三角,再点击 Run Configurations,将打开一个对话框,如下图所示。点击 Arguments 选项卡,如下图所示输入运行参数和虚拟内存,点击 Apply 按钮,再点击 Close 按钮,返回主界面。

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。