胜博发娱乐平台-胜博发国际娱乐城-sbf胜博发【官方网站】

实用专题OICQ专区 MSN专区 主页浏览 影音播放 系统优化 办公专区 杀软专区 木马防范 流氓清除 黑软专区 设计专区 压缩解压 下载工具 P2P工具专区 输入法专区

您当前的位置:sbf胜博发官方网站绿色下载站 -> 网络软件 -> 搜索引擎 -> apache nutch v2.3 免费版

站内搜索

本站推荐

apache nutch v2.3 免费版

软件简介

apache nutch是一款开放源代码的Java搜索引擎框架。你需要Java搜索引擎吗?那就来看看小编为您带来的这款apache nutch。该工具提供了运行自己的搜索引擎所需要的全部工具,包括全文搜索和Web爬虫,使用Nutch不仅可以建立自己内部网的搜索引擎,同时也可以针对整个网络建立搜索引擎。它还为大家提供高质量的搜索结果,非常的方便实用,欢迎需要的用户来jz5u下载使用!

软件特色

1、Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎
2、每个月取几十亿网页
3、为这些网页维护一个索引
4、对索引文件进行每秒上千次的搜索
5、提供高质量的搜索结果

软件功能

1、支持将起始URL集合注入到Nutch系统之中
2、支持生成片段文件,其中包含了将要抓取的URL地址
3、根据URL地址在互联网上抓取相应的内容
4、解析所抓取到的网页,并分析其中的文本和数据
5、根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取
6、同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中

使用教程

1、首先先运行软件,选择File -> Import Project ->选择apache-nutch-1.9文件夹,确定后选择Import project from external model(Eclipse)
2、一直点击next到结束,成功将项目导入project中去
3、源码导入工程后,并不能执行完整的爬取。Nutch将爬取的流程切分成很多阶段,每个阶段分别封装在一个类的main函数中。在外面通过Linux Shell调用这些main函数,来完整爬取的流程。下面我们来运行Nutch中最简单的流程:Inject。我们知道爬虫在初始阶段,是需要人工给出一个或多个url,作为起始点(广度遍历树的树根)。Inject的作用,就是把用户写在文件里的种子(一行一个url,是TextInputFormat),插入到爬虫的URL管理文件(crawldb,是SequenceFile)中。
4、接下来我们按照Nutch默认的配置,需要修改Nutch的配置文件,为插件文件夹指定一个绝对路径,修改conf/nutch-default.xml文件内容,并且保存到工程中
5、接下来我们就可以开始对指定的网站的信息进行完整的爬取了

apache nutch

更新日志

1、增加了可爬取的数据类型
2、增加对Web爬虫的管理功能
3、解决了一些格式上的已知问题
4、修复了一些bug,优化了软件界面
5、优化了软件性能

注意事项

    * 本站提供的软件我们都会尽可能测试再上传,都亲自运行过,同时通过360等杀毒软件的验证,限于能力及系统等问题,无法保证所有软件都没有任何问题,如果您发现链接错误或其它问题,发email到zarong◎gmail.com告诉我们,谢谢!
    * 为了达到最快的下载速度,推荐使用网际快车迅雷下载本站软件。为确保正常使用请用最新版WinRAR来解压本站提供的软件!
    * 为了网站可以继续发展下去,在不太影响大家的情况下还请给予点击站内广告。本站所有下载无需点击任何广告即可正常下载,由于部分是FTP下载,限制了同时连接数,因此还请使用下载工具尝试多一会连接时间。如果您发现下载链接错误,请点击报告错误谢谢!
    * 站内提供的所有软件如包含破解及注册码均是由网上搜集,若无意中侵犯到您的版权利益,敬请来信通知我们,我们会在收到信息一周内给予配合处理! * 本站为非营利性站点,所有资源均是网上搜集或私下交流学习之用,任何涉及商业盈利目的均不得使用,否则产生的一切后果将由您自己承担!本站仅仅提供一个观摩学习的环境,将不对任何资源负法律责任。所有资源请在下载后24小时内删除。如果您觉得满意,请购买正版,唯有如此才能更好支持你所喜欢的软件更好发展!本站严厉谴责和鄙夷一切利用本站资源进行牟利的盗版行为!
2018白菜网送体验金 注册送体检金 注册送88体验金 注册送68体验金 2018注册送体验金