• 搜索引擎 Nutch

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现...Nutch更多Nutch信息

    最近更新: Apache Nutch 2.3.1 发布,搜索引擎 发布于 5个月前

  • JAVA爬虫 WebCollector

    爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。 爬虫内核: WebCollector致力于维护一个稳...WebCollector更多WebCollector信息

  • Python 爬虫程序 PySpider

    PySipder 是一个 Python 爬虫程序 演示地址:http://demo.pyspider.org/ 使用 Python 编写脚本,提供强大的 API Python 2&3 强大的 WebUI 和脚本编辑器、任务监控和项目管理和结果查看 支持 JavaScript 页面 后端系统支持:MySQL, MongoDB, SQLite, Postg...PySpider更多PySpider信息

  • Go 爬虫软件 Pholcus

    pholcus Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同...Pholcus更多Pholcus信息

    最近更新: 高并发、分布式爬虫 Pholcus 0.8.5 发布 发布于 3个月前

  • 基于docker的分布式爬虫服务 Zerg

     zerg     基于docker的分布式爬虫服务 特性 多机多 IP,充分利用 IP 资源 服务自动发现和注册(基于 etcd 和 registrator) 负载均衡 服务端客户端通信基于 gRPC,支持多种编程语言的客户端 可设置抓取超时 支持 GET、HEAD、POST 方法 支持自定义 head...Zerg更多Zerg信息

  • 垂直爬虫 WebMagic

    webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。 以下是爬取oschina博客的一段代码: Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*"))....WebMagic更多WebMagic信息

    最近更新: WebMagic 0.5.3 版本发布,Java爬虫框架 发布于 5个月前

  • 网站数据采集软件 网络矿工采集器(原soukey采摘)

    Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。Soukey采摘当前提供的主要功能如下: 1.    多任务多线...更多网络矿工采集器(原soukey采摘)信息

  • 网站爬虫 Grub Next Generation

    Grub Next Generation 是一个分布式的网页爬虫系统,包含客户端和服务器可以用来维护网页的索引。Grub Next Generation更多Grub Next Generation信息

    最近更新: Grub Next Generation 1.0 发布 发布于 5年前

  • PHP的Web爬虫和搜索引擎 PhpDig

    PhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时,它将按一定的排序规则显示包含关 键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更...更多PhpDig信息

  • 网站内容采集器 Snoopy

    Snoopy是一个强大的网站内容采集器(爬虫)。提供获取网页内容,提交表单等功能。更多Snoopy信息

  • Web爬虫框架 Scrapy

    Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~更多Scrapy信息

    最近更新: Scrapy 1.1.0 发布,web 爬虫框架 发布于 1个月前

  • web爬虫 Heritrix

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。 Heritrix是一个爬虫框架,其组织结...Heritrix更多Heritrix信息

  • Java网页爬虫 JSpider

    JSpider是一个用Java实现的WebSpider,JSpider的执行格式如下: jspider [URL] [ConfigName] URL一定要加上协议名称,如:http://,否则会报错。如果省掉ConfigName,则采用默认配置。 JSpider 的行为是由配置文件具体配置的,比如采用什么插件,结果存储方...更多JSpider信息

  • 网络爬虫程序 NWebCrawler

    NWebCrawler是一款开源的C#网络爬虫程序NWebCrawler更多NWebCrawler信息

  • Java网络蜘蛛/网络爬虫 Spiderman

    Spiderman - 又一个Java网络蜘蛛/爬虫 Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。 最新提示:欢迎来体验最新版本Spiderman2,http://git.oschina.net/l-weiw...更多Spiderman信息

  • Java多线程Web爬虫 Crawler4j

    Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。 示例代码: import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr...更多Crawler4j信息

  • 网页抓取/信息提取软件 MetaSeeker

    爬虫软件MetaSeeker,现已全面升级为GooSeeker。 新版本已经发布,在线版免费下载和使用,源代码可阅读。自推出以来,深受喜爱,主要应用领域: 垂直搜索(Vertical Search):也称为专业搜索,高速、海量和精确抓取是定题网络爬虫DataScraper的强项,每天...更多MetaSeeker信息

  • OpenWebSpider

    OpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。OpenWebSpider更多OpenWebSpider信息

  • 爬虫小新 Sinawler

    国内第一个针对微博数据的爬虫程序!原名“新浪微博爬虫”。 登录后,可以指定用户为起点,以该用户的关注人、粉丝为线索,延人脉关系搜集用户基本信息、微博数据、评论数据。 该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持,但请勿用于商...更多Sinawler信息

  • 网页爬虫 Methanol


  • Methanol 是一个模块化的可定制的网页爬虫软件,主要的优点是速度快。更多Methanol信息

    • 网络爬虫/网络蜘蛛 larbin

      larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫,也就 是说larbin只抓取网页,至于如何parse的事情则由用户自己...更多larbin信息

    • 【免费】死链接检查软件 Xenu

      Xenu Link Sleuth 也许是你所见过的最小但功能最强大的检查网站死链接的软件了。你可以打开一个本地网页文件来检查它的链接,也可以输入任何网址来检查。它可以分别列出网站 的活链接以及死链接,连转向链接它都分析得一清二楚;支持多线程 ,可以把检查结...Xenu更多Xenu信息

    • 易得网络数据采集系统

      本系统采用主流编程语言php和mysql数据库,您可以通过自定义采集规则,或者到我的网站下载共享的规则,针对网站或者网站群,采集您所需的数据,您也可以向所有人共享您的采集规则哦。通过数据浏览和编辑器,编辑您所采集的数据。 本系统所有代码完全开源,...易得网络数据采集系统更多易得网络数据采集系统信息

    • Web-Harvest

      Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。Web-Harvest更多Web-Harvest信息

    • 网页抓取工具 PlayFish

      playfish是一个采用java技术,综合应用多个开源java组件实现的网页抓取工具,通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具 应用开源jar包包括httpclient(内容读取),dom4j(配置文件解析),jericho(html解析),已经在 war包的lib下。 这个项...更多PlayFish信息

    • Web爬虫程序 CrawlZilla

      crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題 由 nutch 專案為核心,並整合更多相關套件,並開發設計安裝與管理UI,讓使用者更方便上手。 crawlzilla 除了爬取基本...CrawlZilla更多CrawlZilla信息

    • 番号种子采集器

      番号种子采集器 By 肾虚公子 #声明:本程序 Mac/Linux用户: wget http://fanhao.miaowu.asia/FanHao.py&&python FanHao.py Windows下载链接: 点击下载 程序基本功能 * 全局代理抓取,自动采集代理 * 搜索并给出磁力连接 * 手机完成后自动打开网页展示信息...番号种子采集器更多番号种子采集器信息

    • 网页爬虫 YaCy

      YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等.更多YaCy信息

      最近更新: YaCy 1.4 发布,分布式Web搜索引擎 发布于 3年前

    • 多线程web爬虫程序 spidernet

      spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制, 支持gzip解码, 支持以gbk(gb2312)和utf8编码的资源; 存储于sqlite数据文件. 源码中TODO:标记描述了未完成功能, 希望提交你的代码....spidernet更多spidernet信息

    • 基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件 nutch-htmlunit

      Nutch Htmlunit Plugin 重要说明: 当前项目基于Nutch 1.X系列已停止更新维护,转向Nutch 2.x系列版本的新项目:http://www.oschina.net/p/nutch-ajax 项目简介 基于Apache Nutch 1.8和Htmlunit组件,实现对于AJAX加载类型页面的完整页面内容抓取解析。 Ac...更多nutch-htmlunit信息

      最近更新: Nutch-Htmlunit 1.8 发布:基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件 发布于 2年前

    • 网页爬虫 Ex-Crawler

      Ex-Crawler 是一个网页爬虫,采用 Java 开发,该项目分成两部分,一个是守护进程,另外一个是灵活可配置的 Web 爬虫。使用数据库存储网页信息。更多Ex-Crawler信息

    • 简易HTTP爬虫 HttpBot

      HttpBot 是对 java.net.HttpURLConnection类的简单封装,可以方便的获取网页内容,并且自动管理session,自动处理301重定向等。虽然不能像HttpClient那样强大,支持完整的Http协议,但却非常地灵活,可以满足我目前所有的相关需求。...更多HttpBot信息

    • Web爬虫框架 Smart and Simple Web Crawler

      Smart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置 过滤器限制爬回来的链接,默认提供三个过滤器ServerFilter、BeginningPathFilter和 RegularE...更多Smart and Simple Web Crawler信息

    • 招聘信息爬虫 JobHunter

      JobHunter旨在自动地从一些大型站点来获取招聘信息,如chinahr,51job,zhaopin等等。JobHunter 搜索每个工作项目的邮件地址,自动地向这一邮件地址发送申请文本。更多JobHunter信息

    • 新闻采集器 NZBGet

      NZBGet是一个新闻采集器,其中从新闻组下载的资料格式为nzb文件。它可用于单机和服务器/客户端模式。在独立模式中通过nzb文件作为参数的命令行来下载文件。服务器和客户端都只有一个可执行文件”nzbget”。 功能和特点 控制台界面,使用纯文本,彩色文字或...更多NZBGet信息

    • web爬虫 jcrawl

      jcrawl是一款小巧性能优良的的web爬虫,它可以从网页抓取各种类型的文件,基于用户定义的符号,比如email,qq.更多jcrawl信息

    • 网页爬虫框架 hispider

      HiSpider is a fast and high performance spider with high speed 严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载, 支持网站定向下载(需要配置hispiderd.ini whitelist). 特征...更多hispider信息

    • 网络爬虫 goodcrawler

      goodcrawler(GC) 网络爬虫 GC是一个垂直领域的爬虫,同时也是一个拆箱即用的搜索引擎。 GC基于httpclient、htmlunit、jsoup、elasticsearch。 GC的特点: 1、具有DSL特性的模板。 2、分布式、可扩展。 3、辛亏有htmlunit,它能较好地支持javascript。 5、合...更多goodcrawler信息

    • 分布式网页爬虫 Ebot

      Ebot 是一个用 ErLang 语言开发的可伸缩的分布式网页爬虫,URLs 被保存在数据库中可通过 RESTful 的 HTTP 请求来查询。Ebot更多Ebot信息

    • Web爬虫工具 NCrawler

      NCrawler 是一个Web Crawler 工具,它可以让开发人员很轻松的发展出具有Web Crawler 能力的应用程式,并且具有可以延展的能力,让开发人员可以扩充它的功能,以支援其他类型的资源(例如PDF /Word/Excel 等档案或其他资料来源)。 NCrawler 使用多执行绪(...更多NCrawler信息

    • ItSucks

      ItSucks是一个java web spider(web机器人,爬虫)开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swing GUI操作界面。  ItSucks更多ItSucks信息

    • web 搜索和爬虫 Leopdo

      用JAVA编写的web 搜索和爬虫,包括全文和分类垂直搜索,以及分词系统更多Leopdo信息

    • 易用的轻量化的网络爬虫 GECCO

      Gecco是什么 Gecco是一款用java语言开发的轻量化的易用的网络爬虫。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架,让您只需要配置一些jquery风格的选择器就能很快的写出一个爬虫。Gecco框架有优秀的可扩展性,框架基于...更多GECCO信息

      最近更新: Gecco 1.1.3 发布,易用的轻量化爬虫 发布于 2周前

    • 网络数据抓取框架 TinySpider

      TinySpider是一个基于Tiny HtmlParser的网络数据抓取框架。 Maven引用坐标: <dependency> <groupId>org.tinygroup</groupId> <artifactId>org.tinygroup.spider</artifactId> <version>0.1.0-SNAPSHOT</version> </dependency> 网络爬虫,一般用在全文检...更多TinySpider信息

    • URL监控脚本 urlwatch

      urlwatch 是一个用来监控指定的URL地址的 Python 脚本,一旦指定的 URL 内容有变化时候将通过邮件方式通知到。 基本功能 配置简单,通过文本文件来指定URL,一行一个URL地址; Easily hackable (clean Python implementation) Can run as a cronjob and m...更多urlwatch信息

      最近更新: urlwatch 1.8 发布 发布于 7年前

    • Perl爬虫程序 Combine

      Combine 是一个用Perl语言开发的开放的可扩展的互联网资源爬虫程序。更多Combine信息

    • Ajax爬虫和测试 Crawljax

      Crawljax: java编写,开放源代码。 Crawljax 是一个 Java 的工具用于自动化的爬取和测试现在的 Ajax Web 应用。更多Crawljax信息

    • 网页搜索爬虫 BlueLeech

      BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。更多BlueLeech信息

    • Methabot

      Methabot 是一个经过速度优化的高可配置的 WEB、FTP、本地文件系统的爬虫软件。更多Methabot信息

    • 数据收集系统 Chukwa

      什么是 Chukwa,简单的说它是一个数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa 本身也提供了很多内置的功能,帮助我们进行数据的收集和整理。 为了更加简单直观的展示 ...Chukwa更多Chukwa信息

    • 爬虫系统 NEOCrawler

      NEOCrawler(中文名:牛咖),是nodejs、redis、phantomjs实现的爬虫系统。代码完全开源,适合用于垂直领域的数据采集和爬虫二次开发。 【主要特点】 使用nodejs实现,javascipt简单、高效、易学、为爬虫的开发以及爬虫使用者的二次开发节约不少时间;nodej...NEOCrawler更多NEOCrawler信息

    • 网页抓取工具 pyrailgun

      这是一个非常简单易用的抓取工具 怎么使用? 首先你需要创建一个对应站点的规则文件 比如test.json { "name": "bing searcher", "action": "main", "subaction": [ { "action": "fetcher", "url": "http://www...更多pyrailgun信息

    • PHP 爬虫库 Goutte

      Goutte 是一个抓取网站数据的 PHP 库。它提供了一个优雅的 API,这使得从远程页面上选择特定元素变得简单。 示例代码: require_once '/path/to/goutte.phar'; use Goutte\Client; //发送请求 $client = new Client(); $crawler = $client->requ...更多Goutte信息

    • Web挖掘工具包 Bixo

      Bixo 是一个开放源码的Web挖掘工具包,基于 Hadoop 开发和运行。通过建立一个定制的级联管总成,您可以快速创建Web挖掘是专门为特定用例优化的应用程序。更多Bixo信息

    • PHP爬虫库 PHPCrawl

      phpcrawl是一个爬虫/蜘蛛功能的基于php开发的框架,所以我们称它为网站或爬虫的PHP库。更多PHPCrawl信息

    • 百度贴吧发贴机 baidupost

      贴吧精灵 百度贴吧发贴机 要的请自己下载哦。 有啥问题,BUG请联系我哦,admin@baidupost.com,完全免费中。 使用说明 1.设置好用户名,贴吧,内容就可以直接发送了 2.绿色软件,简单好用,完全环保 功能特色 1.可自动发贴 2.可顶贴/回贴 严正申明 本软件是...更多baidupost信息

    • 爬虫框架 gcrawler

      一个基于gevent的爬虫框架,最初的版本在一定程度上模仿了scrapy。更多gcrawler信息

    • 网站数据采集软件 NETSpider

      NETSpider网站数据采集软件是一款基于.Net平台的开源软件。 软件部分功能是基本Soukey软件进行开发的.这个版本采用VS2010+.NET3.5进行开发的. NETSpider采摘当前提供的主要功能如下: 1.    多任务多线程数据采集,支持POST方式(待定); 2.    可采集A...更多NETSpider信息

    • Spidr

      Spidr 是一个Ruby 的网页爬虫库,可以将整个网站、多个网站、某个链接完全抓取到本地。 安装方法:sudo gem install spidr 代码示例: Spidr.start_at('http://tenderlovemaking.com/') Spidr.site('http://rubyinside.org/') do |spider| spider.every...更多Spidr信息

    • 丑牛迷你采集器

      丑牛迷你采集器是一款基于Java Swing开发的专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从 网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站 架构说明 系统是基于 Swing+Spring-3.2.4+Mybatis-3...丑牛迷你采集器

    • 爬虫规则编写工具 Portia

      Portia是scrapyhub开源的一款可视化的爬虫规则编写工具。它提供可视化的Web页面,你只需要通过点击标注页面上你需要抽取的数据,不需要任何编程知识即可完成规则的开发。 这些规则可以在#Scrapy#中使用,用于抓取页面。Portia更多Portia信息

    • WebSPHINX

      WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包。WebSPHINX更多WebSPHINX信息

    • ajax 爬虫 Crowbar

      Crowbar: 基于Mozilla浏览器的 ajax 爬虫,还可作为远程浏览器使用,比较有意思。更多Crowbar信息

    • DotNetWikiBot

      DotNetWikiBot Framework 是一个全功能的客户端API和一个控制台应用,用来构建抓取基于 MediaWiki 网站的爬虫,采用 .NET 开发。 示例代码: using DotNetWikiBot; // Reference DotNetWikiBot namespace for easy access class MyBot : Bot // Derive yo...更多DotNetWikiBot信息

      最近更新: DotNetWikiBot Framework 3.10 发布 发布于 2年前

    • 信息收集工具 QuickRecon

      QuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、perform zone transfe、收集电子邮件地址和使用microformats寻找人际关系等。QuickRecon使用python编写,支持linux和 windows操作系统。...更多QuickRecon信息

    • 网络爬虫引擎 simspider

      simspider - 网络爬虫引擎 1.简介 simspider是一个轻巧的跨平台的网络爬虫引擎,它提供了一组C函数接口用于快速构建你自己的网络爬虫应用,同时也提供了一个可执行的爬虫程序用于演示函数接口如何使用。 simspider只依赖于第三方函数库libcurl。 simspide...更多simspider信息

      最近更新: 网络爬虫引擎 simspider 更新至 v2.4.0 发布于 1年前

    • 分布式爬虫框架 Cola

      Cola是一个分布式的爬虫框架,用户只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。 依赖 首先,确保Python版本为2.6或者2.7(未来会支持3+)。由于Cola配置文件使用的yaml,所以Cola只依赖于p...Cola更多Cola信息

    • 多线程页面抓取服务器

      此服务器是使用mongoose web服务器改写的并发抓取多个页面的服务器, 使用可以查看test.php更多多线程页面抓取服务器信息

    • Web网站交互工具 weboob

      Weboob (Web Out Of Browsers) 提供了很多工具用来和很多的网站进行交互。例如在youtube上搜索并播放视频;查询天气、银行帐号等等信息。weboob更多weboob信息

      最近更新: weboob 0.i 发布,Web 网站交互工具 发布于 2年前

    • Java爬虫框架 SeimiCrawler

      SeimiCrawler An agile,powerful,distributed crawler framework. SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。 简介 SeimiCrawler是一个敏捷的,支持分布式的Java爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫...SeimiCrawler更多SeimiCrawler信息

      最近更新: SeimiCrawler v0.3.2 发布,Java爬虫框架 发布于 1个月前

    • 根据URL生成PDF的工具 h2p

      根据批量URL生成一个有书签的pdf文档的解决方案。h2p-file是一个xml文件,该xml文件主要描述url的信息和url的层次结构,h2p-tool根据h2p-file生成有书签的pdf文档。还可以通过xsl直接展示url的层次结构,而且合作网站对h2p的支持也将变得简单...h2p更多h2p信息

    • JoBo

      JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。JoBo还有灵活的 下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。...JoBo更多JoBo信息

    • 社会媒体视角引擎 ThinkUp

      ThinkUp 是一个可以采集推特,facebook等社交网络数据的社会媒体视角引擎。通过采集个人的社交网络账号中的数据,对其存档以及处理的交互分析工具,并将数据图形化以便更直观的查看。  ThinkUp更多ThinkUp信息

    • Go爬虫框架 go_spider

        本项目基于golang开发,是一个开放的垂直领域的爬虫框架,框架中将各个功能模块区分开,方便使用者重新实现子模块,进而构建自己垂直方方向的爬虫。 本项目将爬虫的各个功能流程区分成Spider模块(主控),Downloader模块(下载器),PageProcesser模块...go_spider更多go_spider信息

    • 网页版爬虫 spider-web

      spider-web 是爬虫的网页版,使用xml配置,支持大部分页面的爬取,支持爬取内容的保存、下载等。 其中配置文件格式为: <?xml version="1.0" encoding="UTF-8"?> <content> <url type="simple"><!-- simple/complex --> <url_head>http://www.oschina....更多spider-web信息

    • 美容新闻采集

      美容新闻淘客免维护全自动采集 1.采集瑞丽女性美容频道文章,免维护全自动采集 2.可自定义网站标题,关键字,描述等 3.可选择是否应用新浪SAE平台 支持 新浪SAE环境 与普通环境自由切换 4.自定义推广产品 5.自定义广告链接 6.自定义文章替换规则方便推广 7.自...更多美容新闻采集信息

    • 检索爬虫框架 heyDr

      heyDr是一款基于java的轻量级开源多线程垂直检索爬虫框架,遵循GNU GPL V3协议。 用户可以通过heyDr构建自己的垂直资源爬虫,用于搭建垂直搜索引擎前期的数据准备。heyDr更多heyDr信息

    • 用ruby写的采集程序

      作为一个入门级的程序员,用ruby写的一个小脚本,可以采集某人才网的人才数据,写的不好。头一次发布,希望大大们批评指正。 采集某网站的人才数据,保存到csv文件中,同时导入数据库更多用ruby写的采集程序信息

    • 网页爬虫 Spiderq

      Spiderq 是一个网页爬虫,性能依赖于服务器配置和网络情况。更多Spiderq信息

    • WebLech

      WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。更多WebLech信息

    • 开源爬虫框架 GuozhongCrawler

      guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。模块化设计完全 面向业务提供接口,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取...更多GuozhongCrawler信息

    • Java 网络爬虫 Egg

      Egg 简介 Egg 它一个通用高效的爬虫,希望它能够替大家实现一些需求,更希望能为开源做出自己的贡献。目前,还在成长,在我的构想下,它还需要添加很多功能,我会继续完善。有任何疑问以及需求请以与作者交流:630841816@qq.com Egg是一个通用,多线程的Jav...更多Egg信息

    • Web 数据抽取客户端 webStraktor

      webStraktor 是一个可编程的 WWW 数据抽取客户端,提供一个脚本语言用于收集、抽取和存储来自 Web 的数据,包括图片。脚本语言使用正则表达式和 XPath 语法。标准输出为 XML 格式,支持 ASCII、UTF-8 和 ISO885_1 。提供日志记录和跟踪信息。...webStraktor更多webStraktor信息

    • 极简网络爬虫组件 WebFetch

      WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫。 WebFetch 要达到的目标: 没有第三方依赖jar包 减少内存使用 提高CPU利用率 加快网络爬取速度 简洁明了的api接口 能在Android设备上稳定运行 小巧灵活可以方便集成的网页抓取组件 使用...更多WebFetch信息

    • PHP-spider

      一个可扩展的PHP WEB 蜘蛛,示例代码: use VDB\Spider\Spider; use VDB\Spider\Discoverer\XPathExpressionDiscoverer; $spider = new Spider('http://www.oschina.net'); 特性: supports two traversal algorithms: breadth-first and depth-f...更多PHP-spider信息

    • Arale Spider

      Arale主要为个人使用而设计,而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。更多Arale Spider信息

    • 网页爬虫 ScrapingSpider

      ScrapingSpider 是一个业余时间开发的,支持多线程,支持关键字过滤,支持正文内容智能识别的爬虫。    爬虫的核心实现在ScrapingSpider.Core程序集中。爬虫类为Spider类,爬虫的爬取逻辑,与页面处理逻辑通过事件分离,两个关键事件为AddUrlEvent和Dat...更多ScrapingSpider信息

    • PHP爬虫工具包 spider-utils-for-php

      spider-utils-for-php: 原则: 简单、易用、灵活、任性任性任性就是任性! 特色: php 界内最简单易用的 http-utils,自动识别支持 curl、socket、file_get_contents 三种方式。 http 请求支持 gzip,加速请求,节约请求成本。 跟踪 301、302 跳转(可设置...更多spider-utils-for-php信息

    • Arachnid

      Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用...更多Arachnid信息

    • 脚本编程语言 CrawlScript

      JAVA平台上的网络爬虫脚本语言 CrawlScript 网络爬虫即自动获取网页信息的一种程序,有很多JAVA、C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个简单 的操作。鉴于这个问题,我们开发了CrawlScript这种脚本语言,程...更多CrawlScript信息

    • OWASP AJAX Crawling Tool

      OWASP AJAX Crawling Tool (FuzzOps-NG) OWASP出品的ajax爬虫,java编写,开放源代码。更多OWASP AJAX Crawling Tool信息

    • Common Crawl

      commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。 Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于 org.commoncrawl.samples) 用来配置 InputFormat。...更多Common Crawl信息

    • 网络爬虫 kamike.collect

      Another Simple Crawler 又一个网络爬虫,可以支持代理服务器的翻墙爬取。 1.数据存在mysql当中。 2.使用时,先修改web-inf/config.ini的数据链接相关信息,主要是数据库名和用户名和密码 3.然后访问http://127.0.0.1/fetch/install 链接,自动创建数据库表...更多kamike.collect信息

    • LARM

      LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件,数据库表格建立索引的方法和为Web站点建索引的爬虫。更多LARM信息

    • Spindle Spider

      spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜 索功能。...更多Spindle Spider信息

    • 分布式爬虫 CrawlerDemon

      CrawlerDemon 是垂直应用爬虫,基于akka+okHttp+spring+jsoup ,配置简单,上手容易,支持配置动态参数,动态代理,http自动重试。 特点 基于 akka 高性能分布式框架 使用 spring 配置请求参数 自动管理代理地址Ip,http请求重试, 超过重复次数丢弃请求 ...更多CrawlerDemon信息

    • 轻量级网页图片下载工具 crawl-me

      crawl-me是一个基于plugin的轻量级快速网页图片下载工具。crawl-me通过简单的命令行就可以用你想要的方式下载各个网站下的图片。目前暂时只支持gamersky(游明星空), pixiv(P站),更多plugin尽请期待,欢迎为它添加新的plugin。 特性 支持Http range-head...更多crawl-me信息

    • Web 爬虫 Harvestman

      Harvestman 是一个非常简单、轻量级的 Web 爬虫,使用 Ruby 编写,示例代码: require 'harvestman' Harvestman.crawl 'http://www.foo.com/bars?page=*', (1..5) do price = css 'div.item-price a' ... end...更多Harvestman信息

    • Python 爬虫框架 Scrapple

      Scrapple 是一个用来开发 Web 爬虫程序的 Python 框架,使用 key-value 配置文件。提供命令行接口来运行基于 JSON 的配置,同时也提供基于 Web 的接口来输入。更多Scrapple信息

    • web抓取框架 Upton

      Upton 是一个用于简化web抓取与一个有用的调试模式的框架,可单独为目标网站编写内容解析。更多Upton信息

    • 跨平台不写代码的爬虫 Crawler

      Crawler基于Java开发的一款跨平台爬虫,可以使用Shell脚本和DOS命令进行任务式处理。 比如CR命令 使用一个Email正则就可以从贴吧中提取所有邮箱 使用Ci命令 爬取所有新闻 java -jar crawler.jar -ci url.txt title,h1[id=artibodyTitle]#date,span[id=pub...Crawler更多Crawler信息

    • 快速开发爬虫系统的云框架 神箭手云爬虫

      神箭手云爬虫是一个帮助开发者快速开发爬虫系统的云框架。神箭手提供上手简单,灵活开放的爬虫云开发环境,让开发者只需要在线写几行js代码就可以实现一个爬虫。并且爬虫将自动运行在云服务器上,爬取速度更快,效率更高。 神箭手的主要功能包括: 1、完全...更多神箭手云爬虫信息

    • 高并发爬虫下载组件 surfer

      surfer是一款Go语言编写的高并发爬虫下载器,拥有surf与phantom两种下载内核。 支持固定UserAgent自动保存cookie与随机大量UserAgent禁用cookie两种模式,高度模拟浏览器行为,可实现模拟登录等功能。 高并发爬虫Pholcus的专用下载器。 Usage package mai...更多surfer信息

    • Node.js Web 爬虫 Node Osmosis

      Osmosis 是 Node.js 用来解析 HTML/XML 和 Web 内容爬取的扩展。 示例代码: var osmosis = require('osmosis'); osmosis .get('www.craigslist.org/about/sites')  .find('h1 + div a') .set('location') .follow('@href') .find('header + div...更多Node Osmosis信息

    • 网络爬虫 DenseSpider

      本项目 fork 项目go_spider,github:https://github.com/hu17889/go_spider ,因此项目架构的部分文档可以参考此项目。 同时项目架构、部分思路参考了 python 的经典爬虫scrapy。     基本结构: Spider模块(主控) Downloader模块(下载器) PagePr...更多DenseSpider信息

    • opm-server-mirror

      代码更新 2009-11-25: 加入反爬虫功能。直接Web访问服务器将跳转到Google。 使用方法 下载index.zip 解压index.zip得到index.php 将index.php传到支持php和cURL的国外服务器上 打开 http://www.your_website.com/your_folder_if_any/ ,如果页面跳转到Goo...更多opm-server-mirror信息

    • PHP采集工具 QueryList

      QueryList是一个基于phpQuery的PHP通用列表采集类,得益于phpQuery,让使用QueryList几乎没有任何学习成本,只要会CSS3选择器就可以轻松使用QueryList了,它让PHP做采集像jQuery选择元素一样简单。 安装:composer require jaeger/querylist 示例代码: <?ph...更多QueryList信息

    • P2P 爬虫软件 p2pspider

      介绍 p2pspider 是一个 DHT 爬虫 + BT 客户端的结合体, 从全球 DHT 网络里"嗅探"人们正在下载的资源, 并把资源的metadata(种子的主要信息)从远程 BT 客户端下载, 并生成资源磁力链接. 通过磁力链接, 你就可以下载到资源文件. English document 用途 你可以...更多p2pspider信息

    • Web 爬虫 scrape

      scrape 是一个简单高级的 Web 爬虫库,使用 Go 语言开发。 示例代码: package main import (     "fmt"     "net/http"     "github.com/yhat/scrape"     "golang.org/x/net/html"     "golang.org/x/net/html/atom" ) func m...更多scrape信息

    • 知乎非官方 API 库 zhihu-py3

      zhihu-py3 本质上是个爬虫,但是为了表现的像个API,所以没有加上多线程等特性,不太适合大量数据抓取,勉强可用于客户端开发。运行在python3.x环境下,不支持py2。 功能: 登录知乎 获取问题相关数据 获取答案相关数据 获取用户相关数据 获取话题相关数据...更多zhihu-py3信息

    • JAVA搜索引擎爬取框架 SpiderGirls

      SpiderGirls 是使用java编写的一个开源软件,使用它用户可以轻松地获得某个给定的关键字下的搜索引擎的结果,现在支持bing搜索和sogou搜索。   主页: https://github.com/hfut-dmic-spidertools/spidergirls   接口介绍: Search.search(String keywo...更多SpiderGirls信息

    • Python爬虫工具 DribbbleCrawler

      DribbbleCrawler 是一款小而美的爬虫工具。 Windows平台应用程序 点击获取 使用     PATH:存储图片的地址     PAGE_NUMBER:抓取图片的网页页数     POOL_NUMBER:下载图片时候使用的线程池个数,建议不要过大,防止IP封杀。 废话     本虫,第一步使...DribbbleCrawler更多DribbbleCrawler信息

    • 开源爬虫框架 WebPasser

      WebPasser是一款可配置的开源爬虫框架,提供爬虫控制台管理界面,通过配置解析各类网页内容,无需写一句java代码即可抽取所需数据。 1.包含强大的页面解析引擎,提供jsoup、xpath、正则表达式等处理链,通过简单配置即可抽取所需的指定内容。 2.提供爬虫控...WebPasser更多WebPasser信息

    • 开源项目名检查工具 OSPNC

      OpenSource Project Name Checker - OSPNC 是一个简单的 Web 服务,用于在各大开源项目汇集网站中进行开源项目名称的检索。更多OSPNC信息