飞采(NiniDown) 是一款基于.NET编写的多线程信息采集系统(使用前必须安装.NET framework 2.0)。通过直观的的规则制订,模拟浏览器不同的提交行为,可以方便的将浏览器中看到的信息抓取下来,并可以通过在线发布工具或数据库入库工具,将该信息发布到您自己的网站上。其灵活的规则制定,强大的分页处理,计划任务,对Access,Mysql,MSsql的数据库支持等功能,将有效节约您的宝贵时间,让工作变得更加轻松......
特色介绍
支持多任务、多线程:可以同时执行多个采集任务,每个任务又可以使用多个线程。
支持多层导航技术:可以跨层采集,分页采集,分页内容可以合并为一条记录。
支持采集内容可以多表,跨表保存;可以通过关键字关联,自动整合成一条完整记录。
支持历史记录功能,方便增量采集,避免重复采集。
支持固定时间、间隔一定时间采集、全部任务完成后自动关机。
支持网站登录采集,可以采集需要登录才能看到的页面。
支持普通、POST、脚本链接采集。对采用函数生成的分页地址也可以采集,支持简单表达式计算
支持POST数据、Cookie捕获,通过内置浏览器可以捕获特殊cookie,如HttpOnly类型的[暂不可见]_SessionId等,方便创建下载、发布规则。
支持内容文件下载,可以提取并下载内容中的图片、Flash、附件(常见类型的文件)。
支持分块传输方式(chuncked),压缩(gzip,deflate)的数据流下载。
支持采集链接、文件链接筛选功能,对下载的内容标记剔除、文字替换。
支持模拟提交、源码查看(同web在线发布),方便测试采集规则。
支持HTTP请求头自定义,方便完美模拟各种浏览器请求动作。
支持采集内容保存到数据库,方便第三方软件对采集内容进行再加工。
支持采集结果web在线发布,通过在线方式发布到现有的网站系统。
支持采集结果数据库入库发布,可以发布到Access、SQL Server、MySQL数据库(支持存储过程调用,FTP上传采集的文件)。
最近更新说明:
2009-4-15:
版本:1.1.0.1
修正了判断链接的条件,方便获取特殊链接。
2009-4-8:
版本:1.1
增加解析链接时对多限制条件的支持,使用分隔符"|"分隔多条件
增加版本检查功能
增加任务队列状态显示
修正自定义HTTP请求头设置
修正分页解析错误问题
取消计划任务限制
取消下载结束关机限制 |