1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

火车采集器发布V1.2.0全功能版

本帖由 小叶2006-02-07 发布。版面名称:源码讨论

  1. 小叶

    小叶 New Member

    注册:
    2005-09-04
    帖子:
    17,941
    赞:
    33
    火车采集器一直致力于向做最好最强的采集器看齐,本期版本V1.2.0也是蓄势已久,在原来的版本上大胆创新,使新版本相当于原版本做了一次革命性的系统结构转变。本期版本耗费了我的大量心血,但考虑许多问题,并不将它做成收费,继续提供给大家,由于软件基本上是一个人开发,根本没有什么时间写完全的帮助文档,软件都是在办公室完成的,上网很慢,家里电脑没装网,所以无法提供大量的规则和网址供大家测试,希望大家能多多共享自己的规则和cms模块出来,为完善采集器做出一点贡献。
    大家向我反映火车采集器上手比较麻烦,可能是这样,我在做用户界面水平不高,希望大家多多帮助,多多交流使用,发掘火车采集器的各项潜能。

    【更新说明】火车采集器V1.2.0 build 2006-02-06

    1、重构了用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器。
    独立出来由用户自定义提交自定义的登陆,刷新和发表的参数。各个cms系统都作成一个cms模块文件,放入程序文件夹下的/module/即可。
    系统现自带了几个主流cms系统:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章, LeadBBS论坛,魔力论坛,Dedecms文章,Xydw文章,惊云文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。

    2、全新版的规则定义方式
    ①自定义标签:使用标签形式定义采集名,系统以后不再局限于老版本的标题,作者,出处,时间和内容5个标签,想定义多少个就多少。

    ②自定义标签下限定内容的个数,每个标签下用以限定采集内容使用的开始字符串,结束字符串,排除,替换,自定义个数,不再局限于老版本中的5个排除,2个替换。、

    ③可以选定是采集内容还是采集连接。采集连接时程序自动分析里面的地址,HTTP形式的地址可以分析并探测得到真实地址。

    3、完全去掉了大家比较头疼的正则表达式。改用系统内置通配符(*),无论是开始字符串,结束字符串,排除,替换遇到不确定的内容时,一个(*)全部可以代替。


    4、强大的内容分页识别
    您要做的只是用开始字符串和结束字符串定义一下 页面内分页的区域。支持可变内容通配符(*) ,然后选定一下该页面分页的形式:全部列出分页,上下页形式(较少),程序就会分析页面里的内容将所有分页合并起来。
    新版分页功能支持自定义分页连接代码,如果结合到你强大的cms,比如dedecms分页代码为#P#,选择自定义合并分页后可以完全按原文章的样子,你采集生成的页面同样有多少页!

    5、加入了内容标签循环采集功能

    通常一个页面采集时只采集第一次匹配成功的内容,比如对论坛来说定义好规则后只能采集到第一楼的内容,您可以定义循环采集次数n,来限定采集多少次匹配的内容,0为采集全部匹配内容,默认为1次。

    6、加入对来源网站和发表文章的目标系统的各种编码的支持

    7、网址倒排序发表功能

    8、完成系统自动探测地址,并实现对大文件的分块断点多线程下载 考虑到版权问题软件下载只到本地,不改连接,需要的PM我。

    9、加入了设置代理服务器采集的功能。

    10、由于用户可以根据自定义的标签对应修改提交的POST参数,相当于导入数据库指定表的功能,且不是对本地操作,因此该版本去掉了不甚完善的数据库导入功能。

    本采集器采用Visual C#编写,可以在Windows2003下运行,若在Windows2000,Xp下运行请先到微软官方下载一个.net framework1.1或更高环境组件:
    附:.net framework 1.1下载地址:http://www.microsoft.com/downloa ... p;displaylang=zh-cn

    2006-01-03 火车头采集器2006新年版[LocoySpiderV1.1.0]

    1、加入了使用Post参数或已有的Cookie登录后采集需要登录的网页的功能。
    2、加入了数据自定义配置数据连接导入Mysql的功能。
    3、针对有人不会使用正则的情况,本期再加入了两个替换规则。
    4、去掉了标题采集中忘记去掉的调试跳出窗口。
    5、修正了一些时候程序自动分析相对网址出错的情况。
    6、系统正在尝试改结构,自定义规则正在完善中,以后大家可以定义任意标签,排除和替换规则和选择采集内容还是连接,采集多页会在下期新版规则定义中推出。


    2005-12-13 火车头采集器[LocoySpiderV1.0.4版]


    1、加入了对PHPCMS2.3文章系统的支持。
    2、加入了对LeadBBS3.14论坛的支持。
    3、加入了对星雨动网CMS1.14文章系统的支持
    4、加入了对EpCms文章系统的友情支持。
    5、加入了用户自定义网址连接形式选项,可采集到因js调用系统不能自动识别的网址。
    6、单线程改为多线程采集标题,防止程序因网速问题假死。
    7、网址集合生成时可选择正/倒序排列、实现了树的可拖曳性。
    8、入库功能继续制作中,准备在下个版本中推出雏形。

    2005-12-04 LocoySpider网页内容采集器1.0.3正式版

    1、加入了对PHPWind4.01的支持。
    2、加了对采集的文章获取标题的功能
    3、加入了对文章内容进行替换的功能
    4、程序自动保存用户设置
    5、程序使用时的一些小提示
    6、采用手动提交cookie的方式修复dede等采用session方式登陆的系统有时不能登陆的问题
    7、某些系统对url大小写敏感时图片,flash下载出错的问题
    8、修正了水印图片功能
    9、去掉了下载图片flash后带的chinacnw_com的文件名
    10、数据入库功能连接设置预览。

    2005-11-25 LocoySpider网页内容采集器1.0.2 测试版

    1、加入了对图片进行批量文字,图片水印功能。
    2、加入了对Dvbbs7.1.0的支持。。
    3、修正了一些小错误。。

    2005-11-21 LocoySpider网页内容采集器1.0.1 预览版
    功能简介:
    1、多系统支持,现已加入对PHPWIND,DISCUZ,DEDECMS2.X和PHPArticle2.01的采集支持,若您的系统现在软件里没加入,请与我们联系,将在下期版本中加入网友要求最多的几套系统。
    2、模拟用户登录,和操作浏览器一样,但程序只处理核心数据,运行速度更快。
    3、可以设定是否将远程图片及Flash下载到本地(Flash文件一般较大,建议不下载,程序会将其自动获取到其绝对地址)。
    4、多线程,时间间隔设定 可以根据您的机器性能和网速或系统允许的文章发表时间设定
    5、较强大的网址采集功能,配合页面内定义区域采集、手动生成网址及采集二级页面功能基本上可采集到您所要的任何网址集合。
    6、内容规则定义有多条内容过滤规则,彻底过滤掉内容里的广告等无用内容。
    7、网址集合、内容规则导入、导出功能,方便网友共享采集到的内容。
    8、论坛支持Html和UBB发帖两种模式。


    自己去官方下:http://www.locoy.com
     
  2. shrek

    shrek New Member

    注册:
    2005-09-10
    帖子:
    2,990
    赞:
    17
    采集器,对于d4支持怎么样?
     
  3. shrek

    shrek New Member

    注册:
    2005-09-10
    帖子:
    2,990
    赞:
    17
    Discuz! info: Can not connect to MySQL server

    Time: 2006-2-7 1:47pm
    Script: /forum/index.php

    Error: Can't create TCP/IP socket (5)
    Errno.: 2004

    Similar error report has beed dispatched to administrator before.


    官方论坛连接不了
     
  4. xsgysxy

    xsgysxy New Member

    注册:
    2005-12-11
    帖子:
    71
    赞:
    0
    还是没有记忆功能呵呵 无法排除已采集过的信息
     
  5. xsgysxy

    xsgysxy New Member

    注册:
    2005-12-11
    帖子:
    71
    赞:
    0
    还是没有记忆功能呵呵 无法排除已采集过的信息
     
  6. causeIOU

    causeIOU New Member

    注册:
    2010-09-29
    帖子:
    118
    赞:
    0
    不会用呢,支持一下啦!