论坛有人反映帝国CMS的采集功能有近十年没更新了,所以团队对论坛遇到较多的问题进行整理,在帝国CMS7.5版对采集功能进行部分升级,使采集更灵活。
帝国CMS7.5版采集功能升级,更灵活:
1、采集替换字符设置 新增支持自定义字段。
2、采集广告过滤设置 新增支持自定义字段。
3、采集验证字段内容为空不采集 新增支持自定义字段设置,并且支持多个字段同时验证。
4、采集内容分页支持自动识别https地址。
5、采集增加入库时间间隔设置,对于要远程保存附件时,可防止过度采集被封。
6、管理采集节点页面和执行采集页面均增加“数据更新中心”快捷链接,方便采集入库后刷新生成当天内容页面。
7、单个采集执行也采用弹窗方式,方便采集过程中执行其它操作,更人性化。
8、帝国CMS7.5版将PHP超时时间设置前台、后台分离,方便单独对后台超时时间改大,防止执行或采集过程中PHP超时导致中断。
其它说明:
1、另外一个论坛反映的:关于GBK版采集其它编码的网页,转码时有时候遇特殊字符会出现转码不完整问题。因暂时没有找到好的通用转换组件能100%转码GBK成功,对于经常使用采集转码的用户,推荐用UTF8编码版程序,其它编码转UTF8一般不会出现特殊字转不了编码问题,毕竟UTF8为国际通用编码。
2、采集https的页面,需要PHP开启php_openssl.dll组件才可以采集https的网页。