熊猫采集软件帮助系统目录列表 帮助目录 词典
 • 一、项目设置
 • 基础设置
  1. 项目名称
  2. 项目位置
  3. 所属类别
  4. 网站编码
  5. 项目备注
  6. 参与下载的线程数量
  7. 页面访问间隔毫秒数
  8. 数据存入已有的数据库表内
  9. 自动生成当前项目的数据库表单
  10. 直接存入本机文件内(text/Excel)
  11. 临时缓存,并自动发布到网站
  12. 模拟登录(设置cookie)
  13. 登陆页面url
  14. 模拟登录的cookie值代码
  15. Cookie的来源
  16. 启用定期更新功能
  17. 完全覆盖已有数据
  18. 检查补充新增的内容
  19. 不处理,废弃新数据
 • 数据库设置
  1. 数据库类别:ACCESS
  2. 数据库类别:SQL Server(MS SQL)
  3. 数据库类别:MY SQL
  4. 数据库类别:Oracle
  5. 选择ACCESS数据库文件
  6. 数据库IP
  7. (数据库)库名称
  8. 数据库登录用户名
  9. 数据库登录密码
  10. 主表(父表)
  11. 选择主表主键
  12. 启用子表
  13. 指向父表主键的字段
  14. 子表列表
  15. 确认入选的子表集合
 • 文件下载及FTP上传设置
  1. 图片类文件的存储目录
  2. flash动画文件的存储目录
  3. 其它类文件的存储目录
  4. 将下载的文件同步上传到服务器
  5. FTP服务器IP(FTP设置)
  6. FTP用户名
  7. FTP登录密码
  8. FTP端口
  9. FTP被动模式
  10. 默认FTP根目录
  11. 直接存储在默认FTP根目录下
  12. 由系统自动生文件上传目录
  13. 人工指定文件上传目录
  14. FTP图片类文件的目录名称
  15. FTPflash文件的目录名称
  16. FTP其它类文件的目录名称
 • 标题列表页设置
  1. (标题)列表页起始网址
  2. 指定列表页的访问方式:get
  3. 指定列表页的访问方式:post
  4. 直接指定翻页的链接
  5. 直接指定翻页的链接的列表
  6. 标题列表页面翻页访问时的最大页数
  7. 更新访问时该翻页访问的最大页数
  8. 自定义翻页参数的设置
  9. 自定义翻页参数的列表
  10. (翻页参数的)参数名称
  11. (翻页参数的)自动动态取值
  12. 数值增减
  13. 初始值
  14. 目标值
  15. 更新运行时的目标值
  16. 值变化步长
  17. 字符串长度补缺的位数
  18. 参数值列表
  19. 恒定值(常量)
 • 列表页引导设置
  1. 直接指定内容页面
  2. 普通模式
  3. 内容页面的名称或关键字符
  4. 中介方式
  5. 网页源码中出现地址参数关键值的源代码
  6. (中介方式)内容页面地址
 • 内容页面的设置
  1. 内容页模板种类列表
  2. 内容页面的参考模板Url

 • 二、项目高级设置:
 • 综合
  1. 使用动态cookie
  2. 详尽输出日志
 • 文件下载
  1. 限定后缀名
  2. 排除后缀名
  3. 无后缀名的文件不下载
 • 页面解析
  1. 依据冒号进行分段
  2. 依据斜杠对数值进行分段
  3. 对日期字符串的前后进行修剪
  4. 图片实际地址的转换
 • 采集匹配
  1. 中介模式下区分网页代码的大小写
  2. 严格限制数据库父子表的逻辑关系
  3. 不进行纠错操作
  4. 不采集复合语句内的隐藏内容
  5. 自动检查并优先使用最合适的模板
  6. 过滤掉单个采集对象所属的某单一子表下的重复采集内容
 • 代理访问 (暂无)
 • 三、内容页面模板的学习定制:
 • 网页的解析
  1. 用于学习的内容页面的典型模板的url
  2. 当前模板页面的网页编码
  3. 模板页面内容的分解与指定
  4. 网页元素的类型
  5. 网页元素的链接属性
  6. 前缀标题字符的确认
  7. 网页元素属性:时间格式
  8. 网页元素属性:整数
  9. 网页元素属性:浮点数
  10. 网页元素属性:邮箱
 • 入选采集 (入选为采集对象,选择数据库表的对应字段(或者下载文件))
  1. 存入数据库表
  2. 数据库"表"列表
  3. 字段名列表
  4. 为多语句/或段落
  5. 下载该文件
  6. 下载当前文件
  7. 下载链接指向的文件
  8. (下载文件)存储在本地目录
  9. (下载文件)默认目录
  10. (下载文件)默认目录列表
  11. (下载文件)FTP上传到服务器指定目录
  12. (下载文件)FTP上传到服务器指定目录列表
  13. (下载文件)使用第三方软件下载该文件
  14. (下载文件)使用第三方下载软件的列表
 • 采集选项
  1. 该项必须命中
  2. 比对内容的CSS
  3. 比对标题的CSS
  4. 自动重命名下载文件名
  5. 结果内容保留CSS属性
  6. 不采集内含的隐藏内容
  7. 对该项进行分页归并
 • 采集选项-对字段采集结果的修缮
  1. 当前字段的原文
  2. 修缮方法的列表
  3. 修缮的位置:字段全部
  4. 修缮的位置:字段头部
  5. 修缮的位置:字段尾部
  6. 修缮的方式:删除
  7. 修缮的方式:添加
  8. 修缮的方式:修改替换
  9. 修缮的方式:近义词替换(伪原创)
  10. 修缮的方式:时间提前
  11. 区分大小写
  12. 原内容(支持正则表达式)
  13. 新内容

 • 分页访问与合并 (该链接为指向“当前页的分页”的链接)
  1. 更新访问时该分页访问的最大深度页

 • 下级子页面 (该链接为指向“下级子页面”的链接(直接或间接链接))
  1. 该子页面(在当前页面内)具有多个重复并列子项
  2. 该下级页面必须有命中
  3. (指向具有重复子项的下级页面)高级设定
  4. (指向具有重复子项的下级页面)重定范围
  5. 子页面的多模板列表
  6. 新增子模板页面的url网址

 • 添加中介链接 (利用中介方式添加新的链接指向)
  1. 包含地址参数关键值的代码
  2. 内容页面地址

 • 四、项目的运行与管理:
 • 新建项目前的必要准备
  1. 明确需要采集什么内容,从哪儿采。
  2. 明确采集的结果数据需要存储在哪儿,用什么存储。
  3. 熟悉被采集网站的逻辑架构,找到标题列表页面内容页面。
 • 开始新建采集项目
  1. 点击软件主界面菜单:“项目管理”-“新建项目”,新建一个采集项目。并依次设置
  2. 项目基础设置(新手指引)(少数项目在此处需要打开设置界面下方的“高级设置”对话框。配置高级属性,新手略)
  3. 数据库设置(新手指引)
  4. 文件下载(新手指引)设置(默认情况下不用设置此项)
  5. 设置标题列表页页面(新手指引)翻页的方式和方法
  6. 设置标题列表页面向内容页面(新手指引)过度方式和方法
  7. 设置极速飞艇技巧,配置需要采集的网页内容。并在内容页面模板管理(新手指引)窗口对定义的内容页面模板进行管理。
  8. 保存设置。完成采集项目的配置。
 • 试运行采集项目
  1. 在软件主界面左侧项目列表中点选刚才新设置的项目。
  2. 勾选软件主界面右侧的“试运行”复选按钮。
  3. 点击“立即运行”项目按钮(“试运行”复选按钮上方),开始试运行当前项目
  4. 查看运行结果数据,据此判断项目的设置是否是您想要的结果。
  5. 如果需要调整该项目的采集设置,请在软件主界面左侧的项目列表框内双击该项目,打开修改窗口。
  6. 再试运行无误后,可以开始执行采集运行。
 • 交通运输业、除去货运、客运也都是人满为患吃大锅饭的状态。裁员也会是惊人的。所以中国劳动力不是太少、而是都不仅在位置上。国有企事业单位冗员严重。数量惊人。 2019-04-25
 • 我写文章不是为了别人的赞许,是为了讨论问题,让人有思考的价值,就像你网名一样,探寻真理。我并非就全盘赞成市场经济,只是在讨论它的合理性,在文中也提问,“既然我们 2019-04-25
 • 给员工放“世界杯假”,靠谱吗?--旅游频道 2019-04-25
 • 北京:积分落户申报结束  12.4万人申报 2019-04-25
 • 西气东输一线山西段开展应急演练 2019-04-24
 • 世界杯带火巴西家居产业 2019-04-24
 • 沃尔沃XC60S90将换新2.0T发动机动力提升 2019-04-23
 • 港珠澳大桥跨境私家车澳门配额接受申请 2019-04-23
 • 夏季如何远离“空调病”? 2019-04-22
 • 端午视听盛宴:交响演绎戏曲 2019-04-22
 • 满满的都是屏 OPPO妹子最爱手机曝光 2019-04-22
 • 重拳出击 前5月全省抓获涉赌人员1.8万余名 2019-04-21
 • 泽州去年“免费教育”资金达5211万元 2019-04-21
 • 你才是“蠢货”!土地是自然存在的地球的一部分,并不是人类劳动成果,哪来价值?土地不是劳动成果,没有价值,正如空气和阳光不是劳动成果,没有价值一样。懂吗... 2019-04-21
 • 阶级不是“等级差别”,而是私有制基础上剥削和被剥削两大社会集团。 2019-04-21
 • 858| 109| 453| 711| 140| 91| 831| 758| 905| 890|