山西招投标网http://www.sxbid.com.cn/
一.网站内容
1.网站截图说明
本教程通过“山西招投标网”官网来采集 链接列表(红框位置) 中正文的附件,链接入口为:http://www.sxbid.com.cn/
【官网-二手房】
2.采集结果预览
二.操作方法
1.新建任务
按图片数字所示,1-2-3完成新建任务的步骤
【新建任务】
①按照图示1位置,点击“采集配置”。
②按图示2位置,点击“任务列表”中的“+”。
③在新建采集任务中输入采集网址即http://www.sxbid.com.cn/,任务名称可自定义,本次可输入为“中国石头招标投标网”。
点击“下一步”,需要采集正文数据,所以此处需要勾选“网页内所有链接”和“抽取数据”。
2.链接抽取配置
①按照图示1位置,Ctrl+左键选中“链接列表”。
②按照图示2位置,点击“确认选区”,保证我们的数据是被选中的状态。
③按照图示3位置点击“采集预览”,查看数据详情,如下图所示:
3.数据抽取
抽取数据(红框位置)中的链接 务必对应“链接列表”内的正文数据,即附件页面地址。http://www.sxbid.com.cn/f/view-860ea5181ec54cd68435893df9254c02-1916cd9114ca48d4819b89c1da635597.html
4.配置表结构
如图示点击【数据建表】:
①点击“采集配置”。
②点击“数据建表”。
③点击“+”,新建表结构并自定义名称,这里取为“zhaobiao”。
根据所需内容,配置表结构字段,此处配置了包括主键、网页地址URL、标题、附件。表结构建立如下:
①主键字段:f_id
主键务必第一个创建,其含义为该表结构所属ID
A.采集内容:选择“主键”
B.数据类型:选择“长数字”
C.字段属性:选择 “索引字段”、“键值唯一”、“主键字段”。
②字段名称:url
A.采集内容:选择“网页信息”-“网页地址”。
B.数据类型:选择“字符串”。
C.高级类型:url地址。
③字段名称:name1
A.采集内容:选择“选区内可见文本”。
B.数据类型:选择“字符串”。
④字段名称:fujian
采集内容:选择“网页代码/图片等资料”-“数据流文件”。
5.关联数据表
表结构配置完毕后,需要进行数据关联,操作如下:
选择所需的表结构,点击【创建】按钮。创建表名称可随意填写,需注意开头仅可使用英文字母,可加数字。中文名称不能作为表名称。然后就可以采集数据了。
6.确认选区
操作如下图所示:
①字段:name1
A.按照图1位置,在左侧点击“name1”。
B.按照图2位置ctrl+左键选中文章标题。
C.最后点击“确认选区”即可。
②字段:fujian
A.按照图1位置,在左侧点击“fujian”。
B.在页面最低端会出现“附件下载”的位置即图2所示,ctrl+左键选中附件内容。
7.采集预览
在“新建模板:02”处右键选择“模板预览”,即可查看是否采集出所需数据,如下图: