凤凰网(http://tech.ifeng.com/)
一.网站内容
1.网站截图说明
2.采集结果截图
二.操作方法
1.新建任务
①点击【采集配置】-【任务列表】中的“+”,新建采集任务。
②采集地址中输入需要采集的网页地址。
采集列表链接,所以此处需要勾选【抽取链接】-【网页所有链接】。
2.链接抽取配置
选择地址过滤,过滤方式为普通过滤,过滤规则为包含“/c/7”,过滤出需要的链接,最后点击右上角的【采集预览】查看是有内容。
3.采集预览
4.数据抽取
采集正文数据需要进入详情页面。
①在模板抽取配置中,右键选择添加模板,或点击第一个按钮添加。
②在新模板右键添加数据抽取,或点击第三个按钮添加。
③模板属性配置要勾选数据抽取并填写数据抽取示例地址。
5.配置表结构
如图示点击【采集配置】-【数据建表】,【采集表结构】“+”按钮,新建表结构,可以自定义名称。
根据所需内容,配置表结构字段,此处配置了包括主键、文章标题、作者、发布时间、文章内容。表结构建立如下:
【hkey字段】
【title字段】
【author字段】
【get_time字段】
【content字段】
6.关联数据表
表结构配置完毕后,需要进行数据关联,操作如下:
选择所需的表结构,点击【创建】按钮。创建表名称可随意填写,需注意开头仅可使用英文字母,可加数字。中文名称不能作为表名称。
7.模板预览
通过采集预览,可以了解是否能够正确地采集到所需数据。右键选择【链接列表】-【模板预览】,可以单独预览某个模板的数据。