https://so.gushiwen.org/search.aspx?value=%E7%9B%B8%E6%80%9D
一.网站内容
1.网站截图说明
本教程通过“古诗文网”官网来采集所需“关键词”的正文数据,本教程以关键词“相思”为例,故链接入口为: https://so.gushiwen.org/search.aspx?value=%E7%9B%B8%E6%80%9D
在官网输入关键词“相思”:
2.采集结果截图
二.操作方法
1.新建任务
①点击【采集配置】-【任务列表】中的“+”,新建采集任务。
②采集地址中输入需要采集的网页地址。
③勾选“关键词采集”,此步骤不可省略否则无法获取我们所需的数据,完成后点击“下一步”。
同时采集正文数据和列表链接,所以此处需要勾选【抽取链接】-【网页所有链接】、【抽取数据】,点击完成即可。
2.关键词配置
①选择【模板抽取配置】-【古诗文网】。
②在【关键词配置步骤】-点击关键词-Ctrl+左键“关键词输入框”,点击完成。
③一般情况就配置完毕了,可以采集预览看是否成功。如果有些网站仍然没有结果,需要在【高级设置】中配置关键词参数。
④配置完成,在关键词列表中输入“相思”。
注:在操作过程中可以随时点击“保存”,随时保存进度。
3.链接抽取
①点击【模板抽取配置-【链接抽取:网页全部链接】。
②选择【地址过滤】-过滤方式为“普通过滤”,过滤规则选择“包含”,过滤词为“value”。
③配置完成后点击保存。
4.数据建表
①选择【采集配置】-【数据建表】。
②在【采集表结构】选择“+”,新建表结构并自定义名称,这里取“古诗文”
根据所需内容,配置表结构字段,此处配置了包括主键、诗词标题、诗句、作者。表结构建立如下:
字段名称:id
A.采集内容:选择“主键”,此处选“网页主键”。
B.数据类型:选择“长数字”。
C.字段属性:选择“索引字段”、“键值唯一”、“主键字段”。
字段名称:title
A.采集内容:选择“选区内可见文本”。
B.数据类型:选择“字符串”。
C.数据长度:30。
字段名称:author
A.采集内容:选择“选区内可见文本”。
B.数据类型:选择“字符串”。
C.数据长度:10。
字段名称:content
A.采集内容:选择“选区内可见文本”。
B.数据类型:选择“字符串”。
C.数据长度:10。
5.关联数据表
①选择新建的“古诗文”,点击【关联数据表】-【创建】按钮。
②选择所需的表结构,点击【创建】按钮。创建表名称可随意填写,需注意开头仅可使用英文字母,可加数字。中文名称不能作为表名称。
③创建完成后勾选数据表关联完成。
6.字段配置
选择【古诗文】,在【数据属性配置】中关联数据表结构“古诗文”。
①title字段:
A.点击左侧【数据抽取】-“title”字段。
B.Ctrl+左键选择该字段对应的区域。
C.点击“确认选区”即可完成。
②Author字段:
A.点击左侧【数据抽取】-“author”字段。
B.Ctrl+左键选择该字段对应的区域。
C.点击“确认选区”即可完成。
③content字段:
A.点击左侧【数据抽取】-“content”字段。
B.Ctrl+左键选择该字段对应的区域。
C.点击“确认选区”即可完成。
5.采集预览
选择右上角【采集预览】即可查看数据采集情况。