第一章采集配置

2.3.2 新闻、博客

新闻正文中的图片,一般位置和数量都不固定,采集这样的图片,需要建立两张表,通过正文的id进行关联,用正文表的主键id作为图片表的外键。

注意:图片和文字内容不能放到同一个csv中,这个时候需要单独导出,可以在建立表单的时候建立一个字段,使文字内容和图片相对应。

正文表:

序号 字段 取值类型 变量类型 字段属性 字段长度 扩展主类型 扩展子类型 字段描述
1 News_id 网页主键 Long 索引字段;键值唯一;主键字段 0 NONE NONE 主键字段
2 author 选区内全部文本 String 64 NONE NONE 作者
3 get_web 频道名称 String 64 NONE NONE 采集来源名称
4 get_time 网页获取时间 Long 0 时间 日期时间 采集时间
5 title 选区内全部文本 Sting 64 NONE NONE 标题
6 news_time 选区内全部文本 Sting 30 NONE NONE 文章发表内容
7 content 选区内全部文本 Sting 0 文本 小量文本(64k) 正文内容
8 url 网页地址 Sting 255 NONE NONE 文章url地址

图片表:

序号 字段 取值类型 变量类型 字段属性 字段长度 扩展主类型 扩展子类型 字段描述
1 hkey (空) Long 索引字段;键值唯一;主键字段;自动字段 0 NONE NONE 图片的主键
2 news_id 网页主键 Long 0 NONE NONE 图片所在文章的主键
3 pic 原始数据流 Stream 0 图片 NONE 图片数据