ForeSpider新闻、博客

新闻、博客

新闻正文中的图片,一般位置和数量都不固定,采集这样的图片,需要建立两张表,通过正文的id进行关联,用正文表的主键id作为图片表的外键。

正文表:

序号 字段名 取值类型 变量类型 字段属性 字段长度 扩展主类型 扩展子类型 字段描述
1 News_id 网页主键 Long 索引字段;键值唯一;主键字段 0 NONE NONE 主键字段
2 author 选区内全部文本 String 64 NONE NONE 作者
3 get_web 频道名称 String 64 NONE NONE 采集来源名称
4 get_time 网页获取时间 Long 0 NONE NONE 采集时间
5 title 选区内全部文本 String 64 NONE NONE 标题
6 news_time 选区内全部文本 String 30 NONE NONE 文章发表内容
7 content 选区内全部文本 String 0 文本 小量文本(<64k) 正文内容
8 url 网页地址 String 255 NONE NONE 文章url地址

图片表:

序号 字段名 取值类型 变量类型 字段属性 字段长度 扩展主类型 扩展子类型 字段描述
1 hkey (空) Long 索引字段;键值唯一;主键字段;自动字段 0 NONE NONE 图片的主键
2 news_id 网页主键 Long 0 NONE NONE 图片所在文章的主键
3 pic 原始数据流 Stream 0 图片 NONE 图片数据