搜索引擎检索系统

针对某大型互联网公司需求,对现有检索系统进行信息检索查询词的权重与紧密度优化:

①利用中文分词技术,对系统提交的查询词进行切分成关键词,同时借助强大的爬虫技术获取大量的中文词库及机器学习样本,构建权重学习系统。

②通过机器学习的方式,对每一关键词的权重及与检索结果相关性进行初始化标定,并构建用户人工标定及管理系统,对关键词实现人工管理。

③通过一定的rank算法给出检索的结果集排序,设计rank算法及迭代算法与在线系统关联,实时处理检索请求,并记录日志。

④构建迭代系统,通过机器分析用户实际检索的日志优化相关结果。