浅谈垂直搜索引擎的工作原理
作者: 胡永锋摘 要:垂直搜索引擎依据专业领域主题定制策略,可以仅提取与主题相关的信息,大大提高了查询效率,为用户提供更迅速的查询服务。
关键词:垂直搜索引擎; 工作原理
中图分类号:TP393.09 文献标识码:A 文章编号:1006-3315(2011)6-171-001
当今世界网络已经延伸到人类社会的大部分角落,人们的日常工作和生活已经很难离开网络。随着互联网技术的发展和网络信息爆炸式的增加,人们越来越多地关注如何快速而有效地从海量的网络信息中查找所需的有价值信息。当前人们在互联网上查找各种信息的时候都需要依仗搜索引擎,然而传统的搜索引擎在很多地方已经很难满足用户的检索需求,所以垂直搜索引擎应运而生。它基于传统的搜索引擎技术,同时加入了最新的网络技术、人工智能、数据库技术等多种新兴技术,具有很高的实用价值。
通用搜索引擎在应用方面存在着许多问题,首先是其检索功能比较单一,信息加工深度不够,这使得信息查询的查准率不高,用户很难找到自己满意的资料。高精确检索方式不足,不易处理多词和限定词检索;其次,通用搜索引擎对动态网页的处理技术还不够成熟,其搜索对象主要是文本格式网页,无法有效提取信息量较大的动态网页以及多媒体信息资源;最后,通用搜索引擎综合性比较强,它收录各学科和各行业的信息,由于信息量过大,因此很难在某一专业方面做到全、快、精、准。
垂直搜索引擎只针对某一特定主题进行搜索,依据预先已定义好的主题选择性地收集相关的网页。这样大大降低了网上收集信息的难度,从而提高了信息处理的质量。由于只收学科领域单一、信息量相对较少,可采用专家分类标引的方法对搜集到的网页信息进行处理,建立起质量高、专业信息全、实时更新快的索引数据库;垂直搜索引擎只涉及一个或几个领域,可以利用专业词表对语料词汇进行规范和控制,从而提高查全率和查准率。
垂直搜索引擎系统利用网络爬虫对网页有效信息进行提取,建立网页数据库,对网页数据进行分析并建立与管理索引数据库,通过查询服务模块同用户进行信息交互,为用户提供垂直搜索服务,垂直搜索引擎工作原理框架如图所示
有效网页→对网页进行分析建立索引数据库→根据用户提交的搜索信息在索引数据库中进行搜索→对搜索结果进行处理、排序并显示。
按照系统的工作流程和功能,可以对系统进行细化,系统主要分为网页采集模块、索引模块、用户搜索功能模块、用户管理功能模块以及数据库管理功能模块。垂直搜索引擎基本功能框架如下图所示
(1)网页采集模块
网页自动采集之前首先要对采集页面进行相应的设置,主题网络蜘蛛通过URL来查找网页的,采用多线程的方式从某一个具有主题意义的页面开始,采集网页的信息,抽取网页的内容并存储网页信息,然后找到在网页中的其它链接地址,通过这些链接地址寻找下一个网页,就这样循环,直到将相关网站所有的网页都抓取完为止。
(2)索引模块
该模块主要是对网页采集到的信息进行分析,过滤掉脚本标示符和一些无用处的信息,利用分词处理技术对文本进行信息处理,参照字典文件对网页中的词进行识别,并分配唯一的wordID号,根据相应的规则放入索引数据库,为数据库中的索引模块服务。
(3)检索模块
搜索引擎用户利用接口程序向垂直搜索引擎提交查询请求,请求包括搜索关键字、排序方式等,系统根据用户输入的关键字或句子进行信息分析,然后提交给检索程序在索引数据库中查找包含该词的文本,同时根据相似度或用户的个性化需求进行排序并呈现给用户。
(4)数据管理
该模块是对垂直搜索引擎的数据库进行管理,根据网页采集的信息及时进行更新,检索模块通过完善的数据库可以为用户及时准确的查找所需信息。定期对数据库进行备份,防止数据丢失后无法恢复。
(5)用户管理
管理用户的基本信息并进行维护,对用户权限进行相应的配置管理,收集应对用户的不同需求。如管理员将需要对系统进行管理,配置适当的主题爬虫参数,对数据库进行更新,而普通用户只需要对数据库进行检索,获取适当的信息即可。
垂直搜索引擎依据专业领域主题定制策略,可以仅提取与主题相关的信息,大大提高了查询效率,为用户提供更迅速的查询服务。它通常能在几天内甚至数小时内完成专业领域的信息采集信息的更新。与通用搜索引擎相比,垂直搜索引擎能够提供更加专业化的信息。垂直搜索引擎具有领域化的信息采集策略,高相关度的反馈结果,数据信息的快速更新等传统搜索引擎所不具备的优点。因此,垂直搜索引擎将受到越来越多用户的欢迎。
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文
本文为全文原貌 未安装PDF浏览器用户请先下载安装
原版页码:171原版全文