首页 > 下载中心  > 网络工具  > 搜索工具  > 文件下载

SOPI垂直搜索引擎系统 V2.2.1

评价:
简介:
操作系统: Win9x/NT/Win2000/XP/2003
文件类型: 搜索引擎
授权方式: 共享(收费)软件
语        言: 简体中文
版        本:
整理日期: 2008-05-27
联系信息:
下载统计: 995次

SOPI垂直搜索引擎2.0是一个从信息采集到分析到索引的整套解决方案,让你也可以轻松拥有一个多功能垂直搜索引擎。可以针用于行业垂直信息进行搜索,网站搜索等各类应用。
SOPI垂直搜索引擎系统的应用特点
外网搜索引擎:众多内容型网站为了保持数据的最新,不得不花费大量的人力进行内容更新。 SOPI 系统可以锁定需要的网站,进行定时采集此网站的最新内容;可以节省大量的人力成本,而且可以保证信息的全面性,同时结合搜索技术在海量的信息库中快速找到需要的信息。
高应用扩展性,可以根据用户需求快速配置成为不同类型的垂直搜索引擎,如成为商机搜索、产品信息及其他各类需要的信息。只需普通技术人员便可以实现。
极少量的人工干预,系统管理员仅通过管理界面即可自动实现各类信息的搜索。大部分工作由系统自动完成。
自动生成对网站的配置,提高工作效率及降低工作难度,垂直搜索引擎对不同网站进行不同配置是必然的,本系统应用自动化技术将人工工作降到最低,将工作人员的技术要求降至最低。
可以从多个界而采集信息,系统进行自动合并,如从一个页面搜索产品信息,另一个网页搜索公司信息,将两个页面的内容自动合并。
站内搜索引擎:可以轻松将内部网站的内容进行索引,为企业提供企业知识管理,或为网站用户提供自身网站的搜索服务。
SOPI 搜索系统采用先进的索引机制,高效对全文进行索引及搜索,可以产生与百度和 GOOGLE 相同的准确结果,而且快速;
SOPI搜索引擎系统的技术特点
使用与GOOGLE相同的数据库系统Oralce Berkeley DB嵌入式数据库,千万级数据状况下操作数据仍保持在毫秒级,与使用ORACLE或SqlServer数据库性能提升数百倍。
系统结构的合理分离有利于分布式架构,适应未来大量的搜索工作,可以轻易在多服务器环境中进行应用。
各子系统相互独立,任一子系统的停止运行不影响其他系统,有效保证稳定性;
先进的文章及图片指纹技术,超低重复率。由于不同网站有大量重复信息,如果不能有效辨别文章是否存在将会有大量重复信息存在,图片一样会有大量重复存在。 SOPI 系统采用先进的文章和图片识别系统有效保障超低重复率;
对文章和图片的超强提取能力,系统可以在各种复杂的网页中提取标题正文和时间等参数,可以高智能的提取有用的信息,过虑无用信息;
高性能的分词组件,字典词库高质量,保证索引和搜索的准确性;
优秀的管理平台,可以方便管理进行信息采集的站点列表,及对下载的层级进行自定义;
可便捷对系统进行扩展,以满足不同的需求
SOPI垂直搜索引擎子系统
SpiderService
作用:通过此服务将需要搜索的网站中的信息下载到本地
存储关系:通过从存储系统中读取下载列表,将下载的信息保存至硬盘
运行方式:以WINDOW服务方式自动运行
人工干预度:不需干预
AnalyseService
作用:此服务将下载到本的信息进行分析,为SpiderService提供新的URL列表,同时根据配置对网页中的内容进行提取,如供求信息\\\\文章\\\\产品信息等
存储关系:将分析结果及新URL保存到数据库
运行方式:以WINDOW服务方式自动运行
人工干预度:不需干预
AutoMatchService
作用:此服务用来自动匹配字段信息,如根据网站中分析的地区信息\\\\行业分析信息等各类分类信息匹配成为系统需要的信息,如从网站获得的地区信息:浙江省>>杭州市>>将这一内容自动匹配为浙江省或杭州市,也可以根据企业名自动匹配地区信息,如:杭州市欧派信息技术有限公司匹配为杭州市
存储关系:根据数据库中的存储结果自动匹配为需要形式的结果
运行方式:以WINDOW服务方式自动运行
人工干预度:不需干预
IndexService
作用:此服务用来将完善的信息索引到索引库,提供外部进行搜索,通过索引库的建立可以向用户提供如类似BAIDU一样的搜索
存储关系:
运行方式:以WINDOW服务方式自动运行
人工干预度:不需干预
TokenizerService
作用:此服务用来向WEB提供分词服务,向用户BAIDU式搜索提供支持
存储关系:从数据库读取信息,转换成索引库中的内容
运行方式:以WINDOW服务方式自动运行
人工干预度:不需干预
管理WEB
作用:通过管理WEB可以实现需要的搜索及自定义的结果
存储关系:操作数据库及配置库
运行方式:WEB形式运行
人工干预度:人工干预
用户WEB
作用:向用户提供信息服务
存储关系:根据索引库进行搜索
运行方式:WEB形式运行
人工干预度:可以根据需要进行设计,以适应不同形式的需要
WEB管理主要功能
分析类型管理:定义分析类型
自动匹配管理:定义自动匹配分类及定义分类项
域搜索信息类型管理:定义域要搜索的信息类型(可自动生成表达式)

特别提示:
1、本站所有软件及资料皆从互联网收集整理而来,仅供个人试用、教学和学习交流之用,请勿用于商业目的。
2、如需购买正版软件,请向软件著作者或公司联系。
3、若有侵犯您的软件版权,请告知,以便我们修正和撤消。
下载地址:
本网站不再提供该文件下载
文件大小:11.58 M
首页 | 国际工业自动化 | 造车网 | 汉南国译 | 用户注册 | 下载中心 | 主题信息 | 免责声明 | 关于我们
北京市朝阳区广渠门外大街8号优士阁B座1703  电话: 010-58612588 传真: 010-58612665
Copyright ©1997-2025 blueai.net.cn All rights reserved