项目背景
目前全世界的专利数据有4000-5000万,其中日本有近2000万,美国有1000多万,对于专利检索,不仅要求速度,而且对于查准率,查全率都有很高的要求,同时,专利检索的语法要求支持逻辑检索、布尔检索、概念检索等多种检索式,
例如:检索输入框里的检索的逻辑运算符有(not、and、or、()、””、)”word1 word2”表示word1 和word2是一个检索词,word1 和word2必须为相邻;
支持检索通配符 *( >=0个字符)、?( =1个字符),
支持后方截词?如:pric* 或 hel?
中间截词?如: exam*le 或 exa?mple 等等。
因此专利检索对于检索引擎的性能、功能要求都更高。
之前的专利数据都存放在Sql Server 2005里面,而且由于专利数据繁多,都是以国家、分类等方式建立了多个数据库,多个表,在多个机器中存放,要达到统一的检索目的,必须需要借助一个优秀的搜索引擎系统来实现。
不仅如此,项目对于软件提供商也提出了很严格的要求,包括产品规范,产品的稳定性,对于服务的响应要求时间,现场的技术支持等等,还设立了项目监理厂商,负责对项目的进度、质量进行监理和验收测试。
项目内容
经过对多家厂商,包括线点科技,以及国内其他知名厂商的搜索引擎、全文检索产品进行比较、测试、试用、验证后选择了线点科技的产品作为数据引擎中间件的软件提供商。
由于专利检索的检索式比较复杂,为了保障高效的检索效率,线点科技为此系统部署了近20个节点的分布式检索系统,平均每个节点负载200-250万数据,压力设计在并发100人以上,为达到性能的要求,系统共使用了1台web服务器,2台检索服务器(小型机),1台数据库服务器。
目前项目已经验收完成,并且通过了客户、监理方的验收。
线点科技的产品由于在一期项目中的优异表现,将继续作为二期项目的唯一搜索引擎系统提供商。