核心技术 | 功能特色 | |
搜索引擎是以中文信息处理技术与数据挖掘技术为核心技术,以智能检索、智能分析和智能处理为核心功能的产品,本公司产品基于如下核心技术模块: 智能处理 网络爬虫/Spider技术 自动分类 自动聚类 自动关键词提取 自动摘要 自动消重 信息指纹技术 自动索引、自动更新 自动正文抽取 智能检索 全文检索 拼音检索 网页快照 同义词检索 文件编码自动识别 分布式检索系统,不限节点 支持亿级数据检索 |
本公司搜索引擎产品主要由网络爬虫,索引器,分词器,查询器四部分模块组成,相对市场相关产品,本公司产品具有以下功能特色。 网络爬虫 支持广度与深度搜索算法 支持用户名与密码自动登录 验证码处理 图片及其它相关文件自动下载 索引器 索引形式与格式自定义 支持直接保存入数据库,自定义隐射关系 分词器 上百万精选词库 基于语义分析,词性、词频标注 人名、地名、单位名自动识别、未登录词识别 支持自定义词库 接口 提供查询、索引维护、应用开发接口 提供JAVA、ASP.NET、PHP、Perl多语言接口 其它特色 支持外部插件 |
标准版 | 专业版 | 大客户版 | |
网络爬虫 | √ | √ | √ |
网页块分析正文抽取 | √ | √ | √ |
用户定义分类 | √ | √ | √ |
网页非结构化信息抽取 | √ | √ | √ |
基于词库的中文切分词 | √ | √ | √ |
url和标题去重 | √ | √ | √ |
多语言,编码格式自动识别 | √ | √ | √ |
多数据库支持 | √ | √ | √ |
网页快照 | √ | √ | √ |
采集数据保存进用户数据库 | √ | √ | √ |
文件自动下载 | √ | √ | √ |
数据的自动二次加工 | √ | √ | √ |
自动登录 | √ | √ | √ |
同义词检索 | √ | √ | √ |
分布式支持 | √ | √ | |
自动正文抽取 | √ | √ | |
基于语义的中文切分词 | √ | √ | |
自动关键词提取,自动摘要 | √ | √ | |
信息指纹技术 | √ | √ | |
拼音检索 | √ | √ | |
自动分类 | √ | ||
报表与统计功能 | √ | ||
支持数据量 | 400万以内 | 千万级 | 亿级 |
升级服务 | √ | √ | √ |
补丁服务 | √ | √ | √ |
售后服务时间 | 5x8 | 7x8 | 7x24 |
技术支持 | 一年免费 | 一年免费 | 一年免费 |