支持多种文件存储模式,包括数据库,网络路径, 
                  FTP服务器,HDFS等分布式文件存储协议  | 
              
可解析文档超过二百种,除了HTML、Htm、Txt,Word、Excle、Ppt、Pdf,OFD  
                  等常见的文本型文件外,还包括JPEG、BMP、GIF、TIFF、PCX、AVI、WAV 等二十多种图像声音动画格式。  | 
              
集成图像OCR 技术,可识别图片中的文字,表格,标签等等, 
                  汉字识别率超过98%。  | 
              
提供文本/图片自动分类聚类,自动提取关键词和摘要,命名实体识别, 
                  文本去重及相似度计算等多种语义搜索技术。  |