支持多种文件存储模式,包括数据库,网络路径,
FTP服务器,HDFS等分布式文件存储协议 |
可解析文档超过二百种,除了HTML、Htm、Txt,Word、Excle、Ppt、Pdf,OFD
等常见的文本型文件外,还包括JPEG、BMP、GIF、TIFF、PCX、AVI、WAV 等二十多种图像声音动画格式。 |
集成图像OCR 技术,可识别图片中的文字,表格,标签等等,
汉字识别率超过98%。 |
提供文本/图片自动分类聚类,自动提取关键词和摘要,命名实体识别,
文本去重及相似度计算等多种语义搜索技术。 |