核心技术
  • OCR识别

  • 图像自动分类

  • 自动著录

  • 公文要素提取


表格识别
支持对表格形态文本进行识别,可精准识别表格结构及表格内文字,可进行表格线还原,针对特殊表格可优化识别效果

印刷体识别
支持对图像中印刷体文字信息进行内容识别并输出识别结果,支持繁/简体中文识别及中英文双语识别,识别准确率可达99%


手写体识别
经过海量手写文本训练,可对自由手写文字进行精准识别,优于人眼辨认效果


证件识别
支持对各类证件材料进行精准识别,可自动判断证件类型并直接输出证件结构化信息,可根据实际需求进行扩充识别


       对扫描完的档案图像文件进行深度挖掘和智能分析,通过智能抽取、识别档案内容资源信 息,实现图像的分类与聚类,可以自动分析出图像所属的业务类别,并将图像放在该类别下供用户查看。


特征提取

通过提取图像的各种特征,例如颜色、纹理、形状、空间位置等,来描述图像的内容和结构。常用的特征提取方法包括SIFT、HOG、SURF等。


特征匹配

将提取的图像特征与预训练的分类模型进行匹配,常用的分类模型包括卷积神经网络(CNN)、支持向量机(SVM)等。


分类预测

根据特征匹配的结果,通过分类模型进行预测,预测图像所属属于哪个或哪些类别。


结果输出

将分类预测的结果输出,可以是文本、图像标签等形式。




       自动著录是指自动识别和提取文档中有价值的信息,并将其记录和保存。自动著录的实现通常需要使用机器学习和自然语言处理技术,对文档进行预处理、分析、抽取和填录。


自动分类编目
支持对批量文本材料进行自动切分成份,并对各份材料进行自动编目命名,实现文本材料精细化查阅

自动归目
支持对已编目文本材料自动归入既定目录结构中,目录结构支持自定义编辑,实现文本材料多级化管理



核心技术

基于深度学习和自然语言处理技术


提取类型

文书、卡证、名片、发票、凭证、财务报表、合同、论文、登记表格等


提取要素

题名、发文机构、人名、地址、时间、机构、金额、编号、标题、关键词、数字

技术证书