表格识别
支持对表格形态文本进行识别,可精准识别表格结构及表格内文字,可进行表格线还原,针对特殊表格可优化识别效果
印刷体识别
支持对图像中印刷体文字信息进行内容识别并输出识别结果,支持繁/简体中文识别及中英文双语识别,识别准确率可达99%
手写体识别
经过海量手写文本训练,可对自由手写文字进行精准识别,优于人眼辨认效果
证件识别
支持对各类证件材料进行精准识别,可自动判断证件类型并直接输出证件结构化信息,可根据实际需求进行扩充识别
对扫描完的档案图像文件进行深度挖掘和智能分析,通过智能抽取、识别档案内容资源信 息,实现图像的分类与聚类,可以自动分析出图像所属的业务类别,并将图像放在该类别下供用户查看。
特征提取
通过提取图像的各种特征,例如颜色、纹理、形状、空间位置等,来描述图像的内容和结构。常用的特征提取方法包括SIFT、HOG、SURF等。
特征匹配
将提取的图像特征与预训练的分类模型进行匹配,常用的分类模型包括卷积神经网络(CNN)、支持向量机(SVM)等。
分类预测
根据特征匹配的结果,通过分类模型进行预测,预测图像所属属于哪个或哪些类别。
结果输出
将分类预测的结果输出,可以是文本、图像标签等形式。
自动著录是指自动识别和提取文档中有价值的信息,并将其记录和保存。自动著录的实现通常需要使用机器学习和自然语言处理技术,对文档进行预处理、分析、抽取和填录。
自动分类编目
支持对批量文本材料进行自动切分成份,并对各份材料进行自动编目命名,实现文本材料精细化查阅
自动归目
支持对已编目文本材料自动归入既定目录结构中,目录结构支持自定义编辑,实现文本材料多级化管理
核心技术
基于深度学习和自然语言处理技术
提取类型
文书、卡证、名片、发票、凭证、财务报表、合同、论文、登记表格等
提取要素
题名、发文机构、人名、地址、时间、机构、金额、编号、标题、关键词、数字