核心技术_北京政通智联

核心技术

表格识别
支持对表格形态文本进行识别，可精准识别表格结构及表格内文字，可进行表格线还原，针对特殊表格可优化识别效果

印刷体识别
支持对图像中印刷体文字信息进行内容识别并输出识别结果，支持繁/简体中文识别及中英文双语识别，识别准确率可达99%

手写体识别
经过海量手写文本训练，可对自由手写文字进行精准识别，优于人眼辨认效果

证件识别
支持对各类证件材料进行精准识别，可自动判断证件类型并直接输出证件结构化信息，可根据实际需求进行扩充识别

对扫描完的档案图像文件进行深度挖掘和智能分析，通过智能抽取、识别档案内容资源信息，实现图像的分类与聚类，可以自动分析出图像所属的业务类别，并将图像放在该类别下供用户查看。

特征提取

通过提取图像的各种特征，例如颜色、纹理、形状、空间位置等，来描述图像的内容和结构。常用的特征提取方法包括SIFT、HOG、SURF等。

特征匹配

将提取的图像特征与预训练的分类模型进行匹配，常用的分类模型包括卷积神经网络（CNN）、支持向量机（SVM）等。

分类预测

根据特征匹配的结果，通过分类模型进行预测，预测图像所属属于哪个或哪些类别。

结果输出

将分类预测的结果输出，可以是文本、图像标签等形式。

自动著录是指自动识别和提取文档中有价值的信息，并将其记录和保存。自动著录的实现通常需要使用机器学习和自然语言处理技术，对文档进行预处理、分析、抽取和填录。

自动分类编目
支持对批量文本材料进行自动切分成份，并对各份材料进行自动编目命名，实现文本材料精细化查阅

自动归目
支持对已编目文本材料自动归入既定目录结构中，目录结构支持自定义编辑，实现文本材料多级化管理

核心技术

基于深度学习和自然语言处理技术

提取类型

文书、卡证、名片、发票、凭证、财务报表、合同、论文、登记表格等

提取要素

题名、发文机构、人名、地址、时间、机构、金额、编号、标题、关键词、数字