数据化服务_北京政通智联

▎概念综述

高识别率、高准确率的档案数字化图像是构建高质量档案数据化成果的基础，而高质量的档案数据化成果又是“AI+档案应用”的基石。

综合运用档案大语言模型、语音识别、图像识别、人脸识别、NLP等AI技术，对文档和多媒体档案数据进行挖掘和提取，实现档案数据化。

高质量的数字化加工成果输入档案数据化处理平台后，通过NLP技术从大量的非结构化文本数据中自动抽取出结构化的知识和信息，知识抽取主要包括实体识别、关系抽取、事件抽取、情感分析、知识消歧等。

对于照片、视频、音频等多媒体文件进入档案数据库后，传统检索功能只能通过标题、元数据及其他人工著录的信息检索，却无法检索多媒体档案内容信息。随着AI技术的发展，多媒体档案内容数据检索与利用已成为可能。

1. 图片类数据化

图片类数据化流程包括对图片内容分类、图片标注、知识抽取、图片索引等，以形成计算机可读和处理的数据。

2. 视频类数据化

视频类数据化与图片类数据化的实现步骤基本一致，但首先需要将视频逐帧分解为图片后再进行数据化操作。

3. 音频类数据化

音频数据化主要是将音频转换为文字，通过文字的全文检索进而实现音频内容的检索功能。

▎OCR能力简述

文字识别服务 (Optical Character Recognition) 依托最新的人工智能识别技术，提供了多种场景下整图文字检测、定位、识别等功能。OCR识别可以用于印刷文字、手写文字、复杂票据、复杂表格、身份证、银行卡等代替用户输入的多种场景。

微信图片_20230721155430.png

微信截图_20230717173754.png

▎高精度文本校对

▎数据化应用

图片.jpg