▎概念综述
AI+档案数据化
高识别率、高准确率的档案数字化图像是构建高质量档案数据化成果的基础,而高质量的档案数据化成果又是“AI+档案应用”的基石。
综合运用档案大语言模型、语音识别、图像识别、人脸识别、NLP等AI技术,对文档和多媒体档案数据进行挖掘和提取,实现档案数据化。
AI+文本类数据化
高质量的数字化加工成果输入档案数据化处理平台后,通过NLP技术从大量的非结构化文本数据中自动抽取出结构化的知识和信息,知识抽取主要包括实体识别、关系抽取、事件抽取、情感分析、知识消歧等。
AI+声像类数据化
对于照片、视频、音频等多媒体文件进入档案数据库后,传统检索功能只能通过标题、元数据及其他人工著录的信息检索,却无法检索多媒体档案内容信息。随着AI技术的发展,多媒体档案内容数据检索与利用已成为可能。
1. 图片类数据化
图片类数据化流程包括对图片内容分类、图片标注、知识抽取、图片索引等,以形成计算机可读和处理的数据。
2. 视频类数据化
视频类数据化与图片类数据化的实现步骤基本一致,但首先需要将视频逐帧分解为图片后再进行数据化操作。
3. 音频类数据化
音频数据化主要是将音频转换为文字,通过文字的全文检索进而实现音频内容的检索功能。
▎OCR能力简述
文字识别服务 (Optical Character Recognition) 依托最新的人工智能识别技术,提供了多种场景下整图文字检测、定位、识别等功能。OCR识别可以用于印刷文字、手写文字、复杂票据、复杂表格、身份证、银行卡等代替用户输入的多种场景。
▎高精度文本校对
▎数据化应用