光学字符识别
Ocr字符识别是指光学字符识别技术。
OCR全称是光学字符识别,是目前最常用、最高效的文本扫描技术。它可以识别和提取图片或PDF中的文本内容,输出文本文档,方便地验证用户信息,或者直接编辑内容。
典型的OCR技术路线分为五大步骤,即输入、图像处理、文本检测、文本识别、输出。每一个流程都需要算法的深度配合,所以从技术底层,从图片到文字输出,都要经过一些流程。
Ocr技术流程
图像输入,读取不同图像格式的文件。
图像预处理主要包括图像二值化、去噪、倾斜校正等。
版面分析,把文档图片分成段落和线条。
字符切割,处理单纯因为字符粘连、断笔而难以切割字符的问题。
字符特征提取,从字符图像中提取多维特征。
字符识别:对当前字符提取的特征向量和特征模板库进行模板粗分类和模板精匹配,识别字符。
页面恢复:对原文档的排版进行识别,并将识别结果按照原排版格式输出到文本文档中。
后处理校正,根据特定语言语境的关系对识别结果进行校正。