图像识别原理简介——以车牌识别为例

本文由简悦 SimpRead 转码，原文地址 zhuanlan.zhihu.com

一般来说，进行车牌识别的理论基础是图像分割和图像识别理论：首先对含有车辆号牌的图像进行分析处理，从而确定牌照在图像中的位置，并把牌照区域提取出来，再进一步识别上面的文本字符。车牌识别过程包括图像采集、预处理、车牌定位、字符分割、字符识别、结果输出等一系列算法运算，其运行流程如下图所示:

一、图像采集

图像采集方式分为静态与动态两种：静态采集依靠地感线圈、红外或雷达等装置，当有车辆通过时这些装置时相机会接到一个触发信号，从而立刻抓拍一张图像，该方法的优点是触发率高，性能稳定，缺点是需要切割地面铺设线圈，施工量大。

动态采集则是在实时视频模式下进行，不需要其他感应装置给相机发送任何触发信号，完全依靠算法从实时的视频流图像中采集车辆信息，该方法的优点是施工方便，不需要安装其他感应装置或零部件。但其缺点也十分显著，由于算法的限制，动态采集的触发率与识别率较静态采集要稍低一些。

二、预处理

相机拍摄的图像经常受光照、天气、相机位置等因素的影响，所以在获取到车辆图像后先要对其做一些预处理，以保证得到车牌最清晰的图像。预处理可以在两个环节中进行，一是在架设相机时就根据现场环境提前设置好相机的属性参数，比如设置相机为自动曝光处理、自动白平衡处理、自动逆光处理、自动过爆处理等。

二是图像拍摄完毕后对其进行噪声过滤、对比度增强、图像缩放等处理。常用的去噪方法有均值滤波、中值滤波和高斯滤波等；常用的增强对比度的方法有对比度线性拉伸、直方图均衡和同态滤波器等；常用的图像缩放的主要方法有最近邻插值法、双线性插值法和立方卷积插值等。预处理过程较为关键，处理效果的好坏直接影响后面车牌识别的精度。

三、车牌定位

对于简单的车牌识别而言，我们只需要车牌部分的长方形图像就够了，其他部分的图像可有可无，因此从整个图像中准确地检测出车牌区域显得十分重要，如果提取错误或提取不完整，会直接导致最终识别失败。

车牌定位方法一般会依据牌照纹理特征、颜色特征和形状特征等信息，采用投影分析、连通域分析、机器学习等算法检测车牌。投影分析方法根据车牌字符与背景交替出现的次数相比于其他部分要多这个特征，通过图像在水平和垂直方向的投影分析来定位车牌。

连通域分析根据车牌中的每个字符都是一个连通域且这些连通域的结构和颜色都一致的特征，通过检测并合并这些连通域来定位车牌。

机器学习算法使用从很多个车牌样本中提取出来的特征把一个弱分类器训练成一个强分类器，从而定位出图像中的车牌区域。但由于实时道路上的环境背景十分复杂，且不可能所有的车牌图像都很清晰，所以很容易把类似的长方形道路设施识别成车牌，因此有效的排除伪车牌、提高定位的准确率和提高识别速度一直是机器学习领域的一个难点。

四、车牌校正

由于受拍摄角度等因素的影响，图像中的车牌难免存在各种各样变形的情况，为了不给后面的识别过程带来麻烦，需要对提取出来的车牌区域进行校正处理，去除车牌边框等噪声，有利于字符识别。

目前常用校正方法有：Hough 变换法，即通过检测车牌上下、左右边框直线以及长度比来计算倾斜角度；旋转投影法，即通过按不同角度将图像在水平轴上进行垂直投影，其投影值为 0 的点数之和最大时的角度即为垂直倾斜角度，水平角度的计算方法与其相似；主成分分析法，根据车牌背景与字符交界处的颜色具有固定搭配这一特征、求出颜色对特征点的主成分方向即为车牌的水平倾斜角度。

五、字符分割

提取出车牌区域后，需要再对车牌区域以一个字符为单位进行分割，目的是为了弄清楚车牌中总共有几个字符、字符间的位置关系等信息，保证车牌类型匹配和字符识别正确。

该过程的主要思路是，基于车牌的二值化结果或边缘提取结果，利用字符的结构特征、字符间的相似性、字符间间隔等信息，一方面把单个字符分别提取出来，也包括粘连和断裂字符等特殊情况的处理；另一方面把宽、高相似的字符归为一类从而去除车牌边框以及一些小的噪声。一般采用的算法有: 连通域分析、投影分析，字符聚类和模板匹配等。

六、字符识别

对分割后的字符的灰度图像进行归一化处理，特征提取，然后经过机器学习或与字符数据库模板进行匹配，最后选取匹配度最高的结果作为识别结果，易混淆字符包括：0 与 D、0 与 Q、2 与 Z、8 与 B、5 与 S、6 与 G、4 与 A 等。

常用的字符识别算法包括：模板匹配法、人工神经网络法、支持向量机法和 Adaboost 分类法等。模板匹配法的优点是识别速度快、方法简单，缺点是对断裂、污损等情况的处理有一些困难；人工神经网络法学习能力强、适应性强、分类能力强但比较耗时。

支持向量机法对于未见过的测试样本具有更好的识别能力且需要较少的训练样本；Adaboost 分类法能侧重于比较重要的训练数据，识别速度快、实时性较高。我国车牌由汉字、英文字母和阿拉伯数字 3 种字符组成，且具有统一的样式，这也是识别过程的方便之处。