Adaboost算法的FPGA实现与性能分析
出处:13zhiye 发布于:2009-11-09 11:53:23
摘要:Adaboost算法采用由弱到强的级联型分类器用以快速检测人脸。但在实际应用中计算量巨大。在PC机上用纯软件实现该算法得到的目标检测速度也难以达到实时。本文论述了一种采用像素积分计算阵列的人脸检测系统,能够对图像像素进行流水运算处理以达到提升检测速度的效果,并在Virtex5系列FPGA上实现。通过该并行系统对单幅352x288的图像进行人脸检测,其速率可以达到50帧/秒,可以满足工业应用的实时性要求。
引言
Adaboost 算法是Freund 和Schapire 于1995 年提出的,全称为Adaptive Boosting。它是 Boosting 算法的改进,意为该算法通过机器训练与学习不断自适应地调整假设的错误率,这 种灵活性使得Adaboost 算法很容易与实际应用联系起来。2001 年,微软研究院的P.Viola 提出了基于Haar 特征的Adaboost 算法[1],创造性地将积分图的概念引入到人脸检测的特征 计算当中,由于此算法使用了大量尺寸不一的矩形作用来表征人脸。并且该算法中用以检测 人脸的分类器是采用的级联结构,按照由弱到强的顺序组织的,其优点在于按照统计概率, 在图像检测的一开始就能够将大部分不包含人脸的区域排除在外,省去了后面计算负载更重 的检测步骤,以此达到检测速度提升的目的。经过实际测试,P3 700MHz 的处理器对352*288 的图像进行检测的速度为15 帧/秒[2]。但是如果在嵌入式平台上运行的话,纯软件的检测速 度则为2 帧/秒[3]。本设计将这种快速检测算法转化成了一种并行处理图片像素点的硬件结 构,能够大幅度提升图像中的人脸检测速度。
目标平台
Virtex5 系列FPGA 是Xilinx 一代基于65nm 的FPGA 产品。相比上代产品,速度 平均提高30%。其改进后的六输入的查找表 (LUT) 和新型对角互连结构,减少了逻辑层次, 增强了构造块之间的信号互连。
本文系统的实现主要用到了两类逻辑资源来优化系统性能: DSP48E Slice:25x18 位二进制补码乘法器能产生48 位全结果。此功能单元还能够 实现诸多DSP 模块如乘累加器、桶形移位器、宽多路复用器等。
Block RAM:可配置成2 个18 Kb 或1 个36 Kb 的Block RAM,也能够配置为双端口 RAM 或FIFO,并提供了ECC 校验检查功能,提高了系统可靠性。
硬件系统结构
本文采用了一种像素积分单元阵列的结构来实现对图像进行人脸检测的并行性处理 [4,5]。该阵列的计算对象为Haar 特征。该特征被抽象为各种尺寸大小的矩形。一系列的矩形 组合起来即被用来表征人脸。黑白矩形内像素的灰度值经过加权求和后即为该特征的特征 值。积分图ii 的定义是:
其中ii(x, y)是积分图在点(x, y)处的积分值,i(x', y')是图像在点(x', y')处的灰度值。利用积分图可以快速计算矩形S的灰度和,即Sum=A+D-B-C,其中A、B、C、D 是积分图中矩形顶点对应的积分值。
系统结构框图如图 3 所示,整个系统的工作流程和各模块功能阐述如下:
图像输入模块:系统输入端外接一个模拟,采集到的图像信号经过板上的A/D 芯片转换成ITU-R BT.656 (YCrCb 4:2:2,8 位数据宽度)分辨率为352x288(CIF)的图像格式。 该模块的作用为当检测控制状态机发送初始化信号后,通过I2C 总线配置A/D 芯片完成信号转换。另外,由于BT.656 格式混合包含了视频的场信息和图像数据,因此该模块还要从 BT.656 信号中提取出图像数据存放到图像RAM 中。针对该实现,RAM 大小为8 位宽度, 深度为101376。
像素积分阵列:像素积分单元阵列是本系统中进行快速人脸检测的处理模块。在将 图像进入片内RAM 后,系统将采用20x20 的移动窗口对整幅图像进行扫描处理。每个周期 的开始阶段,检测窗口包含的一行(20 像素)的灰度值由底部进入积分阵列,积分阵列上部输 出按从左至右方向的行像素值的积分和,右部则输出每行按从左至右方向的像素值的平方 和。阵列中的灰色方格则保存了检测窗口对应原始图像部分的像素积分值。阵列中的带竖线 和右斜线的方格表示了存储特征所包含的矩形权重和特征相似度等参数的流水线。在整个扫 描窗口的像素积分值都进入此阵列后经过左侧编码模块的编码控制后,从阵列的右侧可以得 到当前分类器所包含的矩形的像素灰度值。此灰度值被送到右侧的检测模块(如图 4): 首先会和当前分类器中对应特征的权重weight 相乘,然后将乘积进行累加后即得到当 前区域对应此特征的特征值。接着这个值会与分类器中的特征阈值a 比较,从而选择对应 的特征相似度γo(大于等于a )或者γ1 (小于a ),此相似度值也将被累加,当该级分类器中 所包含的全部特征的特征相似度都累加完毕后会与终的该级的检测阈值β比较。比较后 的结果显示了该窗口区域是否包含了人脸,1 即为包含,0 即为不包含。如果包含人脸,此 模块还将把当前检测到的人脸的区域信息(包括矩形的左上角起始坐标和矩形长、宽)保存在 一个专用的存储区域,以用于后面的结果输出。
人脸信息处理单元:像素积分单元阵列检测到人脸后,此单元将首先保存检测到的人脸 位置信息。如同检测阶段中分类器中的特征包含的矩形表达式一样,人脸位置信息也是由起 始点坐标和矩形的长、宽组成:(x, y, width, height)。接着根据此信息控制后的视频输出 模块用以显示人脸。读取(x, y),在图像RAM中检索到对应人脸的起始点的地址,往该地址 中写入像素值0。接着纵坐标不变,延x轴方向只至x+width-1的点的像素值均更新为0。然后 是绘制人脸的纵向边界。保持横坐标为x+width-1,y坐标依次增1只至y+height-1,将此列对 应点的像素值更新为0。后面再按照类似的方法折回完成余下的人脸边界的标识。此时存放 在RAM中的检测后的图像数据被送入到视频输出模块,该模块以800x600的分辨率将的 检测结果显示在VGA屏幕上,在屏幕显示中,被黑色方框包围的区域即是人脸。
图像缩放单元:此模块用以检测图像中大于20x20像素的人脸。本文采用的是固定大小 为20x20的移动窗口,以从上至下,从左至右的方向遍历扫描整幅图像来检测人脸。对原始 图像数据扫描完一遍后,能够直接检测出图像中大小在20x20以内的人脸。然后有检测控制 状态机负责启动该单元模块,以一定系数对原始图像进行缩小处理。处理方法采用的是按照 缩小比例生成提取像素点的地址,并将这些像素点重新组成缩小后的图像。其计算公式如下 所示,其中( x0 ,y0 ) 和(x1 , y1) 分别为原图像和缩小后的点坐标,scale参数为查表所得:
测试结果
该 系 统 在 Xilinx ML509 上进行测试, 该开发板上采用了一块 XC5VLX110T-FF1136 的FPGA 芯片,测试方案为:将摄像头实时采集到的图像送进系统视 频输入模块,然后经过拨码来控制板上的AD9880 芯片转化为384x288 的8 位灰度图送 入检测模块检测并输出在VGA 显示器上。整个系统逻辑资源占用情况如表 1 所示。表 2 为系统能够运行的频率。
结论
本文创新点在于采用了一种像素积分单元阵列结构,能够对 Adaboost 算法中的Haar 特征进行并行处理。结合Virtex5 平台丰富和特殊结构的逻辑资源,得到了理想的性能,甚 至已经能够和高性能的PC 平台相提并论。从结果中可以看到,本系统只使用了部分资源。 通过在FPGA 芯片内部例化更多的处理单元,还有进一步增大并行性以取得性能提升的空 间。
版权与免责声明
凡本网注明“出处:维库电子市场网”的所有作品,版权均属于维库电子市场网,转载请必须注明维库电子市场网,//tgdrjb.cn,违反者本网将追究相关法律责任。
本网转载并注明自其它出处的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品出处,并自负版权等法律责任。
如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
- PLC 编程中急停开关触点抉择:常开还是常闭?接线要点揭秘2025/6/26 16:02:37
- 全面解析:PLC 控制柜设计原理、布局接线与原理图2025/6/16 16:12:05
- PLC控制系统输入/输出回路的隔离技术2025/6/12 17:27:11
- 深度解析:PLC 上升沿和下降沿指令的应用时机与使用方法2025/6/9 15:18:19
- 利用 PLC 轻松打造红绿交通灯控制系统2025/5/29 15:36:55