恒安嘉新王佳琪:oneAPI加速基于AI的公民证件保护应用

在数字化时代中,公民的身份证件信息安全已成为焦点。大量证件信息在线传输和存储意味着身份盗窃和金融欺诈的潜在风险。恒安嘉新,一个专注于数据安全的领先企业,面对数据量的爆炸和复杂的证件检测任务,发现过去的技术方法不再适用。AI和深度学习为图像识别和文本提取带来了前所未有的可能性,但也需要巨大的计算资源。恒安嘉新因此转向oneAPI,一个高效的编程模型,来加速AI应用。oneAPI在不需额外硬件投资的情况下为公司带来了显著的性能提升,从而更好地应对数字时代的证件信息安全挑战。

在英特尔®至强®平台上,恒安嘉新采用oneAPI实现了多个图像模型的推理加速。鉴于数安项目主要运行在CPU服务器并处理大量数据,利用oneAPI的高性能计算能力确保了模型的高效运行,以满足客户需求。

恒安嘉新的视觉算法工程师王佳琪以《Intel®oneAPI加速基于AI的公民证件保护应用》为主题,分享了oneAPI在数据安全和提高检测效率方面的应用。

数据安全关注于确保数字信息,如个人身份、财务、业务、医疗和交易等数据不受未授权的访问、使用或泄露。与生活中常见的身份证相似,实体身份证丢失或被盗可能导致各种问题,如不法分子利用其注册公司或申请贷款。相应地,在线环境中的身份证信息同样需要得到足够的保护。数字环境的安全挑战更为复杂,比如上传到某些网站的身份证照片可能被不法分子利用,进而实施诈骗。

数据安全的重要性体现在以下方面:

1.防止身份盗用:不法分子可能利用身份证信息和换脸技术绕过银行的人脸识别认证,导致财务损失。

2.保障数据隐私:当在线验证身份时,信息只应用于当前认证目的,而不能被二次利用或泄露。

3.促进信任关系:当数据保护流程得到加强,公民会更愿意信赖并与服务运营商分享个人信息。

恒安嘉新在数据安全方面提出了服务方案,基于流量还原和视觉处理的策略,以侦测现网环境中的个人信息泄露。流量还原模块能转换大量数据为图片和视频,并筛选出图片信息供视觉模块处理。

证件识别相关能力介绍

在本章中,王佳琪深入探讨公民证件保护系统中的四大视觉模块,明确功能及实际效果。

1. 位置检测模块

该模块能够从海量数据中识别可能泄露公民隐私的证件。一旦发现了符合的证件模型,系统会对其进行位置检测。核心流程是识别图像中的身份证主体,提取其主体位置并进行透视变换效果,如右图所示。这为后续的文字识别模块提供了高效的前置处理。

2. 类型识别模块

当位置检测模块锁定证件后,该模块即开始工作。主要功能是判定具体证件类型,如身份证的人像面与国徽面、驾驶证与行驶证的主副页、以及护照与港澳通行证的区分。当证件不在识别范围内时,模块将输出未知类别。

3. 翻拍检测模块

为了预防证件被恶意翻拍和使用,该模块应运而生。如屏幕右侧所示,视觉算法通过提取图像的深层特征,辨别出直拍与翻拍证件的差异。这一模块不仅能预防身份被盗,还能增强身份验证的安全性,降低敏感信息泄露的风险。

4. 信息提取模块

这是最核心的模块,由OCR技术支撑。根据前述的证件类型,该模块将对应地分析、匹配并提取文本信息。通常分为文字定位与文字识别两步。经过处理,系统可从证件中提取出近35行有效信息,并根据坐标完成标题与内容的匹配。在服务器端的输出示例中,除了类别信息,还详细记录了个人的私有数据,如车牌号、VIN号等等。最后的标签由翻拍识别模块反馈,其中“0”代表非翻拍。

oneAPI加速

主要探讨oneAPI框架在深度学习业务中的加速效果。系统中包含:

1.两个图像分类模型,用于证件类型分类和翻拍识别分类。

2.一个图像分割模型,用于证件位置检测。

3.一组OCR模型,用于提取证件文字信息。

在未进行oneAPI加速之前,项目在CPU环境下的日检测量为50万张。

测试环境和流程:

在英特尔®至强®Gold 6238处理芯片的公司内部数据安全服务器上进行了测试。此服务器并没有显卡。为了比较效果,采用了两种测试环境:标准的PyTorch和使用oneAPI的PyTorch。测试内容包括模型训练和推理的速度。

测试结果:

1.模型训练:

标准环境:每轮平均耗时325.6秒。

oneAPI环境:每轮平均耗时176.1秒,提速了45.92%。

2.模型推理:

标准环境:整体耗时74.8秒。

oneAPI环境:整体耗时54.3秒,提速了27.03%。

综上所述,oneAPI明显提高了运算速度,尤其在模型训练中的提速效果尤为显著。

在证件保护系统中的应用:

对证件保护系统的四个模块进行了oneAPI的适配和优化。结果表明:

● 位置检测模块速度提升了23%;

● 证件类型识别模块速度提升了25%;

● 证件翻拍检测模块速度提升了18%;

● 证件内容提取模块速度提升了21%。

综合来说,整个系统的速度提升了22%。这意味着系统的日处理量从原先的50万增加到了60余万。

oneAPI为深度学习模型带来了显著的加速效果,尤其在没有GPU的CPU环境中。这为需要处理大量数据的企业提供了很大的价值,可以在相同的硬件资源下处理更多的任务。

上一篇
下一篇