日前,阿里妈妈图像团队的OCR(图中文字识别)手艺刷新了ICDAR Robust Reading竞赛数据集的全球最好成就,并大幅超越第二名。Robust Reading竞赛是当前OCR手艺范畴全球最具影响力的角逐。这也是继阿里巴巴图像搜刮领甲士物华先胜获得ACM(美国争论机协会)“卓异科学家”称号之后,阿里的图像识别手艺再一次登上国际顶尖舞台。
(图为ICDAR Robust Reading Challenge 1 end-to-end官方成就)
借助这一领先的OCR手艺,阿里妈妈图像团队或许以95%的超高精确率识别图中违规文字信息,有效过滤商家恶意推广,维护消费者权益。2015年,阿里妈妈累计樊篱了4600万条恶意推广。
OCR是争论机视觉范畴的经典问题,长久以来,一向受到学术界和工业界的持续存眷。在工业界,Google、Microsoft、Amazon等大型互联网公司,以及商汤科技、旷视科技(拥有Face++、Image++)等争论机视觉手艺创业公司,都在OCR手艺上耕作多年。跟着手艺不息成熟,OCR也起头在互联网及其他行业慢慢上线利用。
据阿里妈妈定向算法手艺负责人盖坤介绍,在阿里巴巴平台上营销创意、商品等均是以图片形式展示,图像手艺是了解这些信息的主要手段。同时,也有不良商家在图片中内嵌一些违规的信息达到其恶意推广的目的,图片内文字违规是比例相当大的一类,而传统监控手段多以人工肉眼来审核,费时艰苦,尤其是跟着图片数目越来越大,这几乎已成为不行完成的使命。针对这一强烈需求,从2014年起头,阿里妈妈图像团队起头重点攻坚OCR手艺,过程机械视觉的格局从图片中识别出文字,从而辨别出违规的案牍信息。
对恶意推广的界说,盖坤默示,一方面依据国度相关功令律例,对于犯禁品、色情信息、封建迷信、冒充伪劣、减肥丰胸、强调虚伪等违规类型进行分歧水平的惩罚和经管,另一方面在律例之外平台有着更高要求,对损害消费者好处或进行不合法竞争的推广类型积极考试进行管控。此中,与消费者关系最为亲近的冒充伪劣单项违规类型,被阿里妈妈作为重点审核对象。
相对其他限制场景OCR应用比拟,阿里妈妈要处理的创意图片和商品图片上的文字字体、色彩加倍多样,文字结构加倍灵动,后台包孕各类商品、布景或天然场景,蕴含各类复杂纹理,给识别问题带来了更大的挑战。盖坤介绍,在手艺路线上,比拟于传统方式,扔掉了图像预处理、字符朋分等流程,采用了多个深度神经收集和说话模型相连系的方式来构成完整的OCR系统。针对复杂的场景信息,将LSTM(长短时记忆)手艺成功应用到建模中去,大大提高识另外精确率。
据悉,而今基于OCR文字识别及时审核已笼盖整个阿里妈妈营业,天天处理图片近万万张,主动反馈疑似违规图片精确率达95%以上;同时将图文审核风险发现时候从“天”降低到“秒”级。数据显示,2015年阿里妈妈累计樊篱了4600万条恶意推广,有效净化了互联网营销情况。
除OCR过滤恶意推广以外,争论机视觉手艺在阿里巴巴集团内部已经获得普遍利用,好比手淘的“拍立淘”产物,过程手机摄影即可搜刮相似商品,2015年双11当天,万万消费者利用了“拍立淘”功能,缔造了高出数万万元的发卖额。别的,在商品图片版权护卫、鉴黄等场景也都引入了争论机视觉手艺。
本文来源:重庆网站建设公司|重庆网站制作公司整理编辑(部分内容来源于网络,如有侵犯您的权益,请联系我们删除)
本文网址:https://www.1234114.cn/wzbk/wzsz/2621.html
详细咨询:请拨打电话13629754288!
我们团队的IT服务始于2007年!
我们服务于各类企业,为企业提供全面信息化建设
客户的口碑是我们立足的根本,满意度95%
Our partner
重庆飞海科技有限公司2008-2023