原标题:阿里的追光者:每天为数亿张图片把脉帮数十万盲人“听图”
听取顾客发来的评论意见、发布最新制作的商品介绍图片,这是淘宝店主小峰5年来每天起床后必做的两件事。
来自浙江的小峰自幼双目失明,2015年在淘宝开了一家专卖电子产品的店铺。通过“手耳并用”的方式,小峰可以和明眼人一样,毫无障碍地和众多买家进行沟通交流。
这一切得益于OCR(光学字符识别)技术。在阿里达摩院读光OCR团队的努力下,数十万盲人登陆淘宝时,只要手指划过相关页面和商品,手机就会准确地读出的信息 。
OCR技术的应用并不止于为视障人群修建“盲道”,小峰和数以百万计的商家每天会在淘宝发布超过1亿张商品图片。
广告发布是否违规?商品图片是否侵权?在每天为海量图片“把脉”的过程中,锻造了读光OCR强大的能力,这项原本只专注于商品治理的安全技术,逐渐进化为不同行业提供人工智能服务的全能识图产品。
不久前,阿里达摩院和阿里安全成立联合实验室,意味着“读光”这一高精尖技术将在更多场景落地,而在“新基建”快速发展的当下,数字技术将展示出前所未有的普惠性。
每天为数亿张图片把脉
每天在淘宝新增的商品图片达数亿张。
如果用相纸把这些图片打印出来,假设每张相纸厚度为0.2毫米,摞在一起的厚度超过20公里。
从这些图片中找出违规发布的商品和信息,依靠人的肉眼,即使每秒钟能查看一张图片,24小时内看完这些商品图,需要1158人团队不间断持续作业才能完成。
在商品图片内容丰富、场景复杂多样的状况下,读光OCR技术的出现大大提高了平台治理的效率。
读光OCR团队负责人、高级算法专家永攀介绍说,“读光”的前身是成立于2011年的“图像把脉团队”。
彼时,淘宝商品主要信息传递方式是图片,消费者搜索任何商品,映入眼帘的是首先是各个搜索结果的商品主图,这张图片传递的信息可以在很大程度上影响用户的购买判断。
当图片成为抢夺消费者注意力最直接的手段,很商家把商品主图和呈现文字做得异常夸张,就像电线杆上的“牛皮藓”广告。
为了改善淘宝的商品呈现,“图像把脉团队”上线治理“牛皮癣”的专项技术,判断商品图片中的文字以及整体图片是否违规。
对图片的识别、判定的意义并不只是是否美观和夸张。更重要的是,通过对商品发布图片的审核,可以及时发现销售假货侵权产品的商家。
今年2月2日,身在重庆的永攀在药店买口罩时,发现线下要点的口罩已经被抢购一空。永攀很快意识到,大量口罩购买需求涌入线上,很多不法商家也可能会趁机混水摸鱼。
与此同时,淘宝、天猫成立了“保卫口罩小分队”,他们的任务就是守住口罩商品上线的关口。
这一天,读光OCR团队紧急优化技术,确保有货源的商家能发布商品的同时,让疑似假冒伪劣的商品无法上线。
“由于口罩以前是个小众产品,突然爆发的需求和商品发布量,让图片扫描以及识别的工作量非常大。”永攀回忆说,这一仗把能调用的全部服务器都用上了。有了每天检测数亿张图片的磨砺,读光OCR在口罩保卫战这一役圆满的完成了任务。
在阿里安全图灵实验室负责人薛晖看来,读光OCR技术在知识产权保护领域的应用,不仅可以对商品发布进行检测,配合其他技术的应用,还能对制售假分子予以限制。
一名曾因店铺售假被淘宝关店,为再上淘宝开店,伪造了8次假身份,连户籍地址都配套换了8次。但每次都被系统识别拦截,无缘再上淘宝的他,终于选择放弃。
从管理到服务的有温度治理
2015年9月1日,新广告法开始执行,这为“读光团队”带来了巨大的挑战。
新广告法禁用“最佳”、“最优秀”、“世界级”、“独家”、“史上第一”等多种“极限词”表达。
淘宝的存量商品超过了15亿个,每个商品平均有17张描述图片,90%的商品描述都在图片中。由于很多商家并不具备专业知识,根本无法判断自己是否违反了广告法。
很多商家违法了但却不自知,不但面临处罚,还会遭遇恶意索赔团伙的敲诈勒索。
阿里安全在集团内部拉几支团队一起PK解决方案,最终“读光团队”接下了这个难题。
永攀回忆说,当时统计发现,淘宝存量商品图多达数百亿张,图片上的文本内容非常复杂,常用字体就有100多种,还有一些非常个性艺术创造的字体。此外,图片中经常会有各种透明半透明的背景,识别难度很高。
为了实现高效提速,“读光团队”做出了有别于市面通用的解决方案。
如果说外界当时处理一张主图需要3到5秒,处理复杂图需要1分钟的话,“读光团队”提出的解决方案可将识别图片的平均时间降到0.25到0.3秒。产品上线后,所有违规图片可以在24小时内被处理。
一年之内,“读光团队”将技术能力进化到了实时处理,让商家发布的违规图片根本无法上线。
“当我们的安全技术能力从单纯的管控变成风险服务,可以帮助到那些无意犯错的商家,让违反广告法的图片在没有产生任何影响的情况下就被拦截下线。”永攀说,通过技术打击作恶的坏人,而让无意犯错的商家“少踩坑”,这是“有温度治理”的应有之义。