|
|
51CTO旗下网站
|
|
移动端

WOT2018计算机视觉分论坛:用计算机视觉技术,提升消费体验

计算机视觉是一门研究如何使机器“看”得懂的科学,是指利用摄影机或者电脑代替人的眼睛,对目标进行识别、跟踪和测量等机器视觉。随着技术的发展,基于深度学习的图像处理技术已经获得了重大突破。

作者:zc来源:51CTO|2018-12-24 15:04

2018年11月30日-12月1日,由51CTO主办的WOT2018全球人工智能技术峰会在北京粤财JW万豪酒店召开。本届峰会从人工智能技术赋能行业升级的角度出发,紧跟技术潮流,紧抓时事热点,覆盖人工智能平台工具、算法模型、语音视觉等技术主题内容,带来了一场AI前沿理论与尖端技术激烈碰撞的知识盛宴!

计算机视觉是一门研究如何使机器“看”得懂的科学,是指利用摄影机或者电脑代替人的眼睛,对目标进行识别、跟踪和测量等机器视觉。随着技术的发展,基于深度学习的图像处理技术已经获得了重大突破。在本届WOT峰会的《计算机视觉》分论坛上,来自阿里巴巴-饿了么-人工智能与策略部高级算法总监李佩,国美计算机视觉中心高级产品经理隋晓艳,第四范式图像平台负责人黄缨宁,分别从本地生活场景中的物体文本识别与三维重建、AR/VR技术赋能新零售、如何低门槛开发视觉应用三个不同的主题,为到场的听众带来了一场算法模型的饕餮盛宴。

饿了么李佩:本地生活场景中的物体文本识别与三维重建

作为一名在人工智能领域研究了十几年的老兵,李佩对计算机视觉的应用落地有着独特的见解。李佩表示,自2018年开始,本地生活场景中发生了巨大的变化,线上和线下相互融合的OMO((Online-Merge-Offline))场景成为主导模式。在OMO场景下, AI+IoT成为本地生活场景中最核心的技术。

在当天的演讲中,李佩分别从物体识别、文本识别和三维重建三个主题,结合他在饿了么的工作经验,详细介绍了计算机视觉在本地生活场景中的技术应用实践。

据李佩介绍,物体识别首先要从人脸检测开始,要确定这个人是不是与系统中的人匹配,然后才是物体检测,例如餐箱、帽子、衣服等,通过识别来检测其着装是否规范,是否符合上岗的要求。其次要做到对日常生活中的场景目标进行识别,包括行人检测、办公区桌椅检测等等,这是因为在无人配送的业务场景中,机器人必须要认识生活场景中的所有物体。再次,还需要进行合规检测,包括商品图片、餐品图片、招牌图片、营业执照、卫生许可证、健康证等等各种图片。最后,还要对场景中的文本进行识别,例如要把菜单中菜品和菜价全部识别出来。因此,生活场景中会涉及到大量计算机视觉的处理。

李佩表示,饿了么的计算机视觉评价指标有两个:一是平均检测精度,是看这个物体筐分类的准确性,先检测每个类别的准确性,再检测所有类别的准确性,然后计算出平均检测精准度。二是IOU(Intersection over Union) I,是指物体筐与实际标准物体筐之间覆盖度的比例,即交集和并集。

在接下来的时间里,李佩详细的介绍了解决物体识别的算法:Region Proposal

两步法和Single Shot一步法。由于现场讲解了大量的算法,笔者这里就不再一一介绍,有需要了解的朋友,可以关注51播客小程序,了解更加详细的内容。

第四范式黄缨宁:如何低门槛开发视觉应用

第四范式图像平台负责人黄缨宁从如何降低开发视觉应用的门槛出发,结合第四范式的一些经验做法,进行了主题分享。

黄缨宁认为,图像应用市场存在着AI人才稀缺人力成本高,AI应用建立成本高、过程复杂和存在长尾效应三大方面的难题,制约计算机视觉应用的发展。建立一个计算机视频团队,往往需要五至六个科学家和十几个人的IT运维团队,开支较大,对于企业高管来说,要作出这样的决策是比较艰难的。她表示,虽然市场上很多AI供应商提供了计算机视觉的主流应用,例如人脸识别、车辆识别、车牌识别、OCR识别,但对于企业定制化的长尾应用却很少,几乎没有一家供应商能够提供高复杂度、个性化、高定制化场景的方案,这时就需要考虑自己研发。

在接下来的演讲中,黄缨宁详细介绍了先知AutoCV。据介绍,先知AutoCV是一款低门槛、自动化、通用性的计算机视觉应用引擎,能力覆盖视觉应用全过程,从图像数据接入、存储到模型的构建、优化,直至将模型发布上线,可为金融、保险、零售、工业、教育、交通等行业的图片定位、识别、OCR等场景提供实时智能CV服务,让图像应用真正开启“工厂模式”。此外,黄缨宁还通过介绍大量的案例,来详细介绍了其在不同场景下的应用案例。

据介绍,第四范式将为用户提供两种模式:Auto模式和专家模式。Auto模式即会提供成熟的开箱即用的应用和模板,针对小白用户提供稳定成熟的CV应用、模型等,用户可直接上线CV应用,或基于已有模型结合自有数据进行简单训练定制,如身份证识别应用、大/小写金额识别、通用文本/数字识别等。此外,第四范式还提供自动化一键建模,仅需提供标注数据,系统通过自动训练、自动调参等技术,可直接生成CV应用,减低CV应用构建门槛。

专家模式提供了四种方式,一是系统整合CV领域常见算法架构,专家可根据不同图像应用场景选择不同的算法;二是预置处理脚本,系统预置多个图像处理脚本,专家可在不同阶段配置图像处理方法;三是拖拽Dag编排,将复杂的内部处理逻辑进行流程可视化,专家可快速通过拖拽方式编排出成熟可用的CV应用;四是可视化调参,提供可视化调参功能,同时模型训练结果通过图表可视化展现,让专家聚焦调参本身。

黄缨宁表示,借助第四范式将为用户提供两种模式,可以利用更短的时间,更少的数据,训练出更好的模型。

国美隋晓艳:AR/VR技术赋能新零售

国美计算机视觉中心高级产品经理隋晓艳从应用场景出发,详细分享了AR/VR技术在新零售行业的当前应用与未来面临的机遇和挑战。她表示,当前AR/VR在新零售方面的应用场景主要有两个方面:一个是虚拟试穿、试用,二是品牌营销。

虽然AR/VR购物应用于电商平台已是大势所趋,但仍然面临着一些问题。隋晓艳认为,AR/VR应用面临的最大问题是缺乏高效的3D自动建模手段,且制作成本非常高。她表示,目前专业制作3D的公司特别少,也比较缺少3D建模的人才,因此制作成本非常高,且制作周期非常长。除此之外,在做内容交互过程中,无法采集数据,无法分析用户的行为数据。

除了以上两个方面外,内容分发也存在着一些困难,国美希望有更多的3D内容分发平台来完成这些基础的工作,在产业成熟后,能够为消费者创造更好的消费场景,提升购物体验。

谈到未来AV/VR给新零售行业带来的机遇,隋晓艳表示,未来围绕线上和线下,商品+服务,零售+科技,实现实体零售与虚拟零售的无缝的结合,通过社交化的场景,多元化的消费场景,用大数据加强对消费者的触达,真正实现体验式消费,提升消费者前所未有的全新体验境界,打造数字化、智能化、区域化的智能零售业态,这就是新零售未来的发展目标。

“无论科技怎么变化,为消费者创造出更好的场景,提升消费者的购物体验,都是一成不变的定律。国美希望通过与大家一起合作,利用新技术开创具有商业价值的应用场景,来满足人类对美好生活的需要。” 隋晓艳如是说。

以上内容是51CTO记者根据WOT2018全球人工智能技术峰会的《AI新一代应用》分论坛演讲内容整理,更多关于WOT的内容请关注请关注51cto.com。

【责任编辑:张诚 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

PHP和MySQL Web开发(原书第3版)

本书将介绍如何创建可交互的Web站点,包括从最简单的订单表单到复杂的安全电子商务站点。而且,读者还将了解如何使用开放源代码技术来实现...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊