搜索
当前位置:首页 > 观察详情
爱奇艺谢丹铭:AI将在2019年进入技术收割黄金期
作者: 作者单位:中国电子报 所属类别:电子信息 2019-02-12 09:36:13 浏览:617
  近期,《中国电子报》推出展望2019系列报道,邀请各个领域的代表企业家和行业专家展望今年的产业趋势。爱奇艺副总裁谢丹铭在接受《中国电子报》记者采访时表示,2019年人工智能技术将步入黄金收获期,将是AI与各类应用场景全面拥抱、持续为企业赋能的一年。5G技术将推动AR/VR应用场景的全面爆发;语音AI进一步成熟,在视频娱乐业获得全面的落地应用;图神经网络将成为新的研究热点;同时专用的模型训练和推理硬件将越来越受重视。
  资本:将倾向于应用型的AI投资?
  有人说风险投资在2019年将有可能进一步收紧,投资会更为理性,众多的AI创业企业中有可能因为资本的收紧显现出一批“裸泳者”。2019年的关于AI投资将呈现哪些趋势?
  谢丹铭认为,2019年资本会更倾向于应用型的AI投资。经过前几年基础层(算力、数据、传感器等)和技术层(框架、模型等)的发展,各行业应用所需的AI能力已有大幅度提高。对于基础层和技术层来说,已有不错的公司沉淀下来,留给后面的空间相对不多。但在应用层面还有足够的2B和2C空间,需要技术+行业深度结合的公司去探索。现阶段对AI来说,基本处于应用驱动的时间点,会有大量解决行业问题、提升效率的应用出现。
  而基础层和技术层的初创公司,会面临两方面的竞争压力,一是该领域已发展多年的独角兽或准独角兽公司,二是BAT这类大公司也在扩大这方面布局。这方面的空间相对应用层来说要小很多,也是各巨头必争之地。所以,这方面的初创公司,要么的确有核心技术优势和资源可以继续深耕,要么可以探索已有技术在应用层的落地。
  对于应用层的公司,挑战主要来自对行业、用户的深度理解。目前大部分此类公司都是做2B业务,这需要有足够的行业积累和渠道。很多应用型公司是靠技术起步,在行业资源上相对薄弱,这是需要去补足的。相反,一些掌握行业内资源的团队,再引入AI技术,倒有可能实现更快的落地。
  谢丹铭认为,今年会有更多的AI应用类公司出现,覆盖各种行业。过去几年的AI技术发展,一些行业应用已逐步落地,尤其在金融、医疗、安防等领域。带来的影响除了应用本身,还有对AI认知的大幅提升。随着各行业人士对AI的了解加深,来自各行业内部对AI的需求会增多,对基于AI的解决方案的兴趣会日益增长。同时,传统行业+AI技术的人员结合,将会产生更多有技术有行业背景的复合型团队和初创公司。这些公司将不限于热门领域,而是会深入到各个垂直行业,凭借对细分领域的深耕建立壁垒,并向特定的客户和用户提供深度服务。比如在内容领域,对于内容的创作、变现方面,都有机会诞生一些专业的AI服务类公司,为机构或平台提升各环节效率。
  技术:步入黄金收割期?
  有观点认为在2019年人工智能技术的产业化将会进一步提速,提供人工智能技术公司的AI平台、产品成熟度会越来越高。
  谢丹铭认为,2019年将是人工智能技术步入黄金收获期,与各类应用场景全面拥抱、持续为企业赋能的一年。从趋势上看有几个重要特点:一是5G技术推动AR/VR应用场景的全面爆发。5G技术将使移动设备的通信速率显著提升,同时将延时降低到几毫秒的量级,将促进基于4K/8K超高清视频、AR/VR等沉浸式交互应用的全面爆发。5G也有望为娱乐产业与技术升级的深度融合带来新的契机。比如爱奇艺从2015年底开始布局混合(虚拟)现实产业,建立了基于AI+VR技术的iQUT战略,目前已推出移动端VR游戏《无间道VR》《鬼吹灯之牧野诡事VR》等内容。
  二是语音AI进一步成熟,在视频娱乐业获得全面的落地应用。随着语音识别、语音合成、语义理解等技术的不断进步,以及端+云语音交互系统的成熟度越来越高,可以说,语音交互能力将成为智能终端设备和应用的标配之一。如爱奇艺最新研发的AI手语主播,它利用通过自动语音识别技术(ASR)模型和噪声抑制模型,准确识别用户的语音并转换为文字,然后通过分词模型对文字进行切分,让文本更加适合手语语法;通过爱奇艺AI的语义理解能力,AI手语主播能够对健听人自然语言进行理解,并智能翻译为手语表达;模型通过训练不断优化翻译效果。值得一提的是,“AI+AR”的结合则给AI翻译赋予了产品丰富的3D虚拟形象,不仅直观地展示手语,可定制的形象也让这项技术能够适应不同场景的需求。
  三是神经网络将成为新的研究热点。现有深度学习技术已经在图像识别、语音识别、自然语言处理等领域里取得了举世瞩目的非凡成就,但仍然存在着可解释性差、无法处理关系推理等问题。DeepMind及MIT等国外知名AI研究机构已经在研究图深度学习,并取得了可喜的进展。该研究方向将归纳推理和传统深度学习的端到端学习相结合,有望打破现有深度学习算法存在的瓶颈,使计算机拥有一定的认知理解能力。我们认为,这项研究将是近期人工智能领域里一个比较新的研究热点。
  应用:以娱乐行业为代表的应用会实现更多的自动化
  谢丹铭表示,AI技术的迅猛发展,为更多的行业带来了更加自动化的应用。基于计算机视觉和语音技术的服务和技术已经层出不穷,赋能了各个行业应用,而基于AI的产品和技术在2019年将获得更大的发展,为各类行业带来更加智能的应用。
  强化学习将更加深入到各个行业的应用。在过去的几年里,大多数企业通过构建自动化的流程来赋能企业管理,并通过大数据的分析来为企业决策者提供参考信息。随着强化学习的发展,AI将有能力直接为决策者提供解决方案。以娱乐行业为例,爱奇艺“艺汇”智能选角系统已经可以为影视工作者提供演员人选参考,大大减轻了影视工作者的工作负担。
  AI将深入普罗大众,给残障人士带来更加便利的生活。随着视觉、语音以及AR技术的发展,AI在很多场合已经可以模仿人类感官来获取信息和传达信息。2018年11月28日,爱奇艺在中国网络视听大会上发布了首款“AI手语主播”,该产品基于AI和AR技术以及中国标准手语,可将文字或者语音转换为听障人士可以识别的3D手语动作,打通了听障人士和健听人士之间的信息鸿沟,同时也落地了爱奇艺的自制的节目,使得听障人士能够更加方便地享受娱乐节目。随着AI和AR技术的发展,越来越多的智能产品将深入到大众的生活,给人们带来便利。
  AI将在信息的提取和整合领域继续发展,为企业带来更多红利。信息的提取和整合是AI较早应用的领域之一,包括人物识别,行为识别,场景识别,语义分割等等。现有的AI技术主要应用在线上数据的分析,通过对用户点击,搜索行为等进行分析,建立用户画像,以便为用户推荐更合适的内容。5G和大数据技术的飞速发展,将产生海量的线下数据,AI技术将帮助企业提取和分析线下数据,并有效分析用户行为,为企业提供更加精准的决策依据。
  算法:缺乏多模态深层分析?
  关于算法与基础研究,谢丹铭认为有四个方面的挑战和变革。一是AI性能与成本的平衡。从面向实用化的角度来看,目前AI相关的算法对于GPU的资源依赖比较强烈,大部分算法运行在GPU服务器,一些准确率高的模型的尺寸和计算量都很大,导致在一些计算能力较小的移动端设备上,只能采用一些精度较差的小模型或是采用网络请求服务的方式与GPU进行交互。一些基于移动平台的应用,将模型部署在有GPU计算单元的嵌入式平台上,以避免这些问题,但总体的设备造价成本仍然较高。体现出深度网络在速度和准确率上存在着不可兼得的情况。未来的算法以及基础研究应该在网络轻量化、移动端化上进行更多的探索,将目前大部分在GPU服务器上运行的深度模型,尽量下沉到移动端,FPGA平台上去,通过对于模型进行量化压缩、减少模型参数量以及冗余结构的同时保证模型精度上无较大损失,利用有限的计算资源达到更快速的效果,使得现有技术在更广的领域中得到应用,在硬件方面也需要进行相应的支持,实现AI算法的软硬件一体化,达到极致的性能。
  二是算法的通用性不强。往往处理每一个(类)任务都需要一个单独的模型。这样当需要处理的任务比较多的时候,就需要堆积很多模型,计算资源的整体效率就会降低。更严重的每一个应用场景都有自己的数据,都需要标注大量的数据用于模型的重新训练。人工智能离通用人工智能还有很遥远的距离。新的变量来自于迁移学习,多任务学习、强化学习这些变量上,当面对新的任务和数据的时候,不需要再从头搭建和训练整个模型,而只需要针对当前任务和数据的特点,进行适当的微调,适应不同的学习任务。
  三是缺乏多模态的深层分析。目前AI算法对于多模态信息的利用与融合,并没有达到一个很深的层次;通过不同模态的互相融合与指导,能够激发AI算法更多的可能性。作为一家视频公司,爱奇艺的核心数据视频就是一个多模态融合的媒体,AI技术会从视觉,音频,文本等不同维度综合理解视频。
  四是AI智能创作方面。近些年AI智能创作方面也是充满挑战,AI算法在一次一次刷新人们对于AI智能创作的认知,虽然AI取得了很多令人惊艳的效果,但目前并没有做到更加通用的效果,生成的一些样例明显存在着问题。近期人们提出各种类型的GAN网络,并将其应用于各种图像修复,超分辨率重建,内容生成等领域,可以预见在未来,GAN网络是一项令人期待的技术,通过GAN的对抗结构可以实现高级语义的内容创作,甚至代替人类进行艺术创作。

参与评价

最新评价

相关推荐

最热观察

账号密码登录
第三方快速登录
找回密码