百度首席科学家吴恩达
百度首席科学家吴恩达在百度语音开放平台三周年分享会上发表演讲。“我觉得在人工智能时代,中国人应该比较有自信。”百度首席科学家吴恩达在百度语音开放平台三周年分享会上表示。
11月22日,百度语音开放平台上线三周年之际,百度宣布向公众开放四项全新语音技术的接口,即情感合成、远场方案、唤醒二期技术和长语音方案。
作为百度人工智能产品百度大脑的负责人,吴恩达说,百度大脑项目中一部分非常重要的工作,就是把领先的技术输出给开发者和用户使用。
谈及中国人工智能在世界上的位置,吴恩达认为,很多进展是中国人完成的,“有人有点担心同美国的技术(竞争),中国人应该比较有自信。在人工智能时代,(有)很多(人工智能的)技术在中国,也有很多(人工智能的)技术在美国。”
吴恩达称他无法评价中美科技公司在人工智能方面的优劣,“不过我看到的具体例子是,人工智能技术的发现在中国比较多。”
吴恩达重申了百度大脑的核心技术部分,即语音技术、图像处理、自然语言、用户画像、机器学习。他对人工智能的未来充满信心,“我希望未来我们会有(基于人工智能的)陪伴机器人、个性化私教、音乐作曲、机器人医生等。”
百度首席科学家吴恩达详解百度语音技术之识别技术发展轨迹。据悉,百度的手机百度、百度地图、百度输入法等产品已经支持语音输入。“度秘”机器人已经在在肯德基首家概念店“Original+”中使用, 顾客不但可以和度秘对话,还能通过语音完成从点餐到支付的全流程。
吴恩达称,语音技术未来在很多应用场景会有很好的机会,将为人机交互领域带来巨大改变。吴恩达认为,未来人们回家以后可以使用语音与电视、摇控器、音箱、窗帘等“讲话”。此外,吴恩达认为语音技术在智能客服中心、汽车等领域的应用也是重要的人机交互场景。
百度方面在11月23日宣称,百度语音开放平台自2013年10月上线以来,每日在线语音识别要求从2013年的500万上升到今天的1亿4千万,在线语音合成每日请求达2亿,开发者数量超过14万。技术指标方面,百度语音识别准确率目前已高达97%。
2016年2月,百度深度语音识别系统Deep Speech 2入选MIT“ 2016十大突破技术”。
吴恩达还向澎湃新闻记者举了唤醒二期语音技术应用的例子,该技术可以应用在自拍场景下,通过设置自定义唤醒词,人们只需喊“1、2、3”就可以轻松完成拍照,唤醒率达95%。语音唤醒功能的适用场景非常广泛,吴恩达认为开发者有很多机会利用百度语音唤醒技术实现多元化的产品功能。
吴恩达告诉澎湃新闻,百度语音技术除了应用到百度旗下地图等产品外,还希望支持第三方公司,“我们把语音技术放进我们自己的产品中,在产品中获得了非常好的结果,让用户使用我们的产品的时候,即可以用语音输入,也可以用语音合成……我们希望可以支持第三方的公司,也把这些技术放进他们的产品,让他们也获得一样有效的结果。”
以下为吴恩达在百度语音开放平台上线三周年活动上的演讲实录:
大家好,非常高兴大家今天来参加我们的语音开放平台三周年发布会。
我是“百度大脑”的项目负责人吴恩达,在百度大脑的项目中有一部分非常重要的工作,就是把领先的技术输出给大家使用。在百度大脑开放平台(ai.baidu.com)上,我们不仅输出人工智能技术,也有很多有关人工智能技术的培训资料。
那么,百度大脑到底是什么呢?它核心的几个技术部分为:语音、图像、自然语言处理、用户画像、机器学习平台。我发现很多人使用百度的语音技术有两大原因,第一个原因,百度有非常领先的技术为他们的用户提供更好的体验;第二个原因,我个人做了好几十年有关人工智能的项目,发现通常你刚开始做一个项目的时候,只是需要语音技术,当做了几个月以后,你发现还需要图像技术或者自然语言处理技术等等。如果你是使用百度大脑开放平台,你可以比较容易的选择真正需要的技术部分把它放进来,把它融合,为你做到好的效果。再比如说你想服务一个智能客户,开始的时候觉得只需要语音识别、语音合成技术,但是做了几个月以后,发现你需要领先的自然语言处理技术。如果你是使用百度大脑开放平台,希望你比较容易拿到这些技术放到自己的产品中。
我个人对人工智能的未来充满信心,我希望未来我们会有陪伴机器人、个性化私教、音乐作曲、机器人医生等等。这些年人工智能技术发展得非常快,这给我们,也给你们带来很多新的机会,在百度是没有办法探索这么多非常有潜力的机会,所以我们的目标就是把我们的人工智能技术输出给大家,希望可以支持你们在非常有潜力的项目上探索,而且支持你们在这些项目中获得非常好的结果。
今天大会的主题就是语音技术。大家可能已经知道,在很多重要的百度产品中,我们已经支持语音输入,包括手机百度、百度地图、百度输入法。如果你还没有试过百度输入法,我希望你试一试,我输入信息时就挺喜欢用百度输入法。还有度秘,近我们把度秘放入各类硬件中,比如小度机器人。度秘系统可以为客户点餐,把度秘和机器人融合,也可以让各种用户有新的体验。
这几年来,我们的团队在不断地优化语音识别系统,在2012年开始使用DNN模型,后来有比较好的特征,之后开始用Sequence Discriminative Training,也开始使用LSTM模型,加上CTC,今年我们的团队开发了Deep CNN模型,效果在不断进步,这就是我们的语音识别系统。
此外,我们的语音合成模型也变得越来越好,这几年来我们在好几个技术方面有比较大的突破,我们的语音合成效果也变得越来越好。现在百度在中国语音合成的能力是远远超过其他公司的,今天下午我们的语音团队负责人也会和大家分享更多细节。
因为我们的语音技术、自然语言处理技术、我们的人机交互技术进步得这么快,2016年2月,《MIT科技评论》把我们的技术列为“2016十大突破性技术”之一,我们觉得这些技术有很大的潜力,可以改变人机交互的效率和办法。
未来语音技术在很多应用场景有很好的机会,为人机交互带来巨大的改变。举个例子,在智能家居的场景,我们希望未来你回家以后可以使用语音跟你的电视、遥控器、音箱、窗帘讲话,比如说希望你未来可以向你的电灯说,“电灯请打开”,它就明白你的命令,或者对遥控器说话,它就能非常方便的满足你的需求。其实智能家居只是一个应用场景,我觉得在很多应用场景中,语音技术都可以带来人机交互非常大的改变,这包括手机、音箱、电视等等。希望语音能让你做更好的智能客服中心。在汽车领域,语音也是一个非常重要的人机交互的场景,我们有很多合作伙伴正在使用我们的语音技术探索这些应用场景。
后,今天我们已经知道,尤其是在手机端,我们知道语音输入比键盘打字更快、更方便、更准确。下一位进行演讲的是我的好朋友,也是斯坦福大学James Landay教授,他也会为大家分享有关这方面的研究,就是使用百度的语音识别系统,如果你使用这个系统,在手机端输入就可以更快、更方便、更自然。
语音输入这么方便,希望未来语音输入会变得更普及。大家想一想,如果你跟我想交流,自然的办法就是你跟我讲一句话,或者我跟你讲一句话,所以人和人交流自然的办法还是语音。这几年来,语音和自然语言处理和度秘这种技术进步这么快,今天很多场景,人机交互自然的办法已经是语音。人机交互不只是你跟电脑或者和设备讲话,你的电脑和设备也需要告诉你它的意见,所以我们的语音技术也可以让这些设备非常自然的告诉你它的意见。
后,因为人工智能,尤其是语音技术这几年发展得很快。在百度大脑已经有好几种不同的人工智能技术,其中比较成熟的,就是我们的语音技术。所以语音技术已经给我们,也给大家,也给你们,给你的公司,给开发者很多新的机会。所以,我希望我们输出语音技术,希望它可以为大家提供非常好的服务,也希望我们可以使用我们的技术支持你们探索这些新机会,希望你们可以使用这些技术,支持你们在这些新机会中获得非常好的成果。
(来源:澎湃新闻)
官方微博
官方微信公众号
官方百家号