语音引擎的现状

来源:
浏览次数: 99
   在2019年,语音引擎变得更加复杂,现在能够支持其他语言和方言,但也还有更多工作要做。这些解决方案,包括语音到文本,文本到语音,语音识别,语音命令和控制,语音搜索,转录,翻译以及相关活动的技术,现在在识别单词方面做得更好,但具有讽刺意味的是,这种能力并不是用户最终想要的。相反,他们需要可以像人一样对它们做出反应的系统。但是,对于供应商而言,实现该目标仍然遥遥无期。
语音引擎的现状
  年度回顾
  在2019年添加的新语言和方言中,亚马逊的Alexa现在支持印地语语音交互。此外,该供应商还增强了系统以了解当地流行语言的变体,例如美国西班牙语和巴西葡萄牙语,从而使更多的消费者可以查看天气,控制智能家居设备以及使用亚马逊品牌的设备听音乐。Bose,LG电子和索尼等第三方访问Alexa语音服务应用程序编程接口(API)来开发Alexa Skills。
  LumenVox还扩展了其系统的支持范围,以支持本地方言,例如美国,英国澳大利亚人,新西兰英语和北美西班牙语。
  而且由于许多个人和家庭说多种语言,因此Amazon Web Services进一步引入了多语言模式,该模式允许Alexa在两种语言之间切换。该系统通过识别用户说出的语音并以相同的语言进行响应来自动进行调整。此功能分为三对可用:美国的英语和西班牙语,印度的印度英语和北印度语以及加拿大的英语和法语。
  LumenVox客户服务副总裁Jeff Hopper表示,与此类似,LumenVox还添加了一个新的转录引擎,专门针对无音频格式。他解释说:“它可以实时工作,因此[交互式语音响应(IVR)]应用程序不仅可以接收结构化数据或自然语言输入,还可以处理原始文本。”
  但是,对于整个语音行业来说,更有意义的是人工智能(AI)和深度神经网络正在开展的工作。人工智能工作已迅速进入主流语音技术,允许更多自然语言,对话交互,并且随着引擎处理越来越多的语音,机器学习使系统的准确性和性能得以提高。
  今年,第四代深度神经网络(DNN)的出现也显示了语音引擎的进步。它们在输入和输出之间具有多层,因此可以使用线性或非线性关系得出结论。
  Nuance Communications是该领域的领导者,该公司在7月推出了Nuance Lightning Engine,这是一种DNN,结合了语音生物识别技术和自然语言理解,可以跨语音渠道提供个性化,人性化的体验。
  展望未来
  尽管语音引擎已在许多方面得到了改进,但基础技术仍存在很多缺点。根据Booz,Allen&Hamilton的前专业人士StephenArnold的说法,当今的系统在识别单个单词方面明显要好得多,但需要的是能够在上下文中理解单词的解决方案。
  由于此限制,当将语音系统部署为企业和消费者使用时,它们有时无法正常运行。用户专注于最终结果,例如从语音搜索中获取结果,但是系统通常无法提供所需的理解水平。因此,根据普华永道最近的一项调查,有71%的美国人更愿意与人互动,而不是聊天机器人或其他自动化过程。
  供应商正在完善他们的系统以弥合这一差距。Google开发了BERT(来自“变形金刚”的双向编码器表示),这是一种语音识别解决方案,旨在连接单词和更好地理解句子上下文。例如,如果某人正在寻找有关在另一个国家旅行的信息,则BERT会认识到“去(to)”一词比“来自(from)”更重要。
  类似地,Translate Your World一直在构建语音解决方案,以识别对话中的语气,并且供应商发现,各个人的语气会因情况而异。“最终目标是指导AI翻译,以便它们在对话的背景下为与个人打交道提供正确的模式,”该公司总裁SueReager解释说。例如,“shingles”一词通常是指房屋屋顶上的物品,但在医疗保健领域,它代表病毒感染。
  同样,交流因群体而异。“我们发现,消费者通常不会像企业高管那样讲的很清楚。”Reager补充说:“消费者的发音有时不清楚,他们通常不使用完整的句子。他们的思想缺乏组织,因此有时很难找到固定的模式。”
  培训语音引擎以识别和适当地应对此类差异是她的公司以及其他多个行业细分领域将在2020年解决的问题。
  谁来承担当前的语音挑战一直在变化。“试图翻译语音变得越来越困难,而且非常昂贵,”Arnold坚持认为。“在过去的日子里,麻省理工学院机器学习实验室的一些人能够建立一个商业系统。但是不做了。”
  如今,语音引擎的研究需要大量资金,高技能的数据科学家和庞大的数据中心,而这些数据中心将拥有巨大的计算处理能力。因此,谷歌,亚马逊网络服务,微软和IBM等国内行业巨头正在承担许多工作。
  在国际上,中国公司,例如百度,也在挑战这些问题。根据Arnold的说法,中国供应商之所以处于有利地位,是因为它们不受传统技术的束缚,可以采用新的方法来解决这些长期存在的问题。
  供应商在扩展其产品功能方面也取得了进展,因此他们支持更多类型的语音,但是仍需要努力以帮助该技术将单个单词置于上下文中,以便系统可以适当地响应。随着市场的变化,开发负担急剧增加。展望未来,似乎只有财大气粗的行业巨头才能拥有推动语音解决方案前进所需的资源,从而变得更加人性化。

  作者:Paul Korzeniowski
  原文网址:https://www.speechtechmag.com/Articles/Editorial/Features/The-State-of-Speech-Engines-139107.aspx


  • 相关资讯 More
  • 点击次数: 97
    2020 - 08 - 04
    8×8的Jeremy Watkin讨论了联络中心实时监控的最佳用途。  我不确定为什么会这样,但是当我考虑到可以实时监控联络中心座席的能力时,我通过电视看到了无休止的客户互动流,就像联络中心被实况电视转播一样。  认真地说,哪个联络中心负责人有时间和精力来监视他们的座席?  退一步,当我谈到实时监控时,是指能够收听座席的呼叫音频并查看其桌面活动的功能。  尽管许多联络中心平台都记录和保存音频和视频,但实时监控使您可以实时查看和收听活动。  而且,它通常与耳语功能配对,以便在没有客户听到的情况下与座席通话,而接驳功能则可以完全接听电话。  在本文中,我将分享8种实时监视用途,这些用途不一定类似于24小时新闻周期滚动播报,但可以使联络中心负责人从该功能中获得最大收益。  1、处理升级的互动时“先生,对不起让您有这种感觉。”“女士,如果您能冷静下来,很高兴为您提供帮助。”“如果您继续使用该语言,我将不得不结束此通话。”  或者,您可能已经被告知在群聊中很难进行互动,并且想听听或了解一下客户在说什么。  在加入或接管交互之前进行实时监视并获得一些背景信息,可以帮助您作为主管来使客户平静下来,并更快地制定出解决问题的方案。  2、当客户需要挽留时  有时,当客户互动变得激烈时,您将冒着完全失去客户的风险。  使用耳语功能来指导座席达到最佳解决方案可以帮助扭转整个交互过程,并采取措施恢复客户对公司的信心。  3、监视新座席时  您如何看待一位父母为3岁的孩子购买了第一辆自行车,向他们展示了如何骑自行车的30分钟教学视频,然后期望他们的孩子在没有训练的情况下完美骑行?那是愚蠢的,对吧?  同样,实时监视使新座席在与客户进行首次交互时变得更加容易。这可以在任何地方进行,无论是在联络中心还是在世界各地。  4、当新座席与经验丰富的座席一起工作时  座席完成培训时的一种常见做法是让他...
  • 点击次数: 84
    2020 - 07 - 27
    Akixi的希拉里(Hilary)解释了电信行业面临的挑战。  就像新数字化世界中的所有其他部门一样,电信业正处于重大转型之中。我们交流的方式正在发展,以适应需要更大敏捷性,机会和灵活性的环境。  在新的十年的第一年2020年,环境充斥着混乱,电信行业的变化无处不在。  人工智能(AI)现在已成为日常交流的标准,补充并增强了客户与品牌之间的讨论。  5G技术正在发展,为丰富的移动体验铺平了道路。由于这些独特市场的大幅增长,对新网络服务的需求也出现了前所未有的增长。  根据《安永数字化转型》(2020年及以后)报告,电信公司面临的最大挑战是技术,服务管理和其他领域的供应商的破坏性竞争。  那么,通信公司今后还需要克服哪些其他重要问题?  让我们来看看。  对传统服务的需求正在减少  尽管物联网(IoT)和5G已开始推动供应商产品提供更多的多样性,但使用旧版工具的企业仍在努力保持领先地位。  所有环境中的供应商都需要扩展他们的产品范围,超越语音基础,以提供从SMS到视频的所有内容。  人们交流的方式正在改变。互联网消息传递,VoIP和其他基于云的技术正在占领整个行业。甚至智能手机流量也正在转移到WiFi。  这意味着各种规模的企业都需要考虑如何发展其服务包以适应以云为中心的新社区。  公司不仅需要提供下一代的联络中心产品以保持领先地位,而且还需要确保这些新服务可靠且实用。  客户越来越不接受质量和性能下降的问题。  如果通信公司要蓬勃发展,那么实时监视数据和检查呼叫流量质量的能力将至关重要。通信服务需要比以往任何时候都更快,更敏捷,更可靠。  安全性和数据泄露风险  监视呼叫和通信质量对于确保客户获得应有的那种电信体验至关重要。  但是,出于另一个原因--数据和隐私,跟踪和了解您的通信生命周期对于电信公司也至关重要。  对于电信公司而言,将数据安全性和隐私性作为主要重点已变得越...
  • 点击次数: 100
    2020 - 07 - 20
    突然需要“远程”,影响了公司运营的各个方面,客户服务也是如此。一些公司很幸运,已经部署了使联络中心团队能够远程工作并因此保持客户习惯的支持水平的技术。其他人则没有那么幸运,他们需要关闭某些(有时只是暂时的)客户服务渠道,因为他们不能通过远程团队适当地支持他们。我们还听到了一些案例,这些案例是公司试图通过新的安全协议使客户服务办公室保持开放状态,以便为客户提供服务。这无疑会降低生产率,并可能使团队面临风险。  随着各国开始考虑开放并试图恢复到“正常”状态,毫无疑问,企业将在考虑是否以及如何将远程和灵活的工作仍然作为联络中心运营的一部分。长期如何运作?他们如何运营?  客户服务悖论  客户服务团队一直在努力拥抱新的数字渠道,例如消息传递应用程序,实时聊天,聊天机器人和社交媒体渠道,以与客户进行沟通。但是,客户服务团队通常不具备从任意位置通过各种渠道随意参与的相同灵活性。使用本地软件,它们通常与固定的联络中心位置保持联系。洪水,旅行中断和大流行控制措施等事件使固定运营的公司更难以满足其客户和员工的需求。  灵活工作给员工带来的好处已经有几十年了,但是目前对组织和客户的运营好处还不那么明显。  客户正在努力联系客户服务座席,这可能是因为团队已被派往家中,或者是座席无法在不访问他们通常依赖的本地系统的情况下与客户进行远程连接。已经使用云技术的具有远见的组织可以通过从任何地方通过浏览器访问的软件来远程运营其联络中心。为了利用这种灵活性并更好地远程管理查询,自2020年3月以来,我们已经看到许多公司将其电话座席转移到数字化渠道上来。  客户服务运营的未来  未来,组织中的客户服务将通过每个部门对云和远程工作如何帮助他们更好地开展业务的方式进行重新思考。云已经彻底改变了企业共享文件,团队内部通信,管理供应链,管理营销等方式。将其与灵活的远程工作策略相结合,将使客户服务部门足够敏捷以应对任何...
  • 点击次数: 96
    2020 - 07 - 13
    人工智能(AI)作为客户服务技术(包括启用语音的技术)中的嵌入式功能正变得越来越普遍。  公司每年使用AI来处理数十亿的客户通信。AI系统可以响应最常见和最简单的查询,例如“我的帐户余额是多少”,从而使人工座席可以自由处理更复杂的客户服务问题。AI系统的设计不仅可以理解客户的查询,还可以确定最佳的响应方式,这是否意味着提供直接答案,提出明确的问题,将交互传递给现场座席,下订单或其他。  对系统进行编程以做出这些决定并采取这些行动绝非易事,而且要承担与承担该任务的人员相同的失败。因此,偏见可能会渗入算法,特别是因为AI仅与输入的训练数据一样好,并且该数据可能包括关于性别,种族,性取向或其他历史或社会不平等因素。  在许多公司正在扩大对AI的使用的时候,意识到这些偏见并缓解它们是当务之急。  “这是一个重要的问题,因为我们正在做出越来越重要的AI决策,”Spark Beyond的首席执行官兼联合创始人Sagie Davidovich说。Spark Beyond是使用AI的自动化研究引擎的提供商。“您要有责任心,透明性和包容性。”  “发现AI语音识别系统包含歧视特定人群的偏见。”Pro Privacy.com的数字隐私专家Ray Walsh说:“这令人不安,因为这类算法通常部署在所有公民使用的平台上。结果,这些技术可能积极地导致偏见或歧视的重新表达。”  如果不加发现,人工智能的偏见可能导致有害的歧视性做法,竞选结果失真,违反法规或失去公众信任。  没有比在2016年失败的Microsoft Twitter机器人Tay失败命运更明显的事实了。Microsoft将Tay描述为一种对话理解的实验,其中Tay参与度越高,越聪明,它就会通过“随意而有趣的对话。”  但是,一旦Tay上线,人们就开始在Twitter上发布推文,其中包括各种厌恶种族主义言论。Tay开始向用户重复这些种族主义...
Copyright ©2017 四川西沃信息技术有限公司
犀牛云提供企业云服务