向“新”而行 | 一知智能:让AI语音更接近真人能力

发布日期:2024-10-28 15:40 访问次数: 信息来源:杭州市科学技术局
分享:

编者按:面对新一轮科技革命和产业变革,杭州正在用科技硬实力加快打造新质生产力。日前,杭州市科技局组织编写的《向“新”而行——新质生产力的杭州实践观察》正式出版,本公众号特推出“向新而行”专栏,逐一呈现书中记录的15家企业的创新故事。让我们一同走进这些企业的创新世界,感受新质生产力的澎湃动力。

自1966 年最早的聊天机器人ELIZA发布以来,经过多年的发展人机交互领域逐步出现了语音识别、情感分析、多轮对话和智能推荐等创新技术。这些技术的引入让机器能够以更加智能、自然的方式与用户交流,人机交互的应用范围也变得更为广泛。

“人机交互技术有两类应用路径,一种是优化用户的产品使用体验另一种则是通过提升交互效率帮助企业获取皇冠足球90比分收益。我们目前致力的方向属于后者。”一知智能首席执行官陈哲乾表示。

Part.01 找到技术转化载体

如果说底层人机交互技术是一个“大脑”,那么找到载体让“大脑’释放效能便是技术转化的第一步。电话是一知智能最先切入的场景,陈哲乾认为,电话是一个具备较强沟通性能的载体,人机对话在这个场景下有较大的发挥空间。事实上,不仅仅局限于电话,一知智能的人机交互技术已搭载于短信、企业微信、直播平台等多个载体。

“我们的核心创始团队来自浙江大学人工智能研究所和国家重点实验室,在接到金沙江创业投资基金的橄榄枝之前,我们已多次在各类人机交互领域的国际大赛中拔得头筹,比如曾在 2017 年斯坦福大学举办的机器阅读理解大赛 SQuAD(Stanford Question Answering Dataset)中获得单模型组世界第二。”陈哲乾表示,基于强大的产学研背景,公司已拥有 10 余项人机语音交互国家专利,核心算法技术已达到国内领先和国际前沿水平。

“人机语音交互的难点在于如何让机器人更接近真人。如果用户一听就能感觉到是机器人打的电话,那么通常情况下会立马挂断。”陈哲乾表示,要想基于电话场景帮助企业提高人机交互效率,需要解决多种问题,比如语音的精准识别、语义的准确理解、发音的拟人化等。

为了解决这些问题,一知智能持续研发语音、文本、图像等多模态内容理解和内容生成算法,在语音识别技术(automatic speech recognition,ASR)、自然语言处理(natural language processing,NLP)、文语转换技术(text to speech,TTS)等核心人工智能技术上取得了较大突破。

例如,一知智能自研的 ASR 系统,能够应用于不同的噪声环境,捕捉语音信号中的区域和全局资讯,同时可一并细化机器人在性别、年龄与情绪识别中的感知颗粒度。此外,目前一知智能推出的新一代对话架构 NLP 系统 2.0,对人机对话相关的 NLP 算法进行深度产品化及系统化呈现,包含意图识别、问答识别、实体识别、情感识别、对话内容生成等多项常见任务。比如,在情感识别功能的支撑下,针对同样的用户回复,机器人有了皇冠足球90比分的语言表达方式;而知识图谱算法的支持,也让机器人在应对各种问题时更为自如。

在语音合成方面,一知智能提出了FastSpeech1和 FastSpeech2 两代算法系列,集成了语音合成、情感合成和语音克隆算法,以及相应的语气词回复生成算法。该算法系列相较于谷歌开发的Tacotron 两代算法,在同等实现效果上,速度分别提升了38倍和 260倍。该技术在场景应用上的体现,主要是机器人在沟通中能够逼真地模拟人类情绪,并能在识别对话方情绪后及时给出回应。

Part.02 坚持深耕泛消费领域

“公司 80% 的客户来自泛消费行业。目前,公司已服务 1000 多个品牌,覆盖美妆、宠物、母婴、食品、鞋服等多个零售行业,为屈臣氏,喜马拉雅、得到等品牌方提供应用于其 App的服务,此外服务还涉及奥特莱斯这样的商业运营商。”谈到为何选择消费赛道进行深耕,陈哲乾表示:“我们发现泛消费品牌有很强的公域和私域运营需求,比如通过抖音平台直播从公域中获客,或者通过电话、短信、微信等方式进行私域会员运营。”

以头部美妆品牌雅诗兰黛为例,陈哲乾分享了一知智能在助力品牌精细化运营方面的实践案例。“当时接到品牌方的节日营销任务,希望会员到门店消费。为此,我们联合品牌方做了一组对照实验--将 300万会员群体等分成3组,其中第一组采用短信邀约模式,第二组采用人工电销方式,第三组则使用一知智能的 AI语音外呼。”

统计显示,在到店消费额度上,第三组比第一组多了1000万元;而在到店人数上,第三组比第二组多了 4000 人。这表明,一知智能的人机语音交互方案能够有效解决品牌精准触达与服务会员的效率问题,也为品牌方带来了皇冠足球90比分收益。

此外,洞察到直播平台上存在大量人机交互需求,一知智能着手布局数字人业务,探索第二增长曲线。2023年3月,一知智能上线“势数字人,它不仅能支持直播、短视频等多种交互场景,还能与消费者实时互动。

该数字人产品同时支持声音克隆和形象克隆,基于一知智能自主研发的多模态交互大模型,仅需少量数据训练就能输出不同语种、语调的视频。经测试,该数字人产品的口型和语音匹配准确率超过 99%,并能将交互延迟控制在2秒以内,可实现与真人主播相似的互动效果。

目前,“芽势”数字人已广泛应用于本地生活、文化旅游、直播电商、美食餐饮等多个行业,与美团、拼多多、抖音等各大电商平台建立了深度合作关系。同时,在政府的大力支持下,一知智能不仅在传统产业的数字化转型中发挥了重要作用,还在乡村振兴、老字号企业数字化转型农村电商发展和特色文旅产品的推广中扮演了关键角色。

Part.03 为国产AI谋求发展

不仅是在国内布局,自2022年以来,一知智能启动并拓展了出海业务,为国内品牌出海提供技术支持,将 AI电话打向日韩、东南亚、欧美澳大利亚等多个海外市场。“在此之前,公司聚焦于中文场景下的人机语音交互,如何将产品适配多种外语情境下的对话,首要的便是技术攻关。”陈哲乾介绍道,“我们在当时投入了大量的研发精力去攻克不同语种环境下的对话问题,最终通过同声传译算法的研发得到了有效解决。目前,我们的算法能够支持 60 多种语言的实时翻译。”

在出海的实践过程中,一知智能坚持与品牌方共同分析用户标签和购买习惯,划分合适的人群并制订个性化触达策略。“坚持在对的时间向对的人说对的话,是我们能为品牌方提供的技术支持,也希望通过我们的技术,真正为品牌方降本增效。”陈哲乾认为,随着人工智能技术的快速发展,一知智能也在不断让自己的技术与时俱进,面对新的需求、新的场景、新的市场,一直通过产学研结合的方式努力打破行业“天花板”

虽然对标国际前沿技术,国产 AI在发展速度和发展质量上还有一定“我们是 AI乐观主义的拥护者,相信科技终将带来极致的力量。比如,我们目前只有几百号员工,但公司的机房其实正指挥着 10 多万 AI数字员工进行工作,其实这就是一种科技创新驱动下的生产力。”

据陈哲乾透露,公司正在考虑将语音生成领域的核心算法进行开源“我们希望通过技术共享的方式,切实推动国内 AI产业进一步发展,在为社会增效减负的同时,也为构筑新质生产力注入新的动能。”


来源 | 每日商报