会自动做笔记、长视频1秒出总结 找个AI做你的“开会替身”?

2023-06-03  A+ A-
  《新江南网》江南第一门户网站!
 追踪网络热点,关注民生动态,传播江南文化,倡导网络新时代!
https://www.xjnnet.com/新江南网欢迎您! 
重要会议来不及做笔记?不如找一个AI做你的开会替身。自动做笔记,一键总结关键词,还可以自动总结每个人的发言。即使中途出去一下,也不用担心错过任何内容。

自今年4月阿里云发布大模型通义千问之后,首个接入并开放公测的应用产品来了。昨天,阿里云宣布AI新品“通义听悟”正式上线。简单地说,“通义听悟”是一个音视频内容的工作学习AI助手。接入了通义千问大模型的理解与摘要能力后,无论是开会、上课、访谈、培训、面试,还是看直播、看视频、听播客,“通义听悟”都能随时随地高效完成对音视频内容的转写、检索、摘要和整理。

自动做笔记,长视频1秒出总结

事半功倍的AI助手来了

说到会议或访谈,很多人会使用将录音或视频转写成文字的转写工具。和传统的转写工作相比,融合了十几项AI功能的听悟最大的不同是“听力好”“悟性高”。

比如开会时,AI可以实时记录会议内容,高准确度生成会议记录。还可以一秒给音视频划分章节并形成摘要、总结全文及每个发言人观点,整理关注重点和待办事项。

如果日程冲突时,听悟还可成为你的“开会替身”。在静音情况下入会,AI可以代为记录会议、整理要点;转写结果可以下载为字幕文件等。

除了开会场景,平时工作时,打字打累了,AI可以成为你的偷懒神器。通过口述,AI就能实时记录和整理长段内容。

出国旅游时,又变成一部口袋翻译机。目前听悟支持中、英、粤语识别,中文与英文之间自由说与实时翻译。开着听悟听导游讲解,结束后还可以一键整理景点介绍。

一个长篇视频,想要迅速总结出核心内容是一件很费时费力的事。不过交给听悟,1秒钟就能帮你搞定。同理,对于AI来说,将万字长文缩短至200字概要也是分秒可以做到的事。

听悟还有不少“宝藏功能”。你喜欢看英文纪录片或看直播听Ted,英文基础又不怎么好?打开听悟的Chrome插件,挂在无字幕的视频上就可以实时转录和翻译,在视频下方生成双语悬浮字幕条。可以说对外语学习者或听障人士非常友好。

有了这个功能,上外教课听不懂,随时可以打开听悟瞟字幕。这个功能在近期即将向所有用户开放下载。

近期上线的功能还包括大模型一键提取PPT、针对多个音视频内容向AI提问、概括特定段落等。

总而言之,有了AI的助力,让你的学习或工作事半功倍,非常轻松。

目前,听悟已经和阿里云盘打通。存放在云盘中的音视频内容可以一键转写,在线播放云盘视频时还能自动显示字幕。并且在企业版本中,AI整理后的音视频文件将来还可以在内部快速分享。

“鸡尾酒会问题”和AI

集成了阿里最先进的语音和语言技术

在酒会等嘈杂环境中,同时存在着许多不同声源,比如多个人同时说话的声音、音乐声、反射声等。

这是1953年,英国科学家Colin Cherry提出的语音领域著名的“鸡尾酒会问题”。从相叠加的混合声波中分离出不同说话人的信号,对人类来说并不困难,但对AI来说一直是一个难题。

这次公测,听悟接入了通义千问大模型的摘要及对话能力。具体而言,是以通义千问大模型为基座,融合了研发团队在推理、对话问答等方面的研究成果。比如涉及多人音视频会议的“鸡尾酒会问题”,实际上是多说话人识别的技术。

针对这个难题,阿里团队从多年前开始布局,除了举办挑战赛和业界的专家、学者共同讨论外,团队也产出了具有一定影响力的阶段性研究成果。

阿里云CTO周靖人介绍,听悟集成了阿里最先进的语音和语言技术:内置阿里新一代工业级语音识别模型Paraformer,识别准确率在多个权威中文数据集上名列第一;融合自研语音语义多模态说话人算法,能对10人以上说话场景进行角色区分;接入通义千问大模型后,能够对上万字的音视频内容进行摘要总结,事实准确与要点完备性国内领先,支持跨多音视频内容的精准问答理解。

比如语音识别模型Paraformer,首次在工业级应用层面解决了端到端识别效果与效率兼顾的难题,在推理效率上最高可较传统模型提升10倍。

新江南网版权所有 苏ICP备17007001号-1