• 从钉钉7.0想到的视频会议技术
  • 发布于 2个月前
  • 469 热度
    0 评论
昨天看完钉钉7.0的发布会后,脑海里浮现出的第一句话就是:士别三日,当刮目相看。钉钉从创业开始到现在已进入第8个年头,也正式走向7.0时代。当然我关注的重点并不是大协同,而是过去用的比较多的视频会议。

疫情之前,我很少有机会用到视频会议,印象中的视频会议还是高端会议室或老板办公室才会配备的系统,离普通人还有很大的距离。到今天,视频会议产品在国内已经有了庞大的用户基数,突如其来的疫情让很多人都经历过线上办公、线上上课。作为视频会议的重度用户,过去最大的感受是会议还不够稳定,而且新功能的上线速度貌似也很慢,相比于最早使用的ZOOM,还有很大的差距。

恰好最近有位音视频行业的读者也在紧急求助我一个技术问题,他在处理网络传输拥塞时遇到了困难,已经连续加班好几天也没攻克,我自己肯定是爱莫能助了,最后帮他找到了钉钉会议的一个技术大拿提供帮助。

1
借助这个机会,我和这位大拿做了一些技术上的沟通,结合最近对音视频技术的研究,才算是理解了做好会议产品背后的技术难度有多大。首先音视频的技术栈非常的长,从最底层的编解码、3A算法、网络传输、弱网对抗、到对各种非专业会议设备的适配。每个领域都需要有非常专业且深入的研究,以3A算法为例,我的一位师兄毕业后就进入某大厂音视频实验室,已经在这个领域研究了8年,而且仅仅是降噪这一个场景。

弱网对抗大家应该不陌生了,现在的互联网可以理解为建立在一套“并不怎么可靠”的网络之上。信息在传输过程中可能会出现各种损伤,这些损伤在打开一个应用的表现往往是刷新一下就能加载出来,在发送消息的表现往往是转个圈圈也能发得出去,但这些都是非实时场景。如果是在会议场景下,丢个包带来的结果就是你刚才说的话对方听不到,也不能再重发一遍。这就对弱网情况下的处理提出了更高的要求。

日常生活中,我们用手机打电话也经常会碰到信号不好,更何况视频会议是依赖于数据网络,可靠性相比于电话就更差了。这也是为什么当我们在高铁上,或者从办公室走进电梯时,会出现一些机械音甚至压根听不到对方说什么。

也怪不得音视频行业的人经常跟我讲,在现在互联网技术领域,实时音视频技术算是天花板级别的存在了。普通的团队基于一些开源技术做个Demo是很容易的,但真正做成一个可商业化应用的产品要面临的挑战可不小,更何况是像钉钉会议这样在疫情期间服务了上亿用户的产品。

2
过去这几年,我也算是钉钉的资深用户了,没少用钉钉会议开会,现在很多小学生上课用的也是钉钉。但过去给我的感觉是“不怎么好用”。钉钉上的功能真是太多了,从一个不怎么研究产品方法论的技术人视角来看,产品和技术应该是有很多共同之处的,做出一款优雅的产品和写出一段优雅的代码一样,需要遵循一些原则。

钉钉7.0发布会上讲到了一些钉钉会议产品体验升级背后的理念,我是非常认同的。比如持续做减法,比如钉钉会议上提到的“简洁、克制,简单就是美”。

昨天发布会结束我就升级到了最新版本,整个界面看上去的确是比过去简洁了很多,印象中以前呼叫群里的小伙伴开会时,不管有没有进入会议都会齐刷刷的显示在会议的格子里,人员进出还经常弹出一些提示,看起来很烦,如今这些都没有了。

实时字幕的升级,能够支持中英互译,但我很少跟外国人开会,所以这个翻译功能对我来讲应该没什应用场景了。但实时字幕本身让我也想到了新的使用方式,以前跟大家开会时偶尔走神,就不知道前面的人说了什么,有了字幕,我就可以翻看刚才的对话记录,缓解一下偶尔走神接不上话的尴尬。

更让我惊喜的是发布会上提到的“一键合影”功能,这个着实有点脑洞。联想到过去参加线上培训,每次培训结束,老师都让我们发一张照片给他,他会帮我们拼一张“毕业照”。有了一键合影,“毕业照”的生成应该会简单很多,脑洞再大一点,今年过年会不会看到大家在线上举杯相庆的云合影呢。

后边讲的这个会议近场转移功能就比较专业了,可以在走进会议室就把手机上的会议转移到会议室设备上。出于对技术的好奇心,我也去搜索了一些相关资料。大家日常用的比较多的近场识别技术应该是手机的NFC功能了,但这个必须靠手机靠近设备才能识别。从现场的介绍的情况来看,基本可以排除NFC。不知道圈友里有没有了解这项技术呢,可以帮忙科普一下。

不得不说,在互联网产品严重同质化的今天,上面这几个功能,让我看到了一些惊喜。

3
年初的发布会上,钉钉推出过一款高端F2会议设备,我在一次跟客户的会议上有体验到过,印象最深的是摄像头可以自动切换视角和焦距,始终对焦在正在讲话的人,而且切换的效果非常顺滑。这次发布会上钉钉会议又把F2的算法做了深度开放,看起来F2应该是钉钉自研的最后一款会议硬件了。

想起之前经常会去思考的一个问题。如果钉钉仅靠不断自研的产品,如何服务好每一个客户呢,要知道发布会上公开的数据显示钉钉的企业组织数已超过2300万。全面拥抱生态则是最好的解题思路,毕竟任何一款产品、任何一家公司都很难在每一个领域深耕、每一个场景都都打造出最具竞争力的产品,和不同行业的伙伴一起才更有可能各取所长,激发创新的活力。

我看到钉钉会议也和Insta360在视频会议方面有合作,坦白的讲,还是挺出乎我意料的。喜欢户外运动的朋友对Insta360这家公司应该不陌生吧?很多朋友应该也使用过他家的全景运动相机,可以全景拍摄后剪辑出一些非常酷炫的效果。这样一家面向消费端的企业为什么会选择和钉钉合作呢?

仔细想想,其实也不难理解。视频会议很重要的一块技术是解决视频图像处理问题,而Insta360做了这么多年运动相机,在这方面应该是有非常深厚的功底的,更何况Insta360的出货量也决定了其在硬件研发上有足够的实力。钉钉会议官方对F2讲得比较多的是10米拾音和发言人跟随,这两个有技术含量又有特色功能与Insta360的结合,不知道会碰撞出什么火花。不过我更想脑洞一下的是未来会不会推出全景会议一体机?

总体来讲,钉钉会议的开放维度不仅仅是传统意义上的PaaS,而是包含了他们在过去自研硬件上积累的一些硬件和算法技术,这也让我们看到了一些新的合作形态。

4
过去三年时间里,视频会议/云会议越来越成为工作的标配了,疫情加速了视频会议对用户的普及。但随着疫情逐步开放,线上上课的需求大概率会逐步萎缩,而面向企业和普通用户,大家又是否会持续通过视频会议的方式来进行方案的讨论或重要的分享呢?

线上会议相比线下会议最大的问题是缺乏一些临场感,大部分用户都不会打开自己的摄像头,自然就缺少了肢体动作、表情等,仅仅是声音的传递不足以表达出全部的想法,所以很多时候大家开会都是“能线下就不线上”。目前会议产品都在不断迭代,提供了很多有意思的功能,比如各家都提供录制、翻译等功能。我用钉钉会议用得比较多的就是云录制功能了,可以直接以文字的形式查看刚才的会议内容。在这些方面线上开会的效率确实比线下要高,但我想,仅仅这些依然是不够的。

新时代的会议不再是传统意义上单纯的开会场景,用户的需求赋予了它更多的可能性,已经演变成了一种线上的互动方式和生活方式。比如线上做话题的探讨和分享:同步看电影、看球、云聚餐、云年会、线上毕业季等等。这种云会议的互动方式也在让我们的生活和工作变得更有趣、更高效。

近几年各种新技术的涌现,比如虚拟人、元宇宙等等,也都是云会议未来的发展方向。试想一下某一天你从睡梦中醒来,打开软件进入虚拟办公室和各种虚拟同事一起来一场云会议,这里面就突破了时间、空间的限制,云会议还能自动录制开会的所有细节,同时还能最大限度保障信息同步和透传。

这种畅想一旦成为现实,那就是革命性的力量,是对工业社会会议的彻底颠覆。

总体来讲,钉钉7.0里,我用的最多的视频会议也迎来了最大的一次升级,不管是产品体验上的一些升级、创新的功能还是新的生态策略,都为我提供了一些新的观察视角。

过去很多产品为了一味的迎合用户或者打造所谓创新,而不断地叠加一些“叫好不叫座”的功能。功能的堆砌并没有带来更多用户体验上的提升,反而让产品变得更复杂了。钉钉会议在保持克制这一点上是做得不错的,新的版本相比过去确实简洁不少。

而一些有特色的创新功能,看起来也已跳出传统意义上的“开会”场景,逐步往线上互动的方向去演进,这无疑是更有想象力的。相比于过去偶尔带来的一些常规更新,这次无疑是诚意满满,所以才有了开头我说的。

不知道大家最近有没有用过钉钉会议,相信用过的朋友感受应该和我一致。
用户评论