毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • 首页 > 企业IT频道 > ARVRMR

    做一款读懂世界的AR眼镜

    2021年12月01日 09:21:14   来源:极客公园

      新冠疫情下,人们没法摘下他们脸上的口罩。唇语,就这样在公共场合消失了。

      听障者在和人谈话时,会紧盯对方嘴唇,这是他们在使用助听器或人工耳蜗后下意识的动作。很少人知道,即便用上这些助听辅具后,他们也不能与普通人一样,听到完整、自然的声音。在嘈杂的真实环境中,辅具帮不到的,听障者需要通过唇语补充理解。

      助听器的使用体验像在收听一个调音不好的无线电,声音可能足够大,但字听不清楚。而人工耳蜗方案费用不菲,设备植入、术后调机和言语训练等部分需要花 10万 到 30 万元。「那些从小植入人工耳蜗的用户告诉我们,大概也就能听到 60%,剩下要靠唇语去猜。」亮亮视野的设计总监刘天一说道。

      亮亮视野是一家成立快 8 年的 AR 公司。在大量调研听障者后,公司决定将团队去年底发布的一款面向企业端的 AR 眼镜进行改款,专门服务听障群体,成为一款能将声音实时转译为文字的「字幕眼镜」。

      01

      就像是只会播放

      一次的英语听力

      人的耳蜗内分布着众多的毛细胞,它们负责声音的传递。但毛细胞非常脆弱,很容易被耳毒性药物、噪音和衰老等因素损伤,当毛细胞越来越少,听力也就越来越差。更不幸的是,人类并无自我再生毛细胞的能力,也就是说,听力一旦受损,几乎就是不可逆的。于是,人们开始应用辅具。

      助听器像是给声音加上「放大镜」,而人工耳蜗则是直接替代毛细胞,向位于耳蜗内、功能尚完好的听神经施加脉冲电刺激——通过用户体外的言语处理器收集声音,体内的处理器进行编码处理,转化为电信号,再通过电极刺激听神经,继续后续的声音处理。

      顾名思义,耳蜗的形状如同蜗牛,上面是低频,下面是高频,如同一个钢琴键盘展开,「正常人有 3 千个『琴键』,而人工耳蜗只有 24 个(目前全球人工耳蜗中电极数最多的有 24 个),所以人工耳蜗『弹』出来的声音和正常耳朵听到的声音有很大的区别。」人工耳蜗公司诺尔康总经理李楚曾在接受采访时说过。

      第二次全国残疾人抽样调查显示,全国听力残疾率为 2.11%,听力残疾人 2780 万。另据 WTO 统计,国内竟然有高达 15% 的人群或多或少的有听力受损问题,这 2 亿人中只有 5% 的人群会佩戴助听器。

      而人工耳蜗方案费用不菲,设备植入、术后调机和言语训练等部分需要花 10万 到 30 万元——能够负担的人群更少。

      从植入人工耳蜗,到能正常与人交流,需要适应期。经过解码、又重新编制的电信号并不等同于自然声音。初期启动时,人会感到眩晕。不仅如此,听障者需要持续注意对方的口型,精神需高度集中,并会因此一直处于焦虑的状态,就像在听只会播放一次的英语听力。在工作环境中,如果不是面对面沟通,看不见对方的口型,则情况更为棘手。

      由此带来的交流成本很高,一些听障者为了避免与人沟通时的尴尬,常常逐渐将自己孤立起来,性格可能变得孤僻或抑郁。如果在年幼时没能系统地建立好语言体系,封闭自我的听障者可能因此变成语言上的「难民」。

      02

      他们「亏本在卖」这款改款眼镜

      这是一副看起来稍显「笨重」的眼镜,镜片透明,为光波导镜片;镜腿宽,侧视会遮挡视野,拖着一根电线。这根线需要连接到手机,手机提供电池供应,还要下载配备的「可译」app。这款眼镜重 90 克,相当于两枚鸡蛋。

      亮亮视野在去年年底发布了 AR 眼镜 Leion Pro,采用双目光波导方案,透光率达到 85%,最高亮度可达 4000 尼特。另外,它还实现了语音、手势乃至头动等三维交互方式,满足安防、工业维修、设备巡检等不同领域需要。

      比如,使用者可以通过佩戴眼镜,将自己的第一视角影像实时传输到异地的专家,用以指导自己的工作;运用图像识别等技术,警察可以通过眼镜了解到对方的身份。

      推送培训视频、图文资料和工单;与工作伙伴进行远程视频连线……这些都是纯粹的面向 B 端用户的应用。但在线下大会、商业谈判和培训等(需要中外语言互翻)场景里,有听障用户注意到了这款产品,并产生了浓厚的兴趣。刘天一回忆,一些听障者试戴后,「一戴上就不想摘下来」。

      偶然发现听障者的需求后,刘天一开始验证市场。他和团队通过北京市聋协和一些地方残联,派发了几千份线上问卷,也进行了线下调研和探访,收集听障者的年龄、学历、听力受损程度、辅具使用习惯,以及听障者希望 AR 眼镜怎么满足他们的需求。

      调研完的结果让人「兴奋」,「在做面向 C 端的调研中,一般来说几千份问卷发出去,能有几十份回收就非常不错了;但这一次,百分之七八十的听障朋友都在问卷最后填下了建议:我需要用这种眼镜做这些事:……」刘天一说。

      这款眼镜最核心的功能是实时的文字显示——要让文字显示能跟上说话者的速度,亮亮视野将引擎所提供的云原生 AI 语音识别、机器翻译服务整合进了这款 AR 眼镜,能进行智能分句,只会有半句话左右的延迟。

      「AR,Augmented Reality,但现在市面上的不少产品都只注重 Augmented(增强),而相对忽略 Reality(现实)。」刘天一说。亮亮视野优先保证镜片的透光率达到 85%,作为对比,功能更丰富的微软 HoloLens 2 透光率只有 40%。「戴上之后,你感觉完全是透过一块玻璃去看外界。」这更利于听障用户观察周边环境和说话者。

      考虑到用户有可能近视,亮亮视野在眼镜配套中预配了 200至600度区间的镜片,用户也可以用框架自己到眼镜店选配合适的度数。

      为了更好地服务听障用户,亮亮视野砍掉了 Leion Pro 上那些功耗较高的功能。工业用 AR 眼镜比较注重视觉感知的能力,以及相应的 AI 计算能力——都是些耗电的功能。听障用户更需要的是语音转文本,只需让眼镜的算力更多应用在语音识别上,做好实时听写、转译即可。

      相比只戴助听设备,使用这款眼镜的听障用户接收信息的效率能提升 50% 以上——这是亮亮视野联合清华大学的学术团队,进行听力语言测试后得到的对比数据。尽管听译 app 使用成本更低,但很多时候,面对面交流的场景并不适用——人很难同时兼顾观看手机的翻译转写界面并同时与人聊天。团队表示,「我们希望用户能把头抬起来,能更自然的畅快沟通。」有位用户在试用中表示,「第一次可以放松下来和大家聊天了」,聊着聊着她红了眼眶。

      目前,这款 AR 助听眼镜的售价是 12000 元。但亮亮视野选择「亏本」,用户可以拿着国家认证的听力障碍残疾证明拿到 3999 元的入手价。

      李然说到,原计划这款眼镜是作为研究和深入调研下一代听障眼镜的研发方向,但是在过程中,对于那些有迫切需求的听障伙伴,比如面试、就医、办事、语训等需求很迫切,而眼镜能带来不少帮助。即使目前来看这款眼镜只能连接安卓设备,iPhone 因为接口标准暂无法支持。但李然也透露说,「大概明年中下旬会出新一代的助听眼镜,它会是无线的一体机,能支持的机型更多,而且佩戴感受也会提升不少。」

      03

      「做成普通眼镜那样」

      对这群工程师和产品经理来说,去做调研的每一天都很感动。

      「有人跟我说,他出生到现在三十多年间试过大量不同的方法,从药物医疗到助听辅具,但他觉得『也就那样儿』……他们中的不少人已经『心灰意冷』了。即便有手语、辅具、翻译软件等工具的存在,他们仍然感知不到外界更丰富的声音,比如外面的风声,现在聊天室里轻微的人声。」

      近年出现的「隐藏字幕」(CC 字幕)鲜有人知:除了展示台词,字幕还会解释、提示画面中所发生的事情,包括一些细微的环境音。比如动画短片《Blush》——在这部导演向其亡妻献礼的默剧中,讲述了一名园艺宇航家意外坠毁在一颗荒凉的矮行星上。宇航员的飞行器撞到行星发出的巨响,风声吹拂行星地表植物的细响,字幕都将其描述出来。

      假如在未来,眼镜的感知能力和 AI 算力达到了更高的水平,也能把听障原本感知不到的丰富声音用「字幕」显示出来。有听障用户对亮亮视野表达了愿望:「司机按车喇叭,狗冲着我叫,能不能也让眼镜告诉我?」

      「让眼镜里的芯片去充分理解语义,对人的言语进行智能整理,最终给听障用户呈现最精简的版本。以及,做到识别不同说话者的声纹。」这些将是亮亮视野后续进一步的目标。

      公司 CEO 兼董事长吴斐说,「语音转文字 AR 眼镜并非新鲜事物,与众不同之处在于对用户场景的理解更加深刻。」

      人们需要更多「不新鲜」的科技,需要更多对用户需求有深度挖掘的科技。我们已经能够找到一些例子——

      比如专门为听障用户设计的手机翻译 app「迷你语音」。相比市面上的同类产品,它在技术上并不突出,但在用户界面的设计上下足了功夫。它可以将说话者的人声转换成文字,听障用户通过打字来回复对方。与此同时,用户输入的文本的字号被放大数倍并且旋转 180 度面向对方,以便对方更好地阅读。另外,迷你语音还支持了 iOS 15 的画中画特性,可以将语音识别的界面缩小,并且在使用其他 app 时继续转录。

      里索科技则研发了一款叫「无声救星」的助听智能手环。手环配备了无线声音接收器,当手环接收到用户的自定关键词,比如他们的名字,就会震动,提醒用户:身边有人正在说话,请留意内容。有时,听障者说话较为大声,容易尴尬场面,当手环检测到声量过大时,便会震动提示控制声量。

      Digital Nature Group 推出了翻译字幕面板 See-Through Captions,本质上是一个透明的投影仪,可将音频转换为字幕并在其双向屏幕上显示对话。产品有两种款式,固定式的和可移动的,可以在不同的场合使用。

      这些都是对特殊人群的诉求做了深度挖掘的产品。

      亮亮视野的工作人员提前给眼镜设置了「唤醒词」,她设置的是我的名字。biu,她叫我的名字,镜片发出了蓝色的闪烁。他们说,未来会将助听眼镜做成普通眼镜的模样,要做到与普通眼镜没有区别,「这本身就是一个人文关怀设计」。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。