2024年昌平区青少年科学调查体验活动——兴寿学校走进科技馆联盟活动成功举办微软人工智能副总裁 Sébastien Bubeck 将离职并加入 OpenAI路特斯武汉全球总部建筑主体结构已全面封顶爱立信发布2024年第三季度财报:收入超市场预期NVIDIA RTX 5070 12GB性能首曝!光追性能比4070 Ti S高5-10%倒计时,微软Windows 10操作系统将迎来“寿终正寝”央视财经:5 年来我国直播带货投诉量暴增超 47 倍亚马逊英国聚合商 Olsam 陷入财务困境,濒临破产长安启源E07汽车10月21日上市,预售价24.99万元起小米公布汽车底盘发光专利,灯带隐藏式设计避免刮擦损坏微软专家亲历 Gmail AI 诈骗:全程“超级逼真”险些中招,威胁全球 25 亿用户迪士尼动画电影《海洋奇缘 2》内地定档 11 月 29 日微信上线“小程序翻译”功能,支持18种语言深圳某科技公司侵害 OPPO 商标权,被判停止侵权、赔偿损失支出共 100 万元上汽集团总裁贾建旭年中讲话曝光:学会 “跪着做人”,才有站起来的那天一加13手机“下周见”:全球首发第二代2K东方屏、搭自研屏幕芯片P2、支持安卓唯一「太阳显示」技术研华推出SQRAM CXL 2.0内存模块:64GB容量,基于DDR5-5600清单暗示任天堂正为 Switch 2 游戏掌机开发新 GameCube 手柄消息称realme真我GT7 Pro手机电池容量6500mAh,支持120W快充中国联通、中兴通讯、高通完成手机终端高低频 NR-DC 验证,速率突破 9.3Gbps
  • 首页 > 云计算频道 > 大模型

    微软探索音生图AI模型,实时视觉化会议演讲者语音讲述的场景

    2024年10月15日 15:24:39   来源:IT之家

      科技媒体 MSPoweruser 昨日(10 月 14 日)发布博文,报道称微软公司获得了一项新的专利,描述了基于用户实时输入的语音来生成图片。

      根据美国商标和专利局最新公示的清单,该专利共计 20 页,微软于 2023 年 4 月 5 日提交申请,于 10 月 10 日获批。

      根据专利描述,该系统可以在会议或讲座中实时捕捉音频,随后通过语言模型进行总结,并生成相应的 AI 图像。

      援引该媒体报道,该工作会分为 3 个步骤:

      捕捉音频:用户通过麦克风发言,系统实时记录并转化为文本。

      处理文本:分段记录文本,每段内容通过语言模型进行总结。

      生成图像:根据总结生成的提示,系统创建 AI 生成的图像,并在屏幕上实时显示。

      预计该功能将主要应用于 Microsoft Teams。随着演讲者话题的变化,实时生成的图像也会随之更新,从而增强视觉沟通的效果。微软表示,这种图像的使用有助于澄清概念,特别适合通过视觉辅助学习的用户。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。