安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购京东“先人一步”预约OPPO Reno13系列 1元锁定腾讯视频VIP会员季卡万兆光网中国行:以应用为牵引,上海万兆加速启航消息称芯片制造商铠侠12月18日上市,将通过IPO筹资总计700亿日元
  • 首页 > 云计算频道 > 大模型

    Stability AI发布AI音乐生成工具Stable Audio

    2023年09月14日 15:24:36   来源:站长之家

      总部位于伦敦的初创公司 Stability AI 于周三推出了一款名为 Stable Audio 的新产品,该产品利用人工智能生成定制音乐曲目和音效。

      Stable Audio 使用一种基于扩散的 AI 模型,可以在几秒钟内从简单的文本输入生成定制音频文件。用户可以指定音乐风格、乐器、音调和其他特征,系统然后自动创作出相匹配的歌曲、音效或乐器声部。

      Stability AI 使用输入文本进行了测试,如“后摇滚、吉他、鼓套、低音、弦乐、欢快、振奋、情绪化、流畅、原始、史诗、多愁善感、125BPM”。结果是一首快速的大气摇滚歌曲,BPM 为125。根据 Stability 的说法,这表明 Stable Audio 可以生成多种风格的歌曲,包括氛围音乐、技术音乐和电子舞曲。

      与以往基于人工智能的音乐生成器不同,Stable Audio 似乎能够以长达90秒的时间生成音乐上连贯的作品,并且以44.1kHz 的专业音频质量。

      生成的样本音频听起来非常真实,几乎不会让人怀疑背后没有人类作曲家。根据 Stability AI 的说法,使用 Nvidia A100GPU,95秒音频可以在不到一秒钟内生成。

      这种技术有潜力在各种应用中发挥作用,特别是在电影制作和游戏开发等创意领域。通过网络浏览器可以访问,即使对人工智能不熟悉的用户也能轻松使用。

      为了实现这种质量,Stability AI 对音乐库进行了培训,音乐库由 AudioSparx 提供。通过使用约80万首歌曲、音效和乐器片段,AudioSparx 与 Stability AI 合作,并承诺将音乐库的收入份额提供给初创公司 Stability Audio。作为回报,参与培训的歌曲的创作者可以通过 AudioSparx 分享 Stable Audio 的利润。

      据称,在培训之前,这些创作人被问及是否愿意提供他们的歌曲。这个决定可能是对 Stability 在 Stable Diffusion 的培训素材涉及版权辩论中所面临的大规模反对的回应。

      根据 Stability AI 的说法,用户可以免费将使用 Stable Audio 创建的音轨用于个人用途。商业用途需要付费订阅。该公司的目标是创意专业人士,如电影制片人或游戏开发人员,他们需要快速获得合适的背景音乐。

      Stability AI 还计划发布一个基于不同数据集训练的开源音乐模型。

      Stable Audio 不同于 Stable Diffusion,因为它不是开源的,不像流行的图像模型那样。然而,FAQ 中表示,将很快发布一个基于其他数据集训练的开源模型。

      Stable Audio 的基础是文本到音乐的模型 Dance Diffusion,该模型是在2022年由 Harmonai 发布的,并得到了 Stability 的支持。然而,Stable Audio 是 Stability AI 音频部门从零开始开发的模型,该部门成立于2022年4月。

      对音乐使用扩散模型并不是一个新的想法。然而,Stable Audio 的强大之处在于它能够以不同长度生成作品,训练过程中考虑到了这一点。

      Stability AI 是这样解释底层技术的:Stable Audio 是一个潜在扩散模型,由几个部分组成:变分自动编码器 (VAE)、文本编码器和基于 U-net 的扩散模型。 VAE 将立体声音频压缩为有损、抗噪声和可逆的潜在编码,从而实现更快的生成和训练。 新训练的 CLAP 模型的冻结文本编码器用于文本提示。 定时嵌入在训练期间计算并用于控制输出音频长度。 Stable Audio 的扩散模型是基于 Moûsai 模型的9.07亿参数 U 网。

      您可以通过最近推出的网络界面专门使用稳定音频。每月有20首时长不超过45秒的歌曲免费供个人使用。每月只需11.99美元,即可获得500首歌曲,播放时间长达90秒,并获得商业许可。

      没有内容过滤器很容易导致抄袭

      该工具还可以用来伪造流行艺术家的歌曲。到目前为止,唱片公司已经能够成功地对抗此类人工智能创作,但法律状况仍不清楚。

      Stability AI 本身在接受 Techcrunch 采访时坚称,它希望负责任地使用该技术。AudioSparx 的数据库不包含流行歌曲,但许多歌曲都以知名艺术家的风格进行标记。与谷歌的 MusicLM不同,著名艺术家的名字不会被屏蔽,至少目前还没有。

      Stable Audio 能否为 Stability AI 的商业模式带来回报还有待观察,该商业模式迄今为止一直处于亏损状态。无论如何,人工智能作品的令人印象深刻的质量让你刮目相看。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。