吉他谱介绍: 3月26日,昆仑万维正式发布Mureka V6模型与Mureka O1模型。Mureka O1作为全球首款音乐推理大模型,多项性能超越Suno V4
3月26日,昆仑万维正式发布Mureka V6模型与Mureka O1模型。Mureka O1作为全球首款音乐推理大模型,多项性能超越Suno V4、登顶SOTA,中国的AI科技公司再次实现DeepSeek时刻,引领AI音乐革命!
去年4月,昆仑万维发布第一代音乐生成模型Mureka V1(SkyMusic)。经过近一年升级迭代,Mureka V6、Mureka O1大模型已全量上线。Mureka是全球首批开放API服务的高质量AI音乐生成平台,将为全球开发者或音乐平台提供顶尖的AI生成音乐能力。
昆仑万维比国内大多数大厂入局AI音乐赛道的时间更早,并且早已将AI音乐视为一个核心竞争方向。Mureka O1的出现,为AI音乐乃至AI应用快速走向商业化提供了一个绝佳范本——达到技术SOTA,向全球市场提供多样化的API服务,兼顾C端用户需求,从而享有更大范围的SOTA红利。
近期,昆仑万维董事长兼CEO方汉接受了财联社访谈。方汉表示,昆仑万维在音乐数据层面已有七八年的积累,在模型和算法迭代方面的工作则始于2021年。Mureka O1如今已取得全球AI音乐SOTA,正是技术和产品双轮驱动造就了昆仑万维的护城河,这种技术先进性不仅真正降低了用户创作门槛与成本,亦将转化为面向全球市场的商业化红利,预计为昆仑万维AI业务商业上的成功带来重要加持。
方汉称,AI产业正向实用化、产品化高速迭代,昆仑万维将关注AI长期发展,致力于在全球范围内落地更多更好的AIGC应用, Mureka降低了用户的创作门槛、创作成本,我觉得是非常有意义的,不仅能让每个人更好地用音乐来塑造和表达自我,也将带来全球各个国家内容创作领域的极大爆发。
加码AI音乐生成赛道背后,是昆仑万维在AIGC领域多年的布局——自2020年开始布局AIGC领域,组建近百人研发团队;2022年12月15日,在ChatGPT尚未在国内现象级“出圈”时,昆仑万维就率先发布「昆仑天工」,彼时其AI内容生成能力就已覆盖文本、图像、音乐、编程等全模态;2023年初ChatGPT热潮真正席卷全球之时,昆仑万维已是国内为数不多的全面布局AIGC领域的重要玩家,发布自研的「天工 1.0」双千亿级大语言模型。
人工智能发展日新月异,过去两年昆仑万维始终坚持大模型迭代和AI应用并行,天工大模型从1.0升级到4.0,AI应用层则是搜索、游戏、短剧、音乐等场景全面开花,出自昆仑万维之手的中国首个音乐SOTA模型Mureka V1(SkyMusic)、全球首个集成视频大模型与3D大模型的AI短剧平台SkyReels在业界均具备首创性。
据悉,Mureka V6是当前Mureka的基座模型,支持纯音乐生成,还支持10种语言的AI音乐创作,包括英中日韩法西葡德意俄,覆盖世界上大多数国家和地区,瞄准的正是AI的国际化路九游娱乐文化 九游app官方入口线中,团队引入自研 ICL(in-context learning)技术,使得声场更加开阔,人声质感和混音设计进一步强化。
Mureka O1模型则是基于Mureka V6的思维链推理优化版本,也是全球首个引入CoT(Chain-of-Thought)的音乐模型,在推理过程中加入思考与自我批判,颠覆性提升音乐品质、音乐创作效率和灵活性。此外,Mureka还提供以歌曲为prompt、音色克隆两大特色音乐生成功能。
值得关注的是,Mureka O1中包含的音乐生成领域创新研究成果MusiCoT,具备技术领先性和前瞻性。由于当前业界关于音乐领域的算法工作非常少,仅少数几个团队公开了工作成果,昆仑万维此次以论文形式公开了Mureka O1的实现原理。
财联社:我试用了一下MurekaV6&O1,生成的歌曲音色很标准,支持多种语言生成歌曲,功能十分新颖。想了解下,此次Mureka V6&O1模型的创新亮点有哪些?
方汉:首先,Mureka V6 支持纯音乐生成,同时也支持10种语言的AI音乐创作,包括中英葡西日韩德法俄意等,已经涵盖了全球人口的将近90%,在全球化的意义上也是非常重要的;Mureka O1大部分指标跟海外的Suno持平,但在部分关键性指标如人声、背景音乐混音等方面领先于Suno。
其次,Mureka是全球首批开放API服务的AI音乐生成平台,我们面向企业和开发者开放两大类灵活的API服务,不仅包括音乐音频生成API,还有语音合成API,涵盖的场景非常多样化。
其中,音乐API包括标准音乐生成API、精调私有曲库API,适用于内容创作、游戏配乐、短视频等多场景应用,还能定制品牌音乐、个人专辑等专属内容;语音API包括语音播客、精品说话人、音色克隆等 API,用于语音播客、预制精品音色语音合成、音色克隆等场景。
值得一提的是,我们还开放了微调API服务,开发者可以拿私有数据来微调模型,可以让模型生成符合其长尾数据特征风格的歌曲,因为我们这个模型毕竟是用常见乐器、常见旋律、常见风格来训练的。比如某个国家有一种特殊的乐器,它的音色可能之前没有被收录,用户将这部分数据上传之后就可以进行模型微调。这对于专业音乐人或工作室来说,作用是非常重要的。
另外,Mureka生成的音乐还能够进行音轨分离,把人声伴奏及每个乐器都按照不同的轨道输出,方便用户后续进行混音与二次创作。
总而言之,我们的创新亮点非常多,也是非常注重国际化和长尾需求,能够让全世界用户用更低的门槛、更低的成本来进行音乐创作。
方汉:我们的用户包括所有对音乐创作有需求的人,包括泛音乐人群,不只是专业的音乐从业者。
举个例子,饭馆需要放背景音乐,之前可能是要用比较不菲的价格购买商业音乐,现在可以用我们的产品制作饭店专属的音乐。同时,独立游戏开发者、影视创业者也可以跳过原来外包的音乐生产形式,带来成本的降低。 目前已经有超过 100 个国家和地区的用户访问Mureka。
财联社:目前国内有海绵音乐,国外有Suno,但整体上国内外还没看到太多AI音乐相关的产品。按照目前的技术水平,Mureka是否已经取得了这个行业的SOTA地位?
第一,我们在音乐数据上已经有了将近七八年的积累。此前我们收购了美国音乐社交公司Star Goup,获得了超过200万首的授权曲库,后来我们逐渐将核心产品StarMaker打造成为海外音乐社交领域的头部,在东南亚及中东地区优势稳固,同时在拉丁美洲及欧洲主要市场跻身第一梯队,历史注册用户3.1亿。中国有这样经验的公司并不多。
第二,模型和算法的迭代上,我们从2021年开始对音乐模型进行了多次迭代,在AI音乐生成领域的每个方向都进行过认真的探索和尝试。
同时,我们也注意引入文本大模型里面的先进技术,比如Mureka O1首次在音乐生成领域应用CoT技术,通过逐步反馈与优化机制,显著提升了歌词旋律契合度、演唱准确性和艺术表现力,同时保持了低延时音乐生成。
另外,Mureka O1还能保持非常高效的推理效果,推理速度比竞品可能要快一倍以上。
财联社:兼具稀缺性和有趣,Mureka将来有希望成为“Killer App”么?
方汉:我觉得在音乐赛道,Mureka成为Killer App是毋庸置疑的。
财联社:如果未来3-5年AI音乐行业技术出现颠覆性突破,昆仑万维将如何保持核心竞争力?
方汉:我觉得还是要双轮驱动,首先技术上要保持领先,我们有大量的音乐数据,在模型侧也有长期的研发积累,我们一定会继续向前,不断迭代;在产品上,我们也会进行产品上的大量创新,不断探索如何让普通人更好地利用我们的工具来生产更好的内容,在这方面我们可以做的工作也很多。
基于技术和产品双轮驱动,我相信我们的护城河也会越来越深。我们对于音乐赛道可能比大厂还要更加专注,因为这是我们的一个核心竞争方向,所以我们非常有信心在长期的竞争中取得最后的胜利。
财联社:此次Mureka O1上线,是否音乐创作是昆仑万维比较看重的一个细分领域?为何比较看重这个细分领域?
公司的口号是「实现通用人工智能,让每个人能够更好地塑造和表达自我」,第一句话是说AGI——所有人的长期目标,第二句话实际上指的是AIGC,即内容生成赛道。
AIGC指AI生成绘画、音乐、音频、视频等领域,所有这些内容创作在AI介入之前成本较高。举个例子,原来一个公司采购一首曲子,要找人作曲、找乐队演奏、找混音工作室用硬件设备混成最终的曲子,单首曲子的报价大概十万元人民币,在Mureka出现之后,我们可以把单首曲子的创作成本降到几块钱甚至几分钱。这样的结果是:降低了所有人创作内容的门槛。
让每个人更好地塑造和表达自我这件事情,我们觉得非常有意义。不仅降低了用户创作门槛、创作成本,也将带来全球各个国家内容创作领域的极大爆发。
同时,我们因为出海比较早,我们有海外音乐社交产品StarMaker,每天有600万人在上面唱歌并且分享。作为音乐赛道的一个长期的重要玩家,我们积累了大量的技术经验和数据,我们从2021年就开始研发Mureka的基座模型,才使得Mureka O1音乐生成大模型终于能够达到世界第一的位置。
我们相信在音乐赛道技术上的领先,能够转为产品和市场上的大量红利,这是我们非常看重音乐创作这个细分领域的一个重要原因。
财联社:站在商业化角度,Mureka取得了SOTA地位后,能够带来哪些利好?
方汉:只有在技术上达到了SOTA,大量的KOL在使用过产品之后会自发地去宣传,所有的用户也会形成一个心智:中国人做的Mureka是目前最好的音乐生成模型,也是目前推理速度最快的、也是能够定制化生产本地化音乐的模型。取得SOTA地位之后,大量的小语种国家唯一的选择就是Mureka。
正如前面所说,我们拉低了成本、制作门槛,商业版订户也会大幅增长。音乐制作工具是一个每年约40亿美金收入规模的市场,但其实制作歌曲的人比听歌的人要少。但随着门槛降低,未来Mureka全球潜在用户群会比之前数字音乐工具市场的用户群有十倍甚至百倍的增长,这将对我们AI业务商业化有非常大的帮助。
财联社:我也注意到Mureka提供两大类灵活的API服务,融合了很多细分场景的实际需求。背后是否意味着有比较大的商业机会?您看到的趋势是怎样的?
方汉:我们提供的API面向不同的应用场景,我刚才说的音乐制作工具赛道其实是一个相对窄的赛道,但是提供语音播客API,市场就更广了,比如Podcast(播客)一年就是一两百亿美金的赛道。
如果把相关合成API都开放给用户,不管有什么样的需求,可能通过Mureka都能得到一揽子的解决方案。比如:智驾场景,车主可以定制专属座舱音乐;MCN等内容制作公司可通过企业级定制化服务制作短视频、广告配乐;开发者可以用API做二次开发提供更有趣的音乐教育、音乐陪伴等产品;垂直场景的播客、有声内容甚至是影视配音领域,都可以用语音合成API支持带情感的人声,用于有声书、虚拟主播等场景。
AI音乐的API商业化已经进入爆发前夜,短期机会是B端效率工具和C端创作平台,长期则可能衍生出音乐版权区块链、AI作曲师等新业态。
财联社:Mureka主要面向海外,此前发布的AI短剧产品SkyReels也是面向海外,昆仑万维后续是否把海外作为AI的主战场?
首先,欧美对于所有付费型产品,包括SaaS付费甚至个人用户订阅付费,都已培育了较好的付费习惯;其次,海外不是单一市场,而是多语种混合的市场。对于我们这种在海外从0到1打造了多款千万级DAU产品的公司,我们在出海方面的经验非常丰富。
之前的SkyReels等产品进展也是非常快,已经取得了一些成绩。我们基本上都是围绕着通过技术来降低用户创作内容的门槛和成本,只不过这次Mureka走的是音乐赛道,其他产品走的是社交与视频赛道。
财联社:在您看来,这一波人工智能浪潮发展演变到了什么阶段?昆仑万维下一步的整体AI战略是什么?
方汉:我认为人工智能已经到了从实验室或技术报告,甚至说从ToC大量地向ToB去转化的阶段,有大量的实际落地场景是非常明确的。产业已经向实用化、产品化方面高速迭代,我觉得现在这个阶段是令人激动的,因为开始真正创造实际价值了。
正如前面所说,我们的愿景和价值观是「实现通九游娱乐文化 九游app官方入口用人工智能,让每个人能够更好地塑造和表达自我」。如果说前半句是指仰望星空,那么后半句指的就是脚踏实地,落地更多更好的AIGC应用,兼顾商业和技术。
财联社:年初DeepSeek爆火引出了“AI普惠应用”的一个提法,你们怎么看这个说法?真正要实现AI普惠应用要跨过哪些难关?
方汉:普惠应用肯定是一个终局,但要实现普惠应用,硬件、软件以及产品方面都要有大幅创新。
硬件方面,目前成本高昂,同时AI硬件市场应该说是全世界一家独大。随着硬件竞争不断加剧,单位成本会逐渐降低,市场上应该会出现至少3-4家公司互相竞争的局面,这样才能推进硬件的高速迭代。
软件方面,软件算法的优化空间目前远远没有到挖掘殆尽的地步。DeepSeek的优化使得推理成本出现十倍甚至百倍下降,我们认为算法软件优化仍有巨大的空间来降低成本。
产品创新方面,通过产品模式的创新让大多数人也能免费使用产品,这里面其实有很多的工作可以做。在中国的游戏及互联网应用里其实已经有很好的产品模式,我相信通过产品模式创新,也能让更多普通人使用大模型来提升生活体验,实现AI普惠。
财联社:昆仑万维从2020年就开始做AI方向的大模型研发,按照目前的进展,您如何评价公司在整个AI行业中的地位?
方汉:我们属于一家关注AI长期发展的中型科技公司。跟大厂比,我们的资金没那么多,但是更加灵活高效,对于业务的垂类方向也更加专注;跟初创公司比,我们因为是上市公司,也有巨大的现金流,资金充足,不会因为短期融资的困难而动作变形。长期来看,我们可以坚持研发方向,以用户需求为导向,这样的话才能真正取得一定的成绩。
财联社:您是否认同“Scaling Law已经放缓”?当前技术路线下,大模型距离“通用人工智能”还有多远?
方汉:Scaling Law最早指的是在预训练阶段,人类把所有数据都灌进去,让大模型去学会,但实际上人类的高质量数据基本上已经用完了。而且算力卡的规模再往上堆叠,训练成果也没有明显的提升。预训练的Scaling Law肯定已经是大大放缓了。
在OpenAI o1和DeepSeek R1出来之后,推理的Scaling Law也已经出现。在推理侧,我们用更长的时间让模型输出,能够提取得更好的效果,推理的Scaling Law现在还在增长中。
但是从长期来看,推理的Scaling Law本质上是让大模型去学习人类推理的数据,目前大模型仅学习了数学和编程的推理数据,对于大量的高质量垂类数据,大模型目前仍然是一个死记硬背甚至没有掌握的阶段。
我认为,大模型在垂类数据以及更多的常识方面,不管是预训练Scaling Law还是推理Scaling Law,都还有一定的发展空间。
本站曲谱部分来源于网络,仅供学习交流分享,九游娱乐吉他教学网不承担任何由于内容的使用所引起的争议及损失。如有侵权,可联系管理员删除处理。本文链接:http://www.cznoblelift.com/news/2491.html