九游娱乐(NineGame)官方网站-九游随心而行

ZPotentials|郭靖千万美金ARR的AI音乐破局者ACEStudio如何让15位格莱美得主抛弃$500时薪歌手?-九游娱乐官网

ZPotentials|郭靖千万美金ARR的AI音乐破局者ACEStudio如何让15位格莱美得主抛弃$500时薪歌手?

吉他谱介绍:  郭靖创立的ACE Studio利用AI技术重新定义音乐创作,推出虚拟歌姬APP,后升级为面向专业音乐创作者的桌面端软件。   2.与传统音乐制

曲谱详情

  郭靖创立的ACE Studio利用AI技术重新定义音乐创作,推出虚拟歌姬APP,后升级为面向专业音乐创作者的桌面端软件。

  2.与传统音乐制作工具相比,ACE Studio更注重工具的人性化设计,让每个人都能自由地表达情感和创意。

  3.除此之外,ACE Studio还计划借助基础模型迭代和Canva式生态玩法,打造长期壁垒。

  4.目前,ACE Studio已吸引15位格莱美得主关注,月收入稳定在80万美元以上。

  5.未来,郭靖希望建立一个简单且强大的工具,整合整个音乐行业,让专业人士和非专业人士都能使用。

  当传统音乐制作仍被繁复的乐理知识与高昂的录音成本筑起高墙,一群理想主义者正用AI重新书写规则。从乐队主唱到AI音乐创业者,郭靖(Joe)的十年探索,恰是音乐行业从“精英创作”向“全民表达”演进的时代缩影——他曾因工具掣肘埋没作品,却在自学编程的硅谷岁月里顿悟:技术不该是艺术的门槛,而应是创作者的翅膀。2019年,他带着“去工具化”的执念创立ACE Studio,让歌声合成从专业录音棚走向每个人的桌面,更在监管风暴后完成从娱乐应用向生产力工具的惊险一跃。当多数AI音乐产品仍在比拼“一键成曲”的炫技时,这支团队为何坚信“Human-in-the-Loop”才是颠覆行业的正解?

  从5万美元/月到80万美元/月的收入飞跃,背后是一场“肉身出海”的孤注一掷。2023年的ACE Studio曾困于国内市场的天花板,却在NAMM音乐展上与15位格莱美得主的偶遇中,窥见全球专业创作者未被满足的刚需:用AI解决童声难寻、多语言合唱、即时修改的行业痛点,替代的不是软件,而是“每小时500美元”的真实人力成本。从硅谷孵化器HF0里系统化的KOL触达SOP,到自建5B参数可控模型的技术深垒,这支自嘲“非科班出身”的团队,正在用“先搞了再说”的极致执行力,将中国AI音乐解决方案写入好莱坞配乐师的日常工作流。他们的野望不止于工具——当音乐模板生态遇上生成式AI,会是下一个Canva式的内容平权革命吗?

  本期Z Potentials访谈系列,我们很荣幸邀请到郭靖(Joe)先生,与我们分享他的心路历程,Enjoy!

  “于是我意识到,我们不该一味向工具妥协,而应让工具适应人,每个人都有情感和表达的需求。基于这一思考,2019年初,我们决定利用AI的力量来重新定义音乐创作。......那么人就不应该被工具化,就是我不应该和计算机比智力、比运算速度等等,因为人脑本来就接受不了极度复杂的东西。”

  “因此整个事情就奠定了我的审美就是去工具化,就是人不应该变成一个工具,就和古人说的君子不器是一个道理,人是被工具服务的,让你能够自由地发挥你的情感、你的Big idea、你的Authenticity。”

  “将虚拟歌姬改造成ACE Studio,是真正Enhance Creation的Tool。......因此我们不是去替代一个已经解决这个问题、或者解决了八成的一个软件,今天我们替代的这个环节正好是没有任何一个软件,或者没有任何产品能够解决的。”

  “Capcut实际上做到了两件事情,第一是把视频创作这样一个专业分工明确的行业和上下游整合成一个简单的工具,第二是把人群做大了十倍甚至是一百倍。因此,未来音乐创作行业也是同样的发展轨迹。”

  郭靖:大家好,我是Joe。我们正在打造的产品是ACE Studio——一款AI音乐工作站。当前,它的主要功能是“Text to Singing Voice”,也就是通过输入文本和音符,自动生成歌声,面向的是专业的音乐制作人和创作者。

  回顾我的经历,其实我大学时期就是搞乐队、写原创歌曲的,当时一直怀揣着一个梦想:能自己制作出达到发行水平的专业音乐。虽然那时写的歌曲都有独特的灵性,但始终没有机会发布,而主要原因就是当时使用的音乐制作工具实在太复杂、难用。

  毕业后,我先在一家游戏公司从事增长工作,参从0到1与打造过几款用户量过亿的手机游戏。之后,从2015年底到2016年底,我给自己留了一个Gap Year。那一年里,我一半时间在北京,一半时间在硅谷,目的在于探索世界上新的可能性。我走访了不少创业者,询问他们在做些什么,同时,作为一个Nontech出身的人,我也利用这段时间自学了高等数学、机器学习、编程等技术,并提升了英语水平。尤其是在硅谷的后半年,我还去了Draper University(ZP注:是由知名风投人Tim Draper(德丰杰DFJ创始人)于2012年创办的一所创业学校,位于美国加州硅谷),在那里,我们有机会接触到像Elon Musk这样的投资者。

  2017年初回国后,我开始了两次创业尝试。第一次创业做的是一个Chatbot项目,但当时技术尚未成熟,再加上我对创业也还不够成熟,结果在2018年底就选择放弃了这个项目。项目结束后,我开始思考下一步该如何前进。大学时的音乐制作经历和Gap Year中自学编程等技术的体验形成了鲜明对比:我发现,编程和复杂技术其实并不难,而当初我认为音乐创作之所以艰难,很大原因在于那些陈旧、繁琐的工具。于是我意识到,我们不该一味向工具妥协,而应让工具适应人,每个人都有情感和表达的需求。基于这一思考,2019年初,我们决定利用AI的力量来重新定义音乐创作。

  接下来3年,我们推出了一个名为ACE虚拟歌姬的APP。但由于监管政策的原因,这款APP在2022年底被迫下架。经历这一波折后,我们发现原本使用ACE虚拟歌姬的用户中有很多专业音乐人,他们使用这个工具并非仅仅为了娱乐,而是为了提高创作的生产力。于是,我们对产品进行了改造,将其升级为一款更加专注于生产力的桌面端软件,也就是现在的ACE Studio。

  自2023年10月上线以来,我们的产品发展势头迅猛:最初月收入稳定在几万美元左右;到2024年9月,我们加入了HF0孵化器(ZP注:Hacker Fellowship旗下的一个创业孵化器,由Hydra支持,专门为极具工程能力的创业者提供资金、资源和支持,帮助他们创办技术驱动的公司),月收入提升到了8-9万美元。从加速器3个月的周期中出来后,12月、1月、2月的每月收入来到80万美金。

  ZP:作为连续创业者,回顾2017年您尝试推出Chatbot项目的经历,当时您所处的市场环境是怎样的?您希望通过这个产品解决哪些实际问题?

  郭靖:当时我还是一个不太成熟的创业者,就是一门心思想做AI、以及想做和AI交互有关的东西,虽然具体要做什么并没有一个非常明确的方向,但我们觉得Bot类产品看起来很酷。由于做通用场景的Bot效果并不理想,我们便想寻找一个垂直的应用场景,看看能否实现更好的效果。最终,我们选择了汽车领域,从汽车售前咨询到售后维修咨询,逐步发展成了一个汽车维修助手。简单来说,用户可以问:“我的车出了问题,该怎么办?”系统就会提供相关资料、答案以及维修指导。

  不过,这个项目在商业和技术上都面临了不少挑战。从商业角度看,即使Bot能告诉你怎么修车,它毕竟也无法替你完成实际维修;而在技术层面,我们当时想实现的功能有点类似于今天的RAG系统——既要支持用户自由对话,又要准确识别他们的具体需求,这要求我们在一个封闭的数据库里调用资料或执行函数调用,但我们当时用的模型效果并不理想,加之依赖大量规则来驱动整个流程,最终我们发现很难让这个Bot真正变得有用。

  郭靖:其实选择AI,主要还是出于我个人的审美,因为我觉得AI的本质就是一个复杂网络:每个基本单元都独立运作,但又能以某种方式有机地组合在一起。虽然每个小“原子”只遵循极为简单的规则,但当它们聚合时,整个系统却能涌现出非常复杂的Pattern,也就是今天大家说的“智能”,这种感觉让我很迷恋。

  郭靖:这是一个很有趣的问题,很多投资人会偏好成功过、挣过大钱的创业者,因为这种创业者往往对短期利益没有诉求,他们的追求会更长期,但我想给一点补充,就是考虑去寻找那些不得不创业的人,比如像我这类型的创业者,我创业的动力很简单朴素——我没有别的选择,因为我是一个希望以自己的方式去做事的人,而在一个公司里我就不得不适应公司的体系,消耗的精力大于做事情的本身。以及因为我们没有赚过大钱,我们对于生活中的欲望也很低,核心诉求还是如何做一个牛逼的事儿。

  ZP:10年前对自己的期待是什么,目前达成了吗?站在今天,希望10年后的自己成为什么样的人?

  郭靖:10年前我感到自己还是在混沌中,在Gap Year的时候才慢慢有觉醒的感觉,当时我就是想在硅谷创业,到现在也是花了八年的时间,才终于做到了这件事。10年后我希望能做一个对世界有影响的事情,并且希望这件事情能让世界向我的审美方向发展,即让人们的创造和表达变得没那么复杂,因为音乐创作是人性中孩童般天生具有的能力。

  郭靖:我喜欢打拳,我之前在北京的时候练拳击练了三年,我的水平是达到了半职业或一般拳馆教练的水平。

  郭靖:对我影响比较大的一本书叫《深奥的简洁》,这是一本讲混沌学和复杂系统的书,可以说为我奠定了审美。最近我喜欢看的一本书是菲尔·奈特的自传《Shoe Dog》,这其中写了很多创业中真实的过程,菲尔·奈特的创业伙伴们是一群来自俄勒冈波特兰的被世界低估的人们,每次在一起开会的时候都有强烈的自我厌弃感,因为经常有人说他们是出身一般的乡巴佬,但其实他们每个人身上都有一些独特的天赋。菲尔·奈特的伟大之处就在于能让这样一帮人发挥出自己的才华、打造出耐克这样伟大的公司,这些创业经历跟我在某种程度上有很深的共鸣,给我了一些灵感关于哪些事情是打造伟大公司的必要的和不必要的。

  ZP:回到这次创业的起点,2019年想到基于AI重新定义音乐制作,当时是关注到了什么样的机会?

  郭靖:在我2017年从美国回来的时候,我其实就一直在找一种全新的音乐创作方式,或者说是一直在寻找一种去工具化的机会。这个原因来自于我在Gap Year这一年的学习中,我学了很多东西,然后我突然惊奇地发现这些很多是我以前学不会的东西,比如我大学的时候也有C++的课程,虽然现在我觉得当时教得都很简单,但我当时觉得这个东西和天书一样,完全理解不了它是什么意思,所以后来我发现是因为教得不好,是因为他们没有把虚拟的东西连接到某一个实物上、或连接到某一个意义上。直到后来我在MIT OpenCourseWare学习了代码、高等数学、机器学习。我发现所有今天看起来巨复杂、巨专业的东西,都是来自于简单Idea的萌生,然后在简单的Idea之上慢慢叠加。但如果没有这个叠加的过程,而是将结果填鸭式地灌输给后来者,他就会非常复杂。所以那个时候给我奠定了一个对世界的审美,就是人其实脑子都差不多,那么人就不应该被工具化,就是我不应该和计算机比智力、比运算速度等等,因为人脑本来就接受不了极度复杂的东西。

  所以任何一个极度复杂的东西,它今天要么是因为教学的问题让你错误理解了它的复杂度,要么就是这个工具设计的问题。就比如说创作这件事情里,复杂工具就很难让你把真正的人性发挥出来,让你错误地认为你不是创作的这块料。因此整个事情就奠定了我的审美就是去工具化,就是人不应该变成一个工具,就和古人说的君子不器是一个道理,人是被工具服务的,让你能够自由地发挥你的情感、你的Big idea、你的Authenticity。

  ZP:所以我们最早做了ACE虚拟歌姬,当时产品的定位是什么?关注到我们后面又转型做了更加专业化的工具,又是什么原因?

  郭靖:最开始做虚拟歌姬的想法很简单,就是让普通人能够创作音乐并分享。但除了客观原因的监管问题之外,产品层面还有一个问题就是做娱乐向门槛不够低,做生产力向又不够专业,所以会导致用户用得很尴尬,产品就遇到了瓶颈,今天来看Suno是做这件事最正确的形态。

  所以我们当时在思考一个问题是,AI时代的马太效应是什么?虽然目前这个事本身没有一个定论,但是我们那个时候的直觉就是用AI去做一些有创造力的东西是更合理的,AI这个技术不是像互联网一样改变人与人之间的连接方式,而是改变人创作某一个东西的生产力。那么我们能不能用虚拟歌姬的能力去增强音乐制作的生产力,于是我们后面决定将虚拟歌姬改造成ACE Studio,是真正Enhance Creation的Tool。

  郭靖:在ACE虚拟歌姬的用户里我们发现,在音乐创作行业里有一个很大的问题是——歌声很难获取,就类似于TTS出现之前需要专业人士的配音,现在99%的音乐都是歌,而歌中都有歌声,歌声都是需要人唱的。那其实歌手在录音的过程中是很耗时耗力的,而在音乐制作的这个场景里有很多需要歌声的部分,比如说电影配乐里面的吟唱等。我举一个具体的场景需求,比如说你作为一个制作人需要制作一个广告片,而广告片中需要有童声,但是你要找一个五岁、会唱歌的小姑娘来唱歌,这是很难找的。但是今天ACE Studio里面就有,你甚至可以在ACE Studio里做一首全新的大合唱,而不是雇佣几十个人、再找一个巨大的录音棚。

  在我们发现这些真实问题的时候,我们发现AI确实能解决这个问题。而且有趣的是,在这个行业中没有传统的方案,在没有AI之前,传统的方案就是找人,而找人是一种非常昂贵的方案。因此我们不是去替代一个已经解决这个问题、或者解决了八成的一个软件,今天我们替代的这个环节正好是没有任何一个软件,或者没有任何产品能够解决的。

  我们会针对不同的Type、不同的Genre找代表性的人,比如有唱歌剧的、唱民九游娱乐 九游娱乐官方族的、唱童声的等等;而且我们会做更多的语言,比如目前我们支持英语、西语、日语和中文,接下来还会做法语、德语等等。

  ZP:了解到ACE Studio今天取得了很不错的进展,也请您分享下ACE Studio是如何逐步找到PMF的?

  郭靖:其实我们在做ACE虚拟歌姬的时候做了很多事情,但是在做ACE Studio的时候,我们已经看到了用户的行为,所以非常确定这个产品一定是有用户用的,只是我们不确定到底有多少人用?能多挣钱?规模有多大?一直到最后我们的直觉是要出海,因为海外的音乐制作市场更大,中国没有什么音乐生态。所以我们很决绝地赌了肉身出海这条路,今天回头来看是赌对了。

  但是到目前为止,我一直觉得离真正的PMF还有一定的距离,因为产品达到PMF之后,应该是即使付费功能做得很差、引导功能做的很差,用户也愿意使用、去钻研、去想办法付钱,做到这样才算达到PMF,比如Docusign、Meta广告后台。

  郭靖:23年我们刚上线的时候,收入还可以大概是每个月5-6万美金,但是后面就慢慢掉,因为国内的用户已经消耗得差不多了,国内网易云音乐的注册人数是60万,而Spotify的注册人数是2000万,那这个差别是很大的。所以我们刚开始的时候就是想出海,在23年10月份上线的时候,这个产品就是全球可以访问全球可以支付的。而且因为上线的时候我们就觉得要做一个全球化的产品,所以在YouTube、Twitter上我们也在发产品相关的推广视频,在Discord里也有我们的用户群,但是在海外就是没有人用,而且我们联系了100个海外的KOL,邀请他们做产品测评,但是几乎是0回复。这期间我们有过灰心的阶段,但投资人和身边的朋友也提醒我,“今天出海是Money on the table,出海不顺利是因为GTM有问题,而不是产品不work。”

  事情的变化是发生在24年1月底,我们去参加了一个美国的音乐展NAMM Show,当时就获得了非常多音乐人的关注,而且很多音乐人是他的朋友先看到了我们的展位,然后把他们带来的。后来很多人留下了联系方式来参加我们的月卡抽奖活动,事后我们一查,留给我们联系方式的60个人里面有15个格莱美获奖者或者提名者,也就是有很多人都是在音乐制作行业鼎鼎大名的大牛。所以我们发现海外音乐制作的生态真的很好,其次我们发现我们的确是一个好产品,而问题在于他们没有发现我们。这是第一波海外的用户,我们当时冲到18万美金的月收入,虽然后面因为Foundation Model在英语口音层面不够好,掉到8-9万美金的月收入,有百万美金ARR的感觉了。

  第二波是我们申请了HF0(ZP注:HF0是由Lucy Guo和Dave Fontenot在2019年共同创立的常驻创业孵化器),在这里我们非常沉浸式地搞增长,也在此期间更新了大量的Feature、升级了Foundation Model,让欧美用户真正有好的用户体验;我们也将Influencer Reach Out这件事变成了SOP,复盘之前0人回复的原因,是应该持续不断的Reach Out,而且如果海外没有听说过你,刚开始Reach Out会有强烈的不信任,需要先有一些曝光,比如在音乐节出现,让大家觉得你不是一个骗子公司。而且,100个人应该有多少人回复我们在最开始是没有概念的,其实10%是合理的,如何打造一个系统可以在一天Reach Out 100个人、如何可持续去做Reach Out,这是我在HF0和Blake Anderson(ZP注:千万美金ARR卡路里追踪AI应用Cal AI的创始人)聊天的时候学到的,他的策略就是每周Reach Out 200个Influencer,Reach Out的模版持续更新、不断优化对方的回复率、以及不断优化对方的RPM,当一波Influencer性价比趋于平庸的时候,就要换另一波Influencer,这些都是非常正规军式的增长方法。守正出奇,首先是要把正路系统性地去做好。

  郭靖:首先从团队来看,我并没有出国留学的经历,甚至大学四级都没过,另一个合伙人也是国内的本科生,是一个音乐艺术生,第三个合伙人出国留学也只是在英国呆了一年,所以我们的团队并没有出海的天然优势。但我认为我们成功的关键在于执行力,我们没有过多犹豫,而是决定先行动。这里可以分享一下我当时申请HF0的故事,最开始听其他Founder提起HF0这个名字时,我甚至不知道它是一个加速器,于是我上网查了相关资料,打开申请网站,一条一条填写信息,大概花了一个小时左右。四五天后我查看邮箱,发现收到了面试邀请,当时只剩下一个15分钟的Slot了,我赶紧选了那个Slot,我先进行了线上面试,第二天就去了旧金山参加线下面试,第三天就收到了Offer。整个流程顺利得让人有些意外,但很多人可能在各种节点上会犹豫,比如去了有没有用、会不会面试不上。但我只是觉得这是出海的最好机会,就去尝试了。包括我们去美国音乐展也是,提前一个星期申请,自己淘宝做物料,别人说需要用跨国物流邮寄来不及,我们就直接拿上飞机,被罚款1000多美金,缺什么东西就在当地找朋友借,搭台唱戏就直接上了,先搞了再说。也有人说我们不是Native Speaker,融资会减分,但我看很多留学的同学都没有我现在英语好,就是硬去做、硬去学,从2016年我去国外Gap Year时英语都不敢开口,到现在能和外国投资人轻松对话。

  郭靖:我认为是有巨大变化的,首先海外音乐人的数量是够的,但为什么音乐制作行业中没有出现特别伟大的公司,只是有很多一两亿美金年收入的。要回答这个问题可以回看20年前的视频行业,视频行业非常复杂,所以被拆分成许多小公司来负责某一块业务,人群也很Specialized,能被称作视频创作者的人不多。但最近我看到Capcut已有9亿的MAU,也就意味着世界上每十个人中就有一人是视频创作者。Capcut实际上做到了两件事情,第一是把视频创作这样一个专业分工明确的行业和上下游整合成一个简单的工具,第二是把人群做大了十倍甚至是一百倍。

  因此,未来音乐创作行业也是同样的发展轨迹。今天我们看到的几千家音乐行业的公司,有做插件、微调和虚拟乐器的平台或工具等,它们的存在无非就是为了产出一个几分钟的音频内容。所以我们的长期愿景是做一个简单且强大的工具来整合整个音乐行业,让专业人士和非专业人士都可以使用一个工具来创作同样高质量内容,并且把行业的人群扩大十倍或一百倍。

  郭靖:我们首先研究了目标人群的消费习惯。例如,我们发现一些音乐人习惯花500美元购买永久会员。因此,我们决定将我们的产品定价在每年一两百美元之间,这样显得更为合理。为了确定最终的定价,我们在过去三个月里进行了三到四次A/B测试,最终的价格是基于这些测试得出的。

  目前,我们的商业模式是:没有月度订阅,只有199美元和264美元的年卡,而且付费率并没有因此下降。这也是经过测试得出的结果,因为在这个行业中,用户习惯购买一次性付费的产品。如果采用月度订阅模式,就需要用户有频繁的日常需求,但实际上,虽然这对用户来说是刚需,却不是高频需求。我们发现,许多音乐创作者可能几个月才做一首歌,所以对于他们来说,只要使用一次我们的产品就已经非常划算了,毕竟在美国雇佣一个歌手的费用通常是每小时300-500美元。所以年卡比月卡的定价方式更符合他们的需求。

  郭靖:具体来讲,我们的核心技术是创作歌声,而音乐无非是各种各样的音轨叠加,一个音轨相当于是一张图片的图层,所以我们有了歌声这一层之后,还需要其他层(比如乐器等)去生成一首完整的音乐。其他层方面我们采用Text-to-music方式,用户通过输入Prompt生成对应旋律的音轨,并且融合到整个作品中。这样一套技术基于大模型和ControlNet来控制每一个音轨的生成,我们内部目前有一个和Suno2.5质量水平差不多且具有可控性的模型,参数量在5B左右,会在一两个月内上Beta版本。我们去年最大的更新是将产品从一个歌声的Workstation升级成完整的音乐创作的平台。

  郭靖:目前来看差异性很大,Suno更偏ToC,而我们更ToP(Professional/Creator),而且商业模式方面,Suno有大量免费用量,而我们是年度订阅制。长期来看,可以参考Comfy UI/Krea和Midjourney/Flux的差异,用户已经不满足于只是Model as a Product,而是需要更深的工作流和更好的交互界面。HF0投资我们也是认为我们可以成为音乐领域的Comfy UI。

  ZP:在接下来的2-3年里,您有哪些新产品计划?扩展产品线的主线逻辑是什么?公司的长期愿景又是怎样的?

  郭靖:从长期愿景来说,我们希望能够Reinvent how people create music,即重新定义用户如何创作音乐。对比今天Suno等产品,它们不是在帮助人们创作自己的音乐,而是用AI创作音乐,比如你送女朋友一首歌用Suno是可以的,但是如果真正想要自己创作,还是需要一款工具帮助人们更好地表达,这才是未来真正有价值的东西。

  所以我们不做一个End-to-end的产品,而是具有Fully-featured的Workstation,通过其中的AI功能使得人们和AI之间以Human-in-the-Loop的方式来沉浸式地创作音乐。因此,对于用户来说,虽无需很深的音乐背景,但也需要学习使用我们的产品才能真的上手做创作,类似Cursor用AI帮助人们白盒式地写代码,产品除了专业的程序员在使用,也有代码能力不强的人在用。

  回到现在的生成式AI产品,我们发现单纯依赖一个模型是不够的,更重要的是构建好用户的界面。如今,许多音乐创作产品仅仅是一个模型,而我们的产品将会成为一个平台,允许各种模型作为插件进行集成,让用户能够更灵活地进行创作。符合这样理念的比如像Comfy UI、Krea,这些产品都发展很快。

  ZP:公司在商业化方面已经取得了不错的成绩,接下来如何确保持续保持这一先发优势?

  郭靖:首先我们的产品没有那么容易被“抄袭”,我们在做的是歌声合成,发源于GenAI之前,也迭代了好几代的技术架构,这其中的Knowhow是很深的,比如数据方面,需要录音室级别的数据才能做标注,我们也将标注的过程迭代为自动化;再比如和每个歌手签合同做分成、把商业模式搭建起来等,对于一般团队的壁垒是很高的。

  其次,产品也将迎来网络效应,我们会借鉴Canva或剪映的模板生态,做音乐和大模型结合的模板社区,让用户通过我们的平台做音乐模板上传到社区里,其他用户可以用这些模板做二次创作。这就需要我们提供一个简单的模块化创作工具,方便用户创作、复用和修改音乐模板,我们也希望这些模板创作者可以在这个生态中赚到钱。

  郭靖:我们今天做的事情实际上两三年前也是可能做到的,只不过我们一直跟着技术做迭代。但接下来我们要做的Text to Music的功能确实是近两三年的变化,底层原因是大模型有了质的进步。而且今天有一个趋势是,很多内容生成都统一成更简单的DiT模型架构,大家的模型结构和训练范式都在形成共识。因此,在今天去做一个Foundation Model可以借鉴的东西会有很多,很多理论指向是,只要输入输出和数据处理没有问题,用什么样的模型做出来的东西都不会太差,所以这件事是这几年存在巨大变量的。

  ZP:在未来5年内,您对AI技术的进步有何期待?哪些技术的变化可能会对音乐生成领域产生深远的影响?

  郭靖:我认为一个能听懂音乐和理解乐理的LLMs会对产品有巨大帮助。今天的LLMs,比如说,可以理解代码和辅助编写代码,所以作为Cursor这样的产品并不需要解决LLMs能否写代码的问题,而是需要搭建一个平台规定任务让LLMs看懂代码,这件事情是内生的。但假设我们今天要做一个Copilot在ACE Studio里,跟它说帮我把C大调的旋律改成D大调,理论上这些知识比代码要简单得多,但是今天的大模型并没有在这个方向上做强化,所以我们会去做模型的Fine-tuning。

  请注意,本次访谈内容已经过编辑整理并已获得郭靖的认可,仅代表受访者个人观点。我们也欢迎读者通过留言互动,分享您对本访谈的看法。欲了解更多关于ACE的信息,敬请访问其官方网站。

  Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的创业者访谈。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。

本站曲谱部分来源于网络,仅供学习交流分享,九游娱乐吉他教学网不承担任何由于内容的使用所引起的争议及损失。如有侵权,可联系管理员删除处理。本文链接:http://www.cznoblelift.com/news/2085.html

二维码

联系管理员

在线咨询:点击这里给我发消息

邮箱:965225630@qq.com