|
|
新智元报道4 W$ _( U( F' k" P- K% I
编辑:艾伦
7 {' \2 f3 y) w# j& M) \& L【新智元导读】谷歌在 7.5 亿月活的 Gemini 中上线了 AI 音乐生成功能,输入一句话或一张照片,几秒就能得到一首带人声和歌词的完整歌曲。背后是 DeepMind 最新的 Lyria 3 模型,训练数据超 200 万首曲目。对 Suno 等 AI 音乐创业公司而言,竞争从此不再只是比模型,更是要比入口。' r* {" ]1 u0 D, r8 r- E; [- J, d) r
昨天,谷歌在 Gemini App 中上线了 AI 音乐生成功能。
8 T+ _: I2 T: D; V# U
+ Y% _9 c; j7 ~+ w% T, U3 n* Y3 x( \+ e I
用户输入一段文字描述,或者上传一张照片,几秒钟内就能得到一首 30 秒的完整歌曲,带人声、带歌词、带 AI 生成的封面。纯器乐当然也是支持的。. V; z/ _4 a Z" d" ? R# L
驱动这个功能的是 DeepMind 最新的音乐生成模型 Lyria 3。
8 Z( S" D" y0 y, v: |
8 {2 \' s+ v# g1 N# O" |
5 G5 J8 t4 l$ p" H: f9 o8 G谷歌对这项功能的定位,不是取代音乐人,而是让普通人获得一种全新的自我表达方式。' I& I4 k6 l) l A. Q; v& u- {$ k8 A
做 AI 音乐生成的公司不少,但把它直接塞进一个拥有超过 7.5 亿月活用户的超级应用里,谷歌是头一个。: i6 a) u& e+ J: I% W
「30 秒」背后的技术跃迁
- E5 a$ g! t' Y$ g从 2023 年发布初代 Lyria 算起,这已经是谷歌在音乐生成领域的第三代模型。9 A1 l) Z9 F$ S: ^7 A
相比前代,Lyria 3 有几个明显的进步。
2 [3 a+ Q3 g5 n M& H过去用户需要自己写歌词输入模型,现在 Lyria 3 可以根据提示词自动生成歌词。
4 k& F1 L& ]) l: t" V. S( r# x用户对风格、人声类型、节拍速度等元素的控制也更精细了。/ \! q* m8 {3 C' \; Q' w
根据 DeepMind 官方推文,Lyria 3 输出 48kHz 立体声音频,人声表现更自然,歌词的咬字清晰度也有了明显提升。
" F1 d' j5 I" u据数字音乐媒体 Digital Music News 报道,Lyria 3 的训练数据规模从 Lyria 2 的约 50 万首曲目扩展到了超过 200 万首,音频位深从此前版本升级到了 24-bit。
& M/ c; H3 ~; L0 j; I+ |; }这意味着它在音质维度上甚至超过了 YouTube Music 等主流流媒体平台的标准。
0 h6 g" S; |* P1 C# p& Z: R0 g" h/ w除了文本生成音乐,用户还可以上传照片或视频,让 Gemini 根据视觉内容的情绪来作曲配词。
2 l2 G( E3 Y4 Y" t# Z比如上传一张徒步的照片,Gemini 就能创作一首与之匹配的歌曲。
- ^# \5 v6 u% Q# p封面则由谷歌的图像生成模型 Nano Banana 自动完成。
4 |3 L5 ]0 V `功能目前以 Beta 形式向全球 18 岁以上用户开放,支持英语、德语、西班牙语、法语、印地语、日语、韩语和葡萄牙语,桌面端已率先上线,移动端将在未来几天内陆续推送。
4 F6 T0 p- [8 h( \% |6 ?2 a9 @. N. a谷歌 AI Plus、Pro 和 Ultra 订阅用户将享有更高的使用额度。0 s) k t- Z0 I7 e" _
与此同时,Lyria 3 也被整合进了 YouTube 的 Dream Track 功能,帮助创作者为 Shorts 短视频生成背景音乐。这项功能此前仅限美国地区,此次正式面向全球创作者开放。
! Q% R2 Q2 h: l- G# L版权这张牌
/ W; S+ R5 n$ Y7 @2 P谷歌打得很小心0 q0 A$ z7 P& [3 `% S. n' Z
AI 音乐生成领域的版权纠纷从未停歇。
5 u# z/ ~( J* I. s2 h2024 年夏天,环球音乐、索尼音乐和华纳音乐联手对 AI 音乐初创公司 Suno 和 Udio 提起了总金额达 5 亿美元的版权侵权诉讼。
6 y0 R" _% C1 r到 2025 年底,Suno 与华纳达成和解并获得授权,Udio 也分别与环球和华纳签署了协议。; ?% K, \; p0 @+ ?9 _) X
整个行业正在从对抗走向合作,但紧张关系远未消散。
) F4 S0 \9 e# t* ~& {2 [' p在这个背景下,谷歌的措辞格外谨慎。& A% e. c8 U2 }& x8 w
官方公告强调 Lyria 3 的设计目标是「原创表达,而非模仿现有艺术家」。
& B( z( {6 C5 ^$ A8 {" q如果用户在提示词中提到某位具体艺术家的名字,Gemini 只会将其作为宽泛的创作灵感,生成风格或情绪相似的作品,而非模仿该艺术家的声音。
R) p8 c) Q% F4 k" {: [0 a谷歌还表示在训练过程中「非常注意版权和合作伙伴协议」,并设置了过滤器来比对输出内容与已有作品。
) b) F$ d `- k0 C5 d# t! ]在内容标识层面,所有通过 Gemini 生成的音乐都会嵌入 SynthID 水印。& V/ @2 d! i; Y& p3 ^
更值得关注的是,Gemini 现在还新增了音频鉴别功能——用户可以上传一段音频文件,询问它是否由谷歌AI 生成,Gemini 会检测 SynthID 标记并结合自身推理给出判断。
0 a1 {2 h3 K- K6 I这是继图片和视频鉴别之后,SynthID 覆盖的第三种媒体类型。( {) H0 C; J1 {1 K) ] A
当音乐生成变成一场平台战争
! D! G4 e" [: ?/ y( m3 |+ I如果说 Suno 和 Udio 代表了 AI 音乐的创业浪潮,谷歌此举则标志着这场竞赛正式升级为平台级别的角力。
# Z+ T3 ~! X7 b# kSuno 在 2024 年 11 月完成了 2.5 亿美元融资,其付费版本已经提供了虚拟音频工作站等专业编辑功能。
% `3 q S) L4 u( H7 s) P但 Suno 的月活用户量级与 Gemini 的 7.5 亿相比,根本不在同一个数量级。5 V0 U) h. b7 g# K: g0 }; Y9 Z ?
Tom's Guide 的编辑在体验后写道,她把丈夫的待办事项清单变成了一首朋克摇滚歌曲,然后通过短信发了出去。' s5 O2 d) j. a S
这种场景可能正是谷歌想要的:音乐生成的杀手级应用也许并不在录音棚里,而是藏在日常生活的每一条消息、每一次分享中。
: M8 z* K' W: |. {: q9 i, }. ^1 y30 秒的长度限制、Beta 阶段的粗糙感、版权争议的暗涌——Lyria 3 显然还远谈不上完美。
! q0 s1 ~1 v% T( [" L& _但谷歌选择在这个时间点把它推向 7.5 亿用户面前,传递的信号已经足够清晰:AI 音乐生成这件事,它不打算再等了。9 Z* M" K3 I: i$ S* q
当每个人的口袋里都装着一个作曲家的时候,改变的或许不是音乐本身,而是我们与音乐之间的关系。
5 }0 u% F$ W/ w5 n; A) B参考资料:
, o, }) ?# W5 }2 C. ?8 ] H1 e2 c9 S/ f8 E/ M3 I
https://blog.google/innovation-and-ai/products/gemini-app/lyria-3/
4 e& ~+ i3 s% j4 y/ u- Xhttps://x.com/GoogleDeepMind/status/2024153067654902014 |
|