CLaMP 3是由清华大学人工智能学院朱文武教授团队推出的一个多模态、多语言的音乐信息检索框架。它基于对比学习技术,将乐谱(如ABC符号)、音频(如MERT特征)和表演信号(如MIDI文本格式)与多种语言的文本描述对齐到一个共享的表示空间中。CLaMP 3 支持27种语言,并能泛化到100种语言,适用于跨模态检索任务,如文本到音乐、图像到音乐检索,零样本音乐分类和音乐语义相似性评估。
CLaMP 3功能特点:
1、跨模态音乐检索:
– 文本到音乐检索:根据文本描述(支持100种语言)检索与之语义匹配的音乐。
– 图像到音乐检索:通过图像生成的描述(如BLIP模型生成的caption)检索与之匹配的音乐。
– 跨模态音乐检索:在不同音乐表示形式(如乐谱、MIDI、音频)之间进行检索。
2、零样本音乐分类:
– 基于语义相似性将音乐分类到特定类别(如风格、情绪等),无需标注数据。
3、音乐推荐:
– 基于语义相似性进行音乐推荐,支持同一模态内的推荐(如音频到音频)。
4、多模态数据对齐:
– 将不同模态的音乐数据(如乐谱、MIDI、音频)和多语言文本统一到一个共享的语义空间。
5、多语言支持:
– 基于XLM-R实现多语言文本嵌入,支持27种语言的训练,并泛化到100种语言。
6、大规模数据集训练:
– 在大规模数据集(如M4-RAG)上进行训练,包含231万对高质量的音乐-文本对,覆盖27种语言和194个国家。
CLaMP 3相关网址:
1、CLaMP3项目官网:https://sanderwood.github.io/clamp3/
2、GitHub仓库:https://github.com/sanderwood/clamp3
3、HuggingFace模型库:https://huggingface.co/sander-wood/clamp3
4、arXiv技术论文:https://arxiv.org/pdf/2502.10362
《清华大学第三弹:普通人如何抓住DeepSeek红利》简介及基本介绍(附PDF下载地址)
《清华大学第二弹:DeepSeek赋能职场》简介及基本介绍(附PDF下载地址)
AnyCharV :一款由香港大学联合清华大学等机构推出的角色可控视频生成框架
一款出自清华大学功能强大且性价比高的视频生成大模型——视界一粟YiSu
上面是“一款由清华大学团队开发的音乐信息检索框架——CLaMP 3”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。
当前网址:https://ipkd.cn/webs_17389.html
workflows工作流
树上挂着一只快乐香蕉ComfyUI工作流一
一颗闪闪发光的水晶漂浮在森林里
斗鸡场威武雄鸡ComfyUI工作流
一位身穿金色铠甲的美丽女子守卫在寺庙外
一张由表情符号组成的照片ComfyUI工作流
一张皮卡丘向观众眨眼的逼真照片ComfyUI工作流
森林里一只邪恶的树妖ComfyUI工作流
文生图工作流:一幅海底睡莲,碧海蓝天comfyui工
猜你喜欢
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!