一款由清华大学、北京交通大学和华中科技大学联合推出的多模态视觉定位模型,专门用于自由形式的多图像定位任务。该模型能够根据文本描述、图像或两者的组合,在多幅图像中精确定位相关的视觉区域。
CLaMP 3 是由清华大学推出的多模态、多语言音乐信息检索框架,支持文本到音乐、图像到音乐检索及零样本音乐分类等功能。它基于对比学习技术,可将乐谱、音频和文本对齐到共享语义空间,支持27种语言,并泛化到100种语言,适用于跨模态检索和音乐推荐任务。
《普通人如何抓住DeepSeek红利》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室编写的第三本关于DeepSeek的免费电子书。该手册旨在帮助普通人深入了解DeepSeek这一强大的AI工具。
《DeepSeek赋能职场》是由清华大学元宇宙文化实验室和中央民族大学新闻与传播学院联合发布的第二版资料,专注于 DeepSeek 在职场中的应用。
实验结果显示,TIGER在EchoSet数据集上的表现优于其他模型,尤其是在EchoSet-500数据集上,性能提升了约5%。此外,TIGER在电影音频分离任务中也展现了强大的泛化能力,进一步证明了其在复杂声学环境中的适用性。
AnyCharV是一个高效、灵活且易于使用的视频生成框架,特别适合需要快速进行视频编辑的用户。其无需训练的特点和对现有工具的支持使其成为视频编辑领域的有力工具。
视界一粟YiSu是一款功能强大且性价比高的视频生成大模型,其技术特点和应用场景使其在多个领域具有重要的应用价值。