Skip to content
有趣的开源项目
Go back

Qwen3-TTS

嘿,你有没有想过,有一天你写的文字不仅能被阅读,还能被一个完全由你“创造”的声音,用饱含情绪的方式朗读出来?今天要介绍的 Qwen3-TTS,就是让这个想象变成代码现实的强大工具。

这玩意儿解决了啥痛点?

想象一下这个场景:你花了一周时间,独自开发了一个很酷的短视频AI应用。一切就绪,但你还缺一个旁白。找个配音?周期长、成本高。用传统的TTS?听起来像是机器人念经,毫无感情,更别说让它用“撒娇的萝莉音”或者“愤怒的御姐范”说话了。

Qwen3-TTS 正是来解决这个“最后十公里”的尴尬。它由阿里云通义团队开源,与其说它是一个简单的文字转语音模型,不如说它是一个全功能的语音生成工坊。它不仅能克隆任何声音,还能让你用自然语言“设计”出一种从未存在过的声音,甚至能听懂你的文本语义,自动调整情绪和节奏。

核心技能点:不止是说话,更是“演戏”

Qwen3-TTS 的技能树点得有点特别,我们来看看它最酷的几招:

一个有趣的事实:它背后的自研声学压缩器,能以极低的比特率保留声音中的副语言信息(如换气、情绪)和环境特征,然后通过一个轻量化的架构实现高保真还原。简单说,就是吃得少,干得还好。

5分钟,让你的电脑开口“演戏”

别以为这东西很复杂。官方提供了 qwen-tts 的 Python 包,几行代码就能跑起来。我们来玩个有趣的——声音设计,创造一个撒娇的小萝莉:

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

# 1. 加载模型(它会自动下载,记得用CUDA)
model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

# 2. 施展魔法:输入文本和声音描述
wavs, sr = model.generate_voice_design(
    text="哥哥,你回来啦,人家等了你好久好久了,要抱抱!",
    language="Chinese",
    instruct="体现撒娇稚嫩的萝莉女声,音调偏高且起伏明显,营造出黏人、做作又刻意卖萌的听觉效果。",
)

# 3. 保存音频,见证奇迹
sf.write("my_cute_voice.wav", wavs[0], sr)
print("搞定!快去听听你创造的声音吧!")

运行这段代码,你就能听到一个你“设计”出来的声音,说着你指定的台词。此外,项目还提供了 Web UI 演示,一行命令 qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign —ip 0.0.0.0 —port 8000 就能在浏览器里直接玩转所有这些功能。

现在就动手,把你的声音想象力变成代码

Qwen3-TTS 的强大远不止于此,它还支持批量生成、跨语言合成(共支持10种语言)、甚至与 vLLM 集成进行高效推理。

如果你已经迫不及待想把这种“魔术”集成到自己的项目里,或者单纯想体验一下创造声音的乐趣,最好的方式就是现在去它的 GitHub 仓库主页 https://github.com/QwenLM/Qwen3-TTS 逛逛。完整的技术论文、更详细的示例代码和微调指南都在那里等着你。

如果你觉得这个项目有点意思,别忘了给它点一个 Star,这是对开源作者们最好的鼓励。说不定,你下一个让人惊叹的作品里,就用上了你亲手“设计”的那个声音。



Previous Post
Meilisearch
Next Post
Stable Diffusion WebUI