DeepSpeak-v1

Urdu Text-to-Speech · Rectified Flow Diffusion Transformer

Early Checkpoint · 18k / 100k steps

Urdu Text

Reference Audio * required

Upload 3–15 sec of the target voice. The model clones it.

Settings

Duration (sec)

3 30

Steps

10 80

Text CFG

1 8

Speaker CFG

1 10

Seed (blank = random)

Quick examples

Examples

Output

How to use

Model