- O.

Ultra

Ses klonlama ve sözsüz seslerle diyalog odaklı TTS

Medium Hız
Excellent Kalite
Evet Klonlama
1 Dilleri

Hakkında - O.

ing the most accurate text-to-speech results. Dia is a 1.6B parameter text-to-speech model that is designed to generate natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. It excels at generating the most accurate text-to-speech results. Dia is a 1.6B parameter text-to-speech model that is designed to generate natural conversational speech with support for nonverbal sounds

Ana Özellikler

Diyalog Yaratma

Farklı seslerle ve sırayla doğal çoklu konuşmacı konuşmaları oluşturun.

Sözsüz Sesler

Doğal paralinguistik ifade için [güleyir], [inliyor], [öksürür], (nefes darlığı) ekle.

Ses Klonlama

Kişiselleştirilmiş konuşma için 5-10 saniyelik referans sesli herhangi bir ses klonla.

Doğal Konuşma

1.6B parametreleri çok doğal konuşma prosodi ve intonasyonu üretir.

Kullanım durumları

Diyalog ve konuşma üretimi Çok karakterli sesli kitap üretimi Oyun karakter sesleri Podcast ve içerik yaratma

Nasıl Kullanılır - O.

  1. 1

    Bedava kayıt olun veya demoyu açın

    Başlangıç kredilerinizi talep etmek için ücretsiz bir TextToSpeechAI hesabı oluşturun veya Dia diyalogu hemen denemek için kayıt olmadan demoyu açın.

  2. 2

    Dia motorunu seç

    TTS kontrol panelinde motor listesinden Dia' yı seçin. Dia, çoklu hoparlör ve ses klonlama desteği ile diyalog odaklı, ultra- katmanlı bir modeldir.

  3. 3

    Etiketlerle bir diyalog scripti yazın

    Konuşmayı her konuşmacı turunu işaretlemek için [S1] ve [S2] kullanarak oluşturun ve doğal tepkiler istediğiniz yerlerde [laughs], [sighs], [coughs] veya (gasps) gibi sözsüz etiketler bırakın.

  4. 4

    Ses oluştur

    Dia scriptinizi GPU'larımıza göndermek için oluştur'a basın. Dia, iki konuşmacının diyaloğunu sırayla ve sözsüz etiketlerinizi tek bir ses dosyasına dönüştürür.

  5. 5

    API'yi indirin veya çağırın

    Sonuçlanan diyalogu seçtiğiniz biçimde indirin veya aynı [S1]/[S2] scriptini hesabınızdaki token ile TextToSpeechAI API'ye göndererek otomatikleştirin.

- O. API

TextToSpeechAI REST API'sini kullanarak programlı olarak konuşma oluşturun.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Merhaba, bugün nasılsın?",
    "voice": "en_US-lessac-medium"
  }'

Sık Sorulan Sorular

Dia, Nari Labs'tan 1.6B parametreli diyalog-yönlü metin-söz-e-me modelidir. Çoklu konuşmacılar, sözsüz sesler ve ses klonlama desteğiyle doğal konuşma konuşması üretmede uzmanlaşmıştır.

Evet, Dia hem kod hem de model ağırlıkları açısından Apache 2.0 lisansına sahiptir. Ticari uygulamalarda serbestçe kullanılabilir.

Dia şu anda sadece İngilizce destekliyor. Model doğal İngilizce konuşma konuşması için optimizasyona uğramıştır.

Dia, 1.6B parametre modeli için yaklaşık 10GB VRAM gerektirir. Rahat bir çalışma için en az 12GB'lık bir GPU tavsiye edilir. TextToSpeechAI'de tüm bunlar bizim hosted GPU'larımızda çalışır, bu yüzden kendi donanımınıza ihtiyacınız yoktur.

Evet - diyalog Dia' nın tam olarak yapıldığı şeydir. Yazılarınızda [S1] ve [S2] dönüşleri değişkenleştirerek, Dia TTS tek konuşmacı TTS modelleriyle elde etmek daha zor olan farklı seslerle ve gerçekçi dönüşlerle akıcı iki konuşmacı konuşması üretir.

Konuşacak kişiyi göstermek için, yazınızdaki her satırın önekini [S1] veya [S2] ile belirtin. Dia her etikete tutarlı bir ses verir ve konuşma hareket ederken aralarında geçiş yapar, böylece [S1] ve [S2] diyalogunuzdaki iki karakter gibi davranır.

Evet. Dia, yaklaşık 5-10 saniyelik temiz referans seslerden ses klonlama desteği sağlar, böylece bir konuşmacı için belirli bir sesi tekrar kullanmanıza olanak tanır. Klonlamayı [S1]/[S2] etiketleriyle birleştirerek diyalogdaki her karakterin klonladığınız ses gibi ses çıkarmasını sağlayabilirsiniz.

Dia, [gülüyor], [yalvarıyor], [öksürüyor] ve (nefes darlığı) gibi sesleri, konuşulan kelimeler yerine konuşmaya dokunmuş doğal paralingvistik sesler olarak gösterir. Diyalogları daha insani hale getirmek için, tepkiyi istediğiniz yere bir etiket koyun - örneğin "[S1] Bu komik [gülüyor]".

Hem Dia hem de Bark ifadesel olmayan sesleri destekler, fakat Dia [S1]/[S2] sıralama ve ses klonlama ile çoklu konuşmacı diyalogu için özel olarak tasarlanmıştır. İki kişilik gerçekçi konuşmalar ve karakter çalışmaları için Dia'yı seçin; Tek sesli anlatımda daha geniş dil kapsamına ihtiyacınız olduğunda Bark daha uygundur.

Dia ultra-tier bir motordur, bu yüzden üretilen konuşmanın 1000 karakteri için 50 krediye mal olur. Ultra-tier daha büyük 1.6B modeli ve yüksek kaliteli diyalog için kullandığı ~10GB GPU belleğini yansıtır.

Evet. Yeni TextToSpeechAI hesapları ücretsiz başlangıç kredileri içerir ve kayıt olmadan çalıştırabileceğiniz bir demo vardır. Bu, ücretli bir planla karar vermeden önce [S1]/[S2] etiketleriyle kısa bir Dia diyalogu oluşturmaya yetecektir.

Evet. Hesabınızdaki sayfadan API token' a sahip olduğunuzda Dia diyalog yazılarını - [S1]/[S2] dönüşleri ve [laughs] gibi etiketler dahil - TextToSpeechAI REST API' ye gönderebilir ve sonuçlanan ses programla indirilebilmektedir.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try - O. Now

Generate your first audio free. No credit card required.

Start Free