Sukimo momento amplitudės

Ultra

Ultra-aukštos kokybės kalba su nelygiavertiškumo gamtos

Very Slow Greitis
Exceptional Kokybė
Taip Klonavimas
1 Kalbos

Apie Sukimo momento amplitudės

Tortoise TTS yra autoregesyvi teksto į speech modelį, kuris pirmenybiškai suteikia garso kokybę aukščiau kitų. Naudojant autoregesyvių transformatorių ir difuzijos modelių derinį, Tortoise sukuria itin natūralų kalbą, kuri fiksuoja subtilų žmogaus balso niuansą. Lėčiausiai nei kiti modeliai, Tortoise gaminamas natūraliausias TTS išvedinys.

Pagrindinės savybės

Ultraaukšta kokybė

Gamtos garsas TTS išeiga prieinama.

Balso klonavimas

Klonuoti balsus su išskirtiniu ištikimybe ir niuansas.

Gamtinė prozodija

Sukaupia subtilius kalbos modelius ir mikroekspresijas.

Kokybės reikalavimai

Pasirinkite nuo itin_greito iki aukštos kokybės apdorojimo.

Emocinis gylis

Kalba išties emociniu rezonansu.

Atverti šaltinį

Apache 2.0, turi komercinės naudojimo teisės.

Naudoti atvejus

Premium garso knygos Filmo gamyba Dokumentų naracija Balso perkėlimas į profesiją Archyvų projektai Aukštos galios turinys

Sukimo momento amplitudės Voices

View All 18
Tortoise Angie
EN
Tortoise Deniro
EN
Tortoise Freeman
EN
Tortoise Geralt
EN
Tortoise Halle
EN
Tortoise Jlaw
EN
Tortoise Lj
EN
Tortoise Mol
EN
Tortoise Myself
EN
Tortoise Pat
EN
Tortoise Pat2
EN
Tortoise Snakes
EN

Kaip vartoti Sukimo momento amplitudės

  1. 1

    Užsiregistruoti arba išbandyti nemokamą demo

    Sukurti nemokamą TextToSpeechAI paskyrą, kad gautumėte starterio kreditus, arba naudoti pagrindiniame puslapyje demo išbandyti Tortoise be prisijungimo. Tortoise yra Ultra-rangos variklis (50 kreditai 1000 simbolių), todėl nemokamai kreditai yra puikus už pirmąjį trumpą testą.

  2. 2

    Pasirinkite sutraiškyti ir pasirinktinai įdėti balsą į kloną

    Pasirinkite sutryptą balsą iš balso naršyklės. Norėdami klonuoti konkretų asmenį, įkelkite orientyrinį klipą (iš esmės keletą švarių 5-10 sekundžių pavyzdžių) ir sutrypkite tą balsą su dideliu patikimumu. Priešingu atveju pasirinkite vieną iš įmontuotų sutryptų balsų.

  3. 3

    Įveskite savo tekstą

    Įveskite arba įklijuokite norimą papasakoti tekstą. Nes Tortoise yra lėtas, pradėkite trumpuoju ėjimu, kad būtų patvirtintas balsas ir tonas, prieš siunčiant pilną garso knygos skyrių ar ilgą scenarijų.

  4. 4

    Pasirinkite kokybės iš anksto nustatytą ir generuoti

    Pasirinkite vėžlių kokybės iš anksto nustatytą: itin_greitą greitą testavimą, greitą geros greičio/kokybės pusiausvyros (rekomenduojama numatytoji numatytoji vertė), standartinį arba aukštos_kokybės maksimalaus realizmo skaičiavimą. Tada spustelėkite generuoti ir būti kantriam - TORUSE gali užtrukti nuo 30 sekundžių iki kelių minučių vienam klipui, ypač esant didesniems iš anksto nustatytiems.

  5. 5

    Atsisiųsti arba naudoti API

    Kai kartos programa baigsis, atsisiųskite savo garsą kaip MP3, WAV arba OGG, arba įkelkite jį iš savo istorijos. Norėdami automatizuoti sulaužymo darbus, skambinkite TextToSpeechAI API ir praleiskite pasirinktą kokybės iš anksto nustatytą - prisiminkite, kad būtų galima ilgiau pertraukos nuo toltojus daro lėtai.

Sukimo momento amplitudės API

Generuoti kalbos programuoja naudojant TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Tortoise užtrunka savo laiką, bet rezultatai yra verta laukti.",
    "voice": "tortoise-angie"
  }'

Dažnai užduodami klausimai

Tortoise TTS yra autoregesyvis tekstas į-garba modelis, sukurtas James Betker, kuris pirmenybiškai vertina garso kokybę virš visų kitų. Jis sujungia transformatorių kalbos modeliavimas su difuzijos dekodavimas sukurti kalbą su nesuderinta natūralumo, emocinio gylio ir žmogaus tipo prozodija. Jis plačiai laikomas vienu iš realistiškų atvirojo šaltinio TTS variklius.

Taip. Tortoise TTS yra atviras šaltinis pagal leidžiamą Apache 2.0 licenciją, kuri leidžia komercinį naudojimą, modifikavimą, ir perskirstymas. TextToSpeechAI, Tortoise sėdi Ultra pakopoje 50 kreditų 1000 simbolių, nes savo sunkius kompaundavimo reikalavimus ir išskirtinę produkcijos kokybę.

Sukimo momentas lėtas pagal dizainą: jis generuoja kelis kandidatus klipus automatiškai ir tada pagerina geriausią su difuzijos modeliu ir CLVP pergrupavimo žingsnis. Šis kokybės pirmasis vamzdynas reiškia, kad vienas spynas gali užtrukti nuo 30 sekundžių iki kelių minučių, priklausomai nuo teksto ilgio ir kokybės iš anksto nustatytas. Sukimo svirties yra tai, kad Tortoise gamina kai kurie iš natūraliausių bet kurio TTS variklio kalbos.

Torotiza siūlo keturis prekybos greičio nustatymus: itin_greitą (~10x greičiau, gerai bandymams), greitą (~4x greičiau, gamybos nuoseklus), standartinį (subalansuotą) ir aukštą_kokybę (didžiausią kokybę, lėtesnę). Aukštesnį iš anksto suformuotą pavyzdį sudaro daugiau kandidatų ir veikia daugiau difuzijos žingsnių prieš pasirenkant geriausią rezultatą. TextToSpeechAI-oje iš anksto sukurtą rezultatą galite pasirinkti.

Taip, "Trotoise" TTS palaiko balso klonavimą su išskirtiniu patikimumu. Pateikite kelis trumpus tikslinio balso klipus (geriausiai 3-10 kiekvieno 5-10 sekundžių pavyzdžio) ir "Tortoise" fiksuoja garsiakalbio tembre, akcentą, pacing ir subtilius mikroekspresijas. Tai vienas tiksliausių nulinio smogimo klonavimo variklių, nors klonavimas padidina jau ilgą kartos laiką.

Tortoise buvo apmokytas pirmiausiai anglų kalbos duomenų rinkiniuose, todėl anglų kalba yra kur jos kokybė yra pati stipriausia. Dėl daugiakalbių projektų, kuriems reikia panašaus realizmo, apsvarstyti F5-TTS ar CosyVoice2 dėl TextToSpeechAI, kurie palaiko daugiau kalbų, o vis dar siūlo balso klonavimą.

Tai reiškia, kad jis išskiria išskirtinį, dažnai neišskiriamą, nuo žmogaus garso. Jis kvėpuoja, dvejoja, intonuoja ir iš tikrųjų jaučia emocinį rezonansą, kuris praleidžia mažiau laiko modeliams. Štai kodėl jis išlieka mėgstamas aukščiausios klasės garso knygoms, filmui pasakojant, ir aukštos klasės balso pertraukai, kai realizmas yra svarbiausias.

Torotizės paprastai reikia 12-24GB VRAM priklausomai nuo kokybės iš anksto nustatytas ir partijos dydį, todėl aukštos klasės GPU kaip RTX 3090, 4090, arba A100 rekomenduojamas vietiniam naudojimui. CPU išvados yra techniškai įmanoma, bet labai lėtas. TextToSpeechAI modelis veikia mūsų GPU infrastruktūrą, todėl jums nereikia jokios įrangos savo.

Vietinis tortoizavimas užtikrina aukštos kokybės 24kHz WAV garsą. Per TextToSpeechAI galite prašyti MP3, WAV arba OGG, o mes perkoduoti su kokybišku kodavimu, kad išsaugotumėte modelio detales, nepriklausomai nuo projekto dydžio.

Tortoise yra Ultra kainodara pakopoje 50 kreditų 1000 ženklų, atspindinčių GPU laiką, kai jos kokybės pirmasis vamzdynas suvartoja. Naujos sąskaitos gauna nemokamus starterio kreditus, todėl prieš įsipareigojant galite išbandyti Tortoise. Ultra pakopa taip pat apima StyleTTS2, OpenVoice, Dia, ir Zonos.

Abu yra Ultra-level varikliai, bet jie prekiauja skirtingai. Sukimo TTS pasiekia absoliučią aukščiausią natūralių ir emocinių gylio, bet iki šiol yra lėčiausias variklis. StyleTTS2 užtikrina beveik toortizaciją kokybę daug greičiau kartos, todėl geriau pasirinkti, kai jums reikia daug klipų ar greičiau apsisukti. Pasirinkite sukimo aukštį, kai kokybė yra nediskutuojama ir laikas nėra apribojimas.

Taip. Užsiregistruoti TextToSpeechAI gauti nemokamą starterio kreditus, arba naudoti demo į svetainę, ir pasirinkti Tortoise balsas generuoti klipą be jokių instaliavimo nieko. Nes Tortoise yra lėtas, pradėti su trumpu sakiniu ir "greitas" iš anksto nustatyti pamatyti kokybę prieš veikia ilgiau darbo vietų.

Technical Specs

  • Generation Speed Very Slow
  • Output Quality Exceptional
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 12-24GB
  • Credits/1000 chars 50

Try Sukimo momento amplitudės Now

Generate your first audio free. No credit card required.

Start Free