G

Тэхналогія пераўтварэння тэксту ў маўленне

📚 Што такое TTS (ператварэнне тэксту ў маўленне)?

Тэкст у маўленне, таксама званы TTS, з'яўляецца формай дапаможнай тэхналогіі, якая прыносіць лёгкасць і камфорт у жыцці. Сістэма чытае лічбавыя тэксты ўслых і дастаткова выразна, каб чалавек мог іх зразумець. TTS таксама вядомая як тэхналогія чытання ўслых, шырока прызнаная за сваю гнуткасць. Гэта адзін дотык, дзе тэкст вэб-сайта пераўтворыцца ў аўдыя.

Сістэма распаўсюджваецца на ўсе прылады, такія як смартфоны, ноўтбукі, настольныя кампутары і планшэты, якія лічацца ідэальнымі для дзяцей, людзей ва ўзросце старэйшыя за 20 гадоў і людзей з абмежаванымі магчымасцямі. Барацьба за чытанне і напружанне вачэй у электронных прыладах зніклі з TTS, адначасова павялічваючы ўвагу, навучанне і звычку чытаць онлайн праз праслухоўванне. Такім чынам, калі вы блогер, чытач або ўладальнік вэб-сайта, TTS - гэта праграмнае забеспячэнне, якое пашырыць ваш гарызонт ведаў. Але якія перавагі мець голас за ўсё, без абмежаванняў і межаў? Ён падзелены ў залежнасці ад карыстальнікаў, паколькі яны з'яўляюцца асобамі, якія карыстаюцца паслугамі.

Дазволіць людзям размаўляць з машынамі - гэта даўняя мара ўзаемадзеяння чалавека і кампутара. Здольнасць камп'ютараў разумець натуральную гаворку за апошнія некалькі гадоў зрабіла рэвалюцыю дзякуючы прымяненню глыбокіх нейронавых сетак (напрыклад, Google Voice Search). Тым не менш, стварэнне прамовы з дапамогай кампутараў - працэс, які звычайна называюць сінтэз маўлення або тэкст у маўленне (TTS) — яшчэ ў значнай ступені грунтуецца на т. зв канкатэнатыўны TTS, дзе вельмі вялікая база дадзеных кароткіх маўленчых фрагментаў запісваецца ад аднаго дакладчыка і затым аб'ядноўваецца ў поўныя выказванні. Гэта ўскладняе мадыфікацыю голасу (напрыклад, пераключэнне на іншага дынаміка або змяненне акцэнту або эмоцый у іх гаворцы) без запісу цалкам новай базы дадзеных.

📚 Як працуе тэхналогія TTS?

Працэс TTS ўключае некалькі этапаў:

  • 1. Увод тэксту: Першы крок - увесці тэкст, які вы хочаце пераўтварыць у маўленне. Гэта можа быць пісьмовы дакумент, вэб-старонка, размова чат-бота або нават паведамленне ў сацыяльных сетках.
  • 2. Аналіз тэксту: Затым тэкст аналізуецца для вызначэння правільнага вымаўлення, інтанацыі і рытму. Гэта прадугледжвае ідэнтыфікацыю асобных слоў, фраз і прапаноў, а таксама кантэксту, у якім яны выкарыстоўваюцца.
  • 3. Сінтэз маўлення: Затым прааналізаваны тэкст апрацоўваецца з выкарыстаннем алгарытмаў сінтэзу маўлення для стварэння адпаведнага аўдыявыхаду. Гэта прадугледжвае стварэнне лічбавага адлюстравання вымаўленых слоў, уключаючы вышыню, тон і гучнасць.
  • 4. Аўдыёвыхад: Апошнім крокам з'яўляецца стварэнне аўдыявыхаду, які можна прайграваць праз дынамікі, навушнікі або іншыя гукавыя прылады.

📚 Віды тэхналогіі TTS

Існуе некалькі тыпаў тэхналогіі TTS, у тым ліку:

  • Сістэмы, заснаваныя на правілах: Гэтыя сістэмы выкарыстоўваюць загадзя вызначаныя правілы для стварэння маўлення. Яны простыя і эфектыўныя, але могуць не даць высакаякаснай гаворкі.
  • Статыстычныя мадэлі: Гэтыя сістэмы выкарыстоўваюць статыстычныя мадэлі для стварэння маўлення. Яны больш дасканалыя, чым сістэмы, заснаваныя на правілах, і могуць ствараць маўленне больш высокай якасці.
  • Штучны інтэлект (AI): Гэтыя сістэмы выкарыстоўваюць алгарытмы штучнага інтэлекту для генерацыі маўлення. Яны з'яўляюцца самым перадавым тыпам тэхналогіі TTS і могуць ствараць вельмі натуральную і гутарковую гаворку.

📚 Перавагі TTS!

GSpeech прапануе мноства функцый, у тым ліку онлайн, SaaS, лакальныя рашэнні для пераўтварэння тэксту ў маўленне (TTS) для шырокага спектру крыніц, такіх як вэб-сайты, мабільныя праграмы, электронныя кнігі, электронныя навучальныя матэрыялы, дакументы, паўсядзённае карыстанне кліентам, транспарт вопыт, і многае іншае. Якія перавагі атрымліваюць бізнес, арганізацыя і выдаўцы, якія інтэгруюць тэхналогію TTS.

🎯 Палепшаная даступнасць

Тэхналогія TTS забяспечвае большую даступнасць для людзей з парушэннямі зроку, дыслексіяй або цяжкасцямі з чытаннем, што дазваляе ім лягчэй атрымліваць доступ да інфармацыі і мець зносіны.

🎯 Палепшаны SEO

Прадастаўляючы карыстальнікам альтэрнатыўны спосаб выкарыстання вашага кантэнту, вы можаце палепшыць пошукавую аптымізацыю (SEO) вашага вэб-сайта WordPress. Гэта асабліва важна для карыстальнікаў, якія для навігацыі па сетцы выкарыстоўваюць праграмы чытання з экрана.

🎯 Палепшаны карыстацкі досвед

Тэхналогія TTS можа палепшыць карыстацкі досвед, забяспечваючы больш натуральны і інтуітыўна зразумелы спосаб узаемадзеяння з прыладамі, зніжаючы неабходнасць ручнога ўводу або чытання.

🎯 Палепшанае абслугоўванне кліентаў

Тэхналогія TTS можа забяспечыць кругласутачную падтрымку кліентаў, адказваючы на ​​часта зададзеныя пытанні і прадастаўляючы інфармацыю кліентам больш эфектыўным і эфектыўным спосабам.

🎯 Павышэнне прадукцыйнасці

Тэхналогія TTS можа павялічыць прадукцыйнасць за кошт аўтаматызацыі такіх задач, як увод даных, транскрыпцыя і чытанне, вызваляючы час для больш важных задач.

🎯 Шматмоўная падтрымка

Тэхналогія TTS можа падтрымліваць некалькі моў, што робіць яе каштоўным інструментам для прадпрыемстваў і арганізацый, якія працуюць па ўсім свеце.

🎯 Палепшанае разуменне прачытанага

Тэхналогія TTS можа палепшыць разуменне прачытанага, дазваляючы карыстальнікам слухаць тэкст, выконваючы напісанае, палягчаючы разуменне складанай інфармацыі.

🎯 Зніжэнне нагрузкі на вочы

Тэхналогія TTS можа паменшыць напружанне і стомленасць вачэй, забяспечваючы альтэрнатыву чытанню і набору тэксту, што робіць яе каштоўным інструментам для людзей, якія праводзяць доўгія гадзіны перад экранамі.

🎯 Павялічанае ўзаемадзеянне

Тэхналогія TTS можа павялічыць узаемадзеянне, забяспечваючы больш інтэрактыўны і захапляльны вопыт, што робіць яе каштоўным інструментам для адукацыйных і забаўляльных праграм.

🎯 Канкурэнтная перавага

Тэхналогія TTS можа забяспечыць канкурэнтную перавагу, прапаноўваючы унікальны і інавацыйны спосаб узаемадзеяння з прыладамі, вылучаючы ваш прадукт ці паслугу сярод канкурэнтаў.

Гэта прывяло да вялікага попыту на параметрычны TTS, дзе ўся інфармацыя, неабходная для стварэння даных, захоўваецца ў параметрах мадэлі, а зместам і характарыстыкамі маўлення можна кіраваць з дапамогай уваходаў у мадэль. Аднак да гэтага часу параметрычны TTS гучаў менш натуральна, чым канкатэнацыйны. Існуючыя параметрычныя мадэлі звычайна генеруюць гукавыя сігналы, прапускаючы іх выхады праз алгарытмы апрацоўкі сігналаў, вядомыя як вакодеры.

WaveNet змяняе гэтую парадыгму, непасрэдна мадэлюючы неапрацаваную форму сігналу гукавога сігналу, адзін узор за раз. Выкарыстанне неапрацаваных сігналаў не толькі забяспечвае больш натуральнае гучанне маўлення, але і азначае, што WaveNet можа мадэляваць любы тып аўдыя, у тым ліку музыку.

WaveNet: генератыўная мадэль для неапрацаванага аўдыя



Даследчыкі звычайна пазбягаюць мадэлявання неапрацаванага аўдыя, таму што яно так хутка: звычайна 16,000 XNUMX выбарак у секунду або больш, з важнай структурай у многіх часавых маштабах. Пабудова цалкам аўтарэгрэсійнай мадэлі, у якой на прагноз для кожнай з гэтых выбарак уплываюць усе папярэднія (кажучы статыстыкай, кожнае прагназуючае размеркаванне абумоўлена ўсімі папярэднімі назіраннямі), відавочна, з'яўляецца складанай задачай.


Тым не менш, PixelRNN і PixelCNN мадэлі, апублікаваныя раней, паказалі, што можна ствараць складаныя натуральныя выявы не толькі па адным пікселі, але і па адным каляровым канале за раз, патрабуючы тысяч прагнозаў на выяву. Гэта натхніла нас адаптаваць нашы двухмерныя PixelNets да аднамернай WaveNet.




Прыведзеная вышэй анімацыя паказвае структуру WaveNet. Гэта цалкам згорткавая нейронавая сетка, дзе згорткавыя пласты маюць розныя каэфіцыенты пашырэння, якія дазваляюць яе ўспрымальнаму полю расці ў геаметрычнай прагрэсіі з глыбінёй і ахопліваць тысячы часавых крокаў.


Падчас навучання ўваходныя паслядоўнасці ўяўляюць сабой рэальныя сігналы, запісаныя з чалавечых дынамікаў. Пасля навучання мы можам зрабіць выбарку сеткі для стварэння сінтэтычных выказванняў. На кожным кроку падчас выбаркі значэнне атрымліваецца з размеркавання імавернасцей, вылічанага сеткай. Затым гэта значэнне вяртаецца на ўваход і робіцца новы прагноз для наступнага кроку. Стварэнне сэмплоў пакрокава, як гэта, з'яўляецца дарагім з пункту гледжання вылічэнняў, але мы палічылі гэта неабходным для стварэння складанага гуку з рэалістычным гучаннем.


Паляпшэнне стану арт

Мы трэніраваліся WaveNet выкарыстоўваючы некаторыя наборы даных Google TTS, каб мы маглі ацаніць яго прадукцыйнасць. Наступны малюнак паказвае якасць WaveNets па шкале ад 1 да 5 у параўнанні з лепшымі сучаснымі сістэмамі TTS Google (параметрычныя і канкатэнатыўны), і з выкарыстаннем чалавечай мовы Сярэдні бал меркавання (MOS). MOS з'яўляецца стандартнай мерай для суб'ектыўных тэстаў якасці гуку і былі атрыманы ў сляпых тэстах з удзелам людзей (з больш чым 500 рэйтынгаў на 100 тэставых прапаноў). Як мы бачым, WaveNets памяншае разрыў паміж сучасным узроўнем прадукцыйнасці і прадукцыйнасцю на ўзроўні чалавека больш чым на 50% для англійскай мовы ЗША і кітайскай мовы.


Як для кітайскай, так і для англійскай моваў сучасныя сістэмы TTS Google лічацца аднымі з лепшых у свеце, таму паляпшэнне абедзвюх з дапамогай адной мадэлі з'яўляецца вялікім дасягненнем.




GSpeech мае алгарытм сінтэзу голасу AI, які з'яўляецца адным з самых перадавых і рэалістычных у бізнэсе. Большасць галасавых сінтэзатараў (у тым ліку Siri ад Apple) выкарыстоўваюць так званы канкатэнатыўны сінтэз, пры якім праграма захоўвае асобныя склады — такія гукі, як «ба», «шт» і «оо» — і злучае іх на хаду, каб утварыць словы і сказы . Гэты метад стаў даволі добрым за гэтыя гады, але ён усё яшчэ гучыць хадульна.


WaveNet, для параўнання, выкарыстоўвае машыннае навучанне для стварэння аўдыё з нуля. Ён фактычна аналізуе сігналы з велізарнай базы дадзеных чалавечай гаворкі і аднаўляе іх з хуткасцю 24,000 2016 выбарак у секунду. Канчатковы вынік уключае галасы з такімі тонкасцямі, як прыцмокі і акцэнты. Калі Google упершыню прадставіў WaveNet у XNUMX годзе, ён патрабаваў занадта шмат вылічэнняў, каб працаваць па-за даследчыцкім асяроддзем, але з тых часоў яго значна скарацілі, што паказвае выразны канвеер ад даследаванняў да прадукту.



11.06.2020
Перамясціце свой кантэнт на новы ўзровень! Паспрабуйце GSpeech зараз!
Падпішыцеся бясплатна