Тэкст у маўленне, таксама званы TTS, з'яўляецца формай дапаможнай тэхналогіі, якая прыносіць лёгкасць і камфорт у жыцці. Сістэма чытае лічбавыя тэксты ўслых і дастаткова выразна, каб чалавек мог іх зразумець. TTS таксама вядомая як тэхналогія чытання ўслых, шырока прызнаная за сваю гнуткасць. Гэта адзін дотык, дзе тэкст вэб-сайта пераўтворыцца ў аўдыя.
Сістэма распаўсюджваецца на ўсе прылады, такія як смартфоны, ноўтбукі, настольныя кампутары і планшэты, якія лічацца ідэальнымі для дзяцей, людзей ва ўзросце старэйшыя за 20 гадоў і людзей з абмежаванымі магчымасцямі. Барацьба за чытанне і напружанне вачэй у электронных прыладах зніклі з TTS, адначасова павялічваючы ўвагу, навучанне і звычку чытаць онлайн праз праслухоўванне. Такім чынам, калі вы блогер, чытач або ўладальнік вэб-сайта, TTS - гэта праграмнае забеспячэнне, якое пашырыць ваш гарызонт ведаў. Але якія перавагі мець голас за ўсё, без абмежаванняў і межаў? Ён падзелены ў залежнасці ад карыстальнікаў, паколькі яны з'яўляюцца асобамі, якія карыстаюцца паслугамі.
Дазволіць людзям размаўляць з машынамі - гэта даўняя мара ўзаемадзеяння чалавека і кампутара. Здольнасць камп'ютараў разумець натуральную гаворку за апошнія некалькі гадоў зрабіла рэвалюцыю дзякуючы прымяненню глыбокіх нейронавых сетак (напрыклад, Google Voice Search). Тым не менш, стварэнне прамовы з дапамогай кампутараў - працэс, які звычайна называюць сінтэз маўлення або тэкст у маўленне (TTS) — яшчэ ў значнай ступені грунтуецца на т. зв канкатэнатыўны TTS, дзе вельмі вялікая база дадзеных кароткіх маўленчых фрагментаў запісваецца ад аднаго дакладчыка і затым аб'ядноўваецца ў поўныя выказванні. Гэта ўскладняе мадыфікацыю голасу (напрыклад, пераключэнне на іншага дынаміка або змяненне акцэнту або эмоцый у іх гаворцы) без запісу цалкам новай базы дадзеных.
Працэс TTS ўключае некалькі этапаў:
Існуе некалькі тыпаў тэхналогіі TTS, у тым ліку:
GSpeech прапануе мноства функцый, у тым ліку онлайн, SaaS, лакальныя рашэнні для пераўтварэння тэксту ў маўленне (TTS) для шырокага спектру крыніц, такіх як вэб-сайты, мабільныя праграмы, электронныя кнігі, электронныя навучальныя матэрыялы, дакументы, паўсядзённае карыстанне кліентам, транспарт вопыт, і многае іншае. Якія перавагі атрымліваюць бізнес, арганізацыя і выдаўцы, якія інтэгруюць тэхналогію TTS.
Тэхналогія TTS забяспечвае большую даступнасць для людзей з парушэннямі зроку, дыслексіяй або цяжкасцямі з чытаннем, што дазваляе ім лягчэй атрымліваць доступ да інфармацыі і мець зносіны.
Прадастаўляючы карыстальнікам альтэрнатыўны спосаб выкарыстання вашага кантэнту, вы можаце палепшыць пошукавую аптымізацыю (SEO) вашага вэб-сайта WordPress. Гэта асабліва важна для карыстальнікаў, якія для навігацыі па сетцы выкарыстоўваюць праграмы чытання з экрана.
Тэхналогія TTS можа палепшыць карыстацкі досвед, забяспечваючы больш натуральны і інтуітыўна зразумелы спосаб узаемадзеяння з прыладамі, зніжаючы неабходнасць ручнога ўводу або чытання.
Тэхналогія TTS можа забяспечыць кругласутачную падтрымку кліентаў, адказваючы на часта зададзеныя пытанні і прадастаўляючы інфармацыю кліентам больш эфектыўным і эфектыўным спосабам.
Тэхналогія TTS можа павялічыць прадукцыйнасць за кошт аўтаматызацыі такіх задач, як увод даных, транскрыпцыя і чытанне, вызваляючы час для больш важных задач.
Тэхналогія TTS можа падтрымліваць некалькі моў, што робіць яе каштоўным інструментам для прадпрыемстваў і арганізацый, якія працуюць па ўсім свеце.
Тэхналогія TTS можа палепшыць разуменне прачытанага, дазваляючы карыстальнікам слухаць тэкст, выконваючы напісанае, палягчаючы разуменне складанай інфармацыі.
Тэхналогія TTS можа паменшыць напружанне і стомленасць вачэй, забяспечваючы альтэрнатыву чытанню і набору тэксту, што робіць яе каштоўным інструментам для людзей, якія праводзяць доўгія гадзіны перад экранамі.
Тэхналогія TTS можа павялічыць узаемадзеянне, забяспечваючы больш інтэрактыўны і захапляльны вопыт, што робіць яе каштоўным інструментам для адукацыйных і забаўляльных праграм.
Тэхналогія TTS можа забяспечыць канкурэнтную перавагу, прапаноўваючы унікальны і інавацыйны спосаб узаемадзеяння з прыладамі, вылучаючы ваш прадукт ці паслугу сярод канкурэнтаў.
Гэта прывяло да вялікага попыту на параметрычны TTS, дзе ўся інфармацыя, неабходная для стварэння даных, захоўваецца ў параметрах мадэлі, а зместам і характарыстыкамі маўлення можна кіраваць з дапамогай уваходаў у мадэль. Аднак да гэтага часу параметрычны TTS гучаў менш натуральна, чым канкатэнацыйны. Існуючыя параметрычныя мадэлі звычайна генеруюць гукавыя сігналы, прапускаючы іх выхады праз алгарытмы апрацоўкі сігналаў, вядомыя як вакодеры.
WaveNet змяняе гэтую парадыгму, непасрэдна мадэлюючы неапрацаваную форму сігналу гукавога сігналу, адзін узор за раз. Выкарыстанне неапрацаваных сігналаў не толькі забяспечвае больш натуральнае гучанне маўлення, але і азначае, што WaveNet можа мадэляваць любы тып аўдыя, у тым ліку музыку.
Даследчыкі звычайна пазбягаюць мадэлявання неапрацаванага аўдыя, таму што яно так хутка: звычайна 16,000 XNUMX выбарак у секунду або больш, з важнай структурай у многіх часавых маштабах. Пабудова цалкам аўтарэгрэсійнай мадэлі, у якой на прагноз для кожнай з гэтых выбарак уплываюць усе папярэднія (кажучы статыстыкай, кожнае прагназуючае размеркаванне абумоўлена ўсімі папярэднімі назіраннямі), відавочна, з'яўляецца складанай задачай.
Тым не менш, PixelRNN і PixelCNN мадэлі, апублікаваныя раней, паказалі, што можна ствараць складаныя натуральныя выявы не толькі па адным пікселі, але і па адным каляровым канале за раз, патрабуючы тысяч прагнозаў на выяву. Гэта натхніла нас адаптаваць нашы двухмерныя PixelNets да аднамернай WaveNet.
Прыведзеная вышэй анімацыя паказвае структуру WaveNet. Гэта цалкам згорткавая нейронавая сетка, дзе згорткавыя пласты маюць розныя каэфіцыенты пашырэння, якія дазваляюць яе ўспрымальнаму полю расці ў геаметрычнай прагрэсіі з глыбінёй і ахопліваць тысячы часавых крокаў.
Падчас навучання ўваходныя паслядоўнасці ўяўляюць сабой рэальныя сігналы, запісаныя з чалавечых дынамікаў. Пасля навучання мы можам зрабіць выбарку сеткі для стварэння сінтэтычных выказванняў. На кожным кроку падчас выбаркі значэнне атрымліваецца з размеркавання імавернасцей, вылічанага сеткай. Затым гэта значэнне вяртаецца на ўваход і робіцца новы прагноз для наступнага кроку. Стварэнне сэмплоў пакрокава, як гэта, з'яўляецца дарагім з пункту гледжання вылічэнняў, але мы палічылі гэта неабходным для стварэння складанага гуку з рэалістычным гучаннем.
Мы трэніраваліся WaveNet выкарыстоўваючы некаторыя наборы даных Google TTS, каб мы маглі ацаніць яго прадукцыйнасць. Наступны малюнак паказвае якасць WaveNets па шкале ад 1 да 5 у параўнанні з лепшымі сучаснымі сістэмамі TTS Google (параметрычныя і канкатэнатыўны), і з выкарыстаннем чалавечай мовы Сярэдні бал меркавання (MOS). MOS з'яўляецца стандартнай мерай для суб'ектыўных тэстаў якасці гуку і былі атрыманы ў сляпых тэстах з удзелам людзей (з больш чым 500 рэйтынгаў на 100 тэставых прапаноў). Як мы бачым, WaveNets памяншае разрыў паміж сучасным узроўнем прадукцыйнасці і прадукцыйнасцю на ўзроўні чалавека больш чым на 50% для англійскай мовы ЗША і кітайскай мовы.
Як для кітайскай, так і для англійскай моваў сучасныя сістэмы TTS Google лічацца аднымі з лепшых у свеце, таму паляпшэнне абедзвюх з дапамогай адной мадэлі з'яўляецца вялікім дасягненнем.
GSpeech мае алгарытм сінтэзу голасу AI, які з'яўляецца адным з самых перадавых і рэалістычных у бізнэсе. Большасць галасавых сінтэзатараў (у тым ліку Siri ад Apple) выкарыстоўваюць так званы канкатэнатыўны сінтэз, пры якім праграма захоўвае асобныя склады — такія гукі, як «ба», «шт» і «оо» — і злучае іх на хаду, каб утварыць словы і сказы . Гэты метад стаў даволі добрым за гэтыя гады, але ён усё яшчэ гучыць хадульна.
WaveNet, для параўнання, выкарыстоўвае машыннае навучанне для стварэння аўдыё з нуля. Ён фактычна аналізуе сігналы з велізарнай базы дадзеных чалавечай гаворкі і аднаўляе іх з хуткасцю 24,000 2016 выбарак у секунду. Канчатковы вынік уключае галасы з такімі тонкасцямі, як прыцмокі і акцэнты. Калі Google упершыню прадставіў WaveNet у XNUMX годзе, ён патрабаваў занадта шмат вылічэнняў, каб працаваць па-за даследчыцкім асяроддзем, але з тых часоў яго значна скарацілі, што паказвае выразны канвеер ад даследаванняў да прадукту.