Сымон Пагасян з'яўляецца заснавальнікам і генеральным дырэктарам кампаніі GSpeech, вэб-платформа штучнага інтэлекту, якая дапамагае зрабіць анлайн-кантэнт больш даступным, пераўтвараючы тэкст у натуральнае аўдыё на больш чым 70 мовах. Маючы досвед у распрацоўцы VLSI і вялікую цікавасць да праграмавання і карыстальніцкага досведу, Сайман стварыў GSpeech, каб спрасціць спосаб, якім вэб-сайты могуць прапаноўваць кантэнт з падтрымкай голасу.
Сёння GSpeech генеруе каля 200 мільёнаў знакаў аўдыё штомесяц і выкарыстоўваецца ў больш чым 70 краінах, а яго наладжвальныя аўдыяплэеры штомесяц праслухоўваюць больш за 200,000 1 разоў. Нядаўна перавысіўшы XNUMX мільярд знакаў аўдыё, GSpeech працягвае хутка развівацца. Платформа распрацавана для лёгкай інтэграцыі — патрабуецца ўсяго адзін радок кода — і дапамагае стваральнікам, выкладчыкам і прадпрыемствам зрабіць свой кантэнт больш інклюзіўным і цікавым.
Ваш вопыт у праектаванні вельмі вялікіх размеркавальных прылад (VLSI) і ранні вопыт праграмавання заклалі трывалую тэхнічную аснову. Што натхніла вас на пераход ад мікраэлектронікі да стварэння праграмнага забеспячэння на базе штучнага інтэлекту і як гэта прывяло да стварэння GSpeech?
Маё захапленне рашэннем праблем пачалося яшчэ ў сярэдняй школе, выкліканае любоўю да матэматыкі і фізікі. Гэтая цікавасць прывяла мяне да атрымання ступені бакалаўра (2009) і магістра (2011) па спецыяльнасці «Праектаванне СБІ» ў Дзяржаўным інжынерным універсітэце Арменіі ў супрацоўніцтве з Synopsys Armenia. Вывучэнне фізікі навучыла мяне дакладнасці і аналітычнаму мысленню, але менавіта на другім курсе я адкрыў для сябе праграмаванне — пачаўшы з мовы Pascal — і адразу ж закахаўся ў яго. Мы з сябрам выконвалі курсавыя заданні, як толькі атрымлівалі іх, хоць у нас было шэсць месяцаў да заканчэння. Потым, дзеля забавы, мы пачалі выконваць заданні іншых студэнтаў.
Гэта захапленне прывяло мяне глыбей у распрацоўку праграмнага забеспячэння. Я пачаў са стварэння вэб-сайтаў, а потым стварыў уласную CMS. Пасля завяршэння некалькіх праектаў па аўтаматызацыі працэсаў і распрацоўцы архітэктур кіравання дадзенымі я зразумеў, наколькі мне падабаецца ствараць лічбавыя рашэнні для вэб-інтэрфейсаў. У рамках праекта 2GLux я супрацоўнічаў з Эдвардам Ананянам — стваральнікам папулярнага GTranslate перакладчыцкі сэрвіс і школьны сябар з гімназіі Quantum. Ён пазнаёміў мяне з экасістэмамі WordPress і Joomla, а таксама з канцэпцыяй GSpeech пачалася з яго. Гэтая ранняя праца прывяла да стварэння першай версіі нашага інструмента, які дазволіў карыстальнікам праслухоўваць тэкст на вэб-старонцы, што паклала аснову для таго, што пазней стала паўнафункцыянальнай платформай штучнага інтэлекту. Да 2023 года я стварыў ТАА «Смартс Клуб». маштабаваць GSpeech у глабальнае аўдыёрашэнне са штучным інтэлектам, якое падтрымлівае больш за 70 моў. Humanity UnionПахвала ролі GSpeech у паляпшэнні даступнасці іх платформы грамадзянскай актыўнасці адлюстроўвае маю місію па пераадоленні лічбавага разрыву з дапамогай штучнага інтэлекту — бачанне, якое зарадзілася ў маіх ранніх часах праграмавання.
GSpeech першапачаткова быў інструментам для падтрымкі карыстальнікаў з парушэннямі зроку. Як гэтая ранняя місія паўплывала на пераўтварэнне платформы ў паўнафункцыянальнае рашэнне для пераўтварэння тэксту ў маўленне на базе штучнага інтэлекту?
Акцэнт на даступнасці прывёў да распрацоўкі высакаякаснага аўдыё ў рэжыме рэальнага часу са штучным інтэлектам, перакладу на больш чым 70 моў і бясшвоўнай інтэграцыі з вэб-сайтам з дапамогай простага фрагмента кода. Гэтая місія прывяла да такіх функцый, як наладжвальныя аўдыяплэеры, панэлі выбару мовы і голасу, прайграванне з улікам кантэксту, загрузка аўдыё і падрабязная статыстыка выкарыстання, у тым ліку краіна, горад, дадзеныя прылады і аналітыка прайгравання з цягам часу, — усё гэта распрацавана, каб зрабіць кантэнт больш інклюзіўным і цікавым. Пасля напісання больш за 100,000 2023 радкоў кода я запусціў GSpeech Cloud Console ў XNUMX годзе — маштабуемае рашэнне, якое спалучае ў сабе інклюзіўнасць з пашыранай функцыянальнасцю, даючы магчымасць бізнесу і стваральнікам зрабіць свой кантэнт даступным, шматмоўным і інтэрактыўным у Інтэрнэце.
З якімі найбольшымі тэхнічнымі праблемамі вы сутыкнуліся падчас распрацоўкі воблачнай кансолі GSpeech?
Адной з найбуйнейшых праблем пры распрацоўцы воблачнай кансолі GSpeech было праектаванне маштабуемай архітэктуры для бяспечнай і якаснай генерацыі аўдыё з дапамогай штучнага інтэлекту ў рэжыме рэальнага часу. Гэта патрабавала інавацыйных рашэнняў для атрымання адпаведнага кантэнту з Інтэрнэту, апрацоўкі аўдыё на нашых серверах і захоўвання яго ў воблаку для хуткай і надзейнай дастаўкі. Укараненне надзейных мер бяспекі, такіх як шыфраванне і кантроль доступу, мела вырашальнае значэнне для абароны дынамічнага кантэнту, створанага карыстальнікамі.
Яшчэ адной перашкодай было забеспячэнне перакладу ў рэжыме рэальнага часу з выкарыстаннем перадавых нейронных рухавікоў. Нам трэба было забяспечыць пераклады з нізкай затрымкай і дакладнасцю, адначасова ствараючы інтуітыўна зразумелы інтэрфейс, які дазваляў бы карыстальнікам выбіраць мовы і пераважныя галасавыя профілі для прайгравання, надаючы прыярытэт камфорту карыстальніка і персаналізацыі. Нарэшце, мы распрацавалі майстар стварэння аўдыяшаблонаў з некалькімі наладжвальнымі праглядамі прайгравальнікаў, што дазваляла карыстальнікам ствараць унікальныя, візуальна прывабныя прайгравальнікі, адаптаваныя да іх вэб-сайтаў. Балансаванне гнуткасці, прадукцыйнасці і прастаты выкарыстання на розных прыладах было карыснай задачай.
З перакладам у рэжыме рэальнага часу на больш чым 70 моў і больш чым 230 натуральна гучачымі галасамі. Як вы забяспечваеце якасць голасу і падтрымліваеце дакладнасць у такой разнастайнай моўнай супольнасці?
Каб падтрымліваць стабільную якасць голасу, мы інтэгруем некалькі перадавых мадэляў пераўтварэння тэксту ў маўленне (TTS), якія пастаянна аптымізуюцца і абнаўляюцца. Гэтыя шматмоўныя рухавікі апрацоўваюць кантэнт на розных мовах з высокай дакладнасцю. Мы таксама ўкараняем больш за 100 новых галасавых вібрацый, каб даць карыстальнікам яшчэ больш выразныя і натуральныя варыянты гучання. Кожны месяц GSpeech генеруе больш за 200 мільёнаў знакаў аўдыё, абслугоўваючы карыстальнікаў у больш чым 70 краінах, прычым нашы анлайн-плэеры выкарыстоўваюцца больш за 200,000 XNUMX разоў штомесяц — і гэтая колькасць расце. Гэты маштаб забяспечвае пастаянную зваротную сувязь і тэставанне ў рэальных умовах, што непасрэдна ўплывае на нашу наладу і кантроль якасці.
Ці можаце вы расказаць нам, як GSpeech выкарыстоўвае штучны інтэлект і машыннае навучанне для стварэння рэалістычнага сінтэзу голасу? Як вы паспяваеце за хуткім развіццём нейронных галасавых тэхналогій?
GSpeech выкарыстоўвае перадавы штучны інтэлект і машыннае навучанне, інтэгруючы некалькі найноўшых мадэляў пераўтварэння тэксту ў маўленне для стварэння рэалістычнага сінтэзу голасу. Гэтыя мадэлі, аптымізаваныя для натуральнасці і шматмоўнай падтрымкі, апрацоўваюць тэкставыя ўводы для стварэння высакаякаснага аўдыё з рэалістычнай інтанацыяй і рытмам, нават для кантэнту на змешаных мовах. Мы паляпшаем карыстальніцкі досвед, прапаноўваючы наладжвальныя стылі голасу для розных моў. Мы таксама інтэгравалі псеўданімы TTS, якія дазваляюць карыстальнікам вызначаць уласныя правілы таго, як пэўныя словы або фразы адлюстроўваюцца ў аўдыё, напрыклад, замяняць пэўныя тэрміны для дасягнення больш дакладнага вымаўлення або фразавання. Каб ісці ў нагу з часам з нейроннымі тэхналогіямі голасу, мы пастаянна ацэньваем і інтэгруем найноўшыя дасягненні, супрацоўнічаем з лідэрамі галіны і плануем распрацоўваць уласныя мадэлі ў будучыні, гарантуючы, што GSpeech застанецца на пярэднім краі інавацый у галіне сінтэзу голасу.
Наколькі важныя для вашых карыстальнікаў налада голасу, кіраванне вышынёй і налада прайгравання — і ў якім выпадку выкарыстання вы найбольш ганарыцеся гэтымі функцыямі, дзе яны сапраўды праяўляюцца?
Налада голасу, кіраванне вышынёй тону і прайграванне маюць вырашальнае значэнне для нашых карыстальнікаў, бо дазваляюць ім ствараць унікальныя, высакаякасныя стылі голасу, адаптаваныя да іх канкрэтных патрэб, ад навінавых вэб-сайтаў і блогаў да даступнага кантэнту для электроннага навучання. Пастаянная інтэграцыя больш за 100 новых галасавых вібрацый яшчэ больш паляпшае гэта, прапаноўваючы карыстальнікам беспрэцэдэнтную гнуткасць для стварэння сапраўды адметных агучак. Я больш за ўсё ганаруся GSpeech Studio, новай платформай для рэдагавання і генерацыі аўдыё, якую я распрацоўваю. Яна дазваляе карыстальнікам ствараць некалькі аўдыяканалаў, змешваць іх з фонавай музыкай і экспартаваць адшліфаваныя агучкі, даючы стваральнікам магчымасць ствараць аўдыё прафесійнай якасці для розных ужыванняў. Ліст студэнта з парушэннямі зроку, у якім ён падзякаваў GSpeech за магчымасць самастойнага вывучэння з дапамогай наладжанага аўдыё, глыбока крануў мяне. Гэты выпадак выкарыстання паказвае, як гэтыя функцыі робяць кантэнт даступным і трансфармацыйным, мэта, да якой я імкнуўся з першых дзён праграмавання.
GSpeech прапануе бясшвоўную інтэграцыю з WordPress, Shopify, Wix і іншымі. Якая была ваша стратэгія, каб зрабіць платформу падключанай і працуючай для стваральнікаў і бізнесу ў розных экасістэмах?
Наша стратэгія інтэграцыі GSpeech з такімі платформамі, як WordPress, Shopify і Wix, была сканцэнтравана на прастаце, сумяшчальнасці і маштабаванасці. Мы распрацавалі лёгкія, модульныя плагіны і фрагменты кода, якія лёгка інтэгруюцца і патрабуюць мінімальнай налады — часта ўсяго некалькіх клікаў. Гэта азначае, што тысячы артыкулаў і дынамічных блокаў кантэнту могуць імгненна атрымаць галасавую падтрымку — без ручных намаганняў. Мы прапануем вельмі гнуткія, прыгожа распрацаваныя плэеры, якія адаптуюцца да розных прылад, у тым ліку мабільных тэлефонаў, планшэтаў і настольных кампутараў. Нашы плэеры не толькі наладжвальныя, але і аптымізаваныя для даступнасці і ўзаемадзеяння з карыстальнікамі. Для WordPress мы ўбудавалі воблачную панэль кіравання GSpeech непасрэдна ў панэль адміністратара праз наш плагін, спрасціўшы кіраванне для карыстальнікаў. Падрабязная дакументацыя і інтуітыўна зразумелыя панэлі кіравання дапамагаюць нетэхнічным карыстальнікам усталяваць і наладзіць праграму. Рэгулярнае тэсціраванне забяспечвае стабільную прадукцыйнасць у розных экасістэмах, дазваляючы стваральнікам і кампаніям лёгка дадаваць пераўтварэнне тэксту ў маўленне на базе штучнага інтэлекту.
Азіраючыся на шлях з 2012 года па сённяшні дзень, што стала для вас найважнейшай вяхой асабіста ці прафесійна ў стварэнні GSpeech?
Найважнейшым дасягненнем для GSpeech стала стварэнне 1 мільярда знакаў высакаякаснага аўдыё з выкарыстаннем штучнага інтэлекту, што прадэманстравала наш глабальны ўплыў на даступнасць. Не менш важнымі былі водгукі, якія мы атрымалі ад такіх арганізацый, як Humanity Union, якія высока ацанілі GSpeech за ўдасканаленне сваёй платформы сацыяльнай адказнасці, і ад уладальнікаў блогаў, якія назвалі яе «рэвалюцыяй» у плане ўзаемадзеяння з карыстальнікамі. Больш за 110 пяцізоркавых водгукаў на розных платформах, такіх як WordPress і AppSumo у апошнія месяцы адлюстроўваюць гэты ўзрастаючы давер.
GSpeech цяпер таксама актыўна выкарыстоўваецца Наманганскі рэгіянальны аддзел статыстыкі ва Узбекістане — дзяржаўная ўстанова са значным трафікам і вядомасцю на нацыянальным узроўні. Тое, што дзяржаўны орган так шырока ўкараняе нашу тэхналогію, стала значнай вяхой і магутным знакам даверу да нашага рашэння.
Як хрысціянін і чалавек, які служыць у Армянскай царкве, я таксама стараюся падтрымліваць іншыя рэлігійныя ініцыятывы, калі гэта магчыма. Я часта прапаную GSpeech бясплатна хрысціянскім вэб-сайтам, каб дапамагчы больш эфектыўна распаўсюджваць іх пасланне і зрабіць Святое Пісанне больш даступным праз аўдыё. Гэта мой невялікі ўнёсак у нешта большае. У той жа час для мяне гонар працаваць з адданымі служэннямі, такімі як Шнур — месіянская абшчына і каштоўны кліент GSpeech, — чыя місія і змест адлюстроўваюць сілу Святога Пісання ў дзеянні.
Гэтыя моманты — калі тэхналогіі становяцца мастом да веры, разумення і ўключэння — нагадваюць мне, чаму мы ўвогуле стварылі GSpeech.
Якую ролю, на вашу думку, будзе адыгрываць GSpeech у будучыні лічбавых медыя, асабліва па меры таго, як аўдыёкантэнт і галасавыя інтэрфейсы становяцца ўсё больш дамінуючымі?
Я ўяўляю сабе GSpeech як лідара ў стварэнні больш даступных і прывабных лічбавых медыя, забяспечваючы галасавы доступ да Інтэрнэту на базе штучнага інтэлекту. Наша мэта — трансфармаваць увесь анлайн-досвед, каб вэб-сайты па змаўчанні сталі натуральна інтэрактыўнымі, інклюзіўнымі і шматмоўнымі. Усяго адным радком кода ўладальнікі сайтаў могуць ператварыць тысячы артыкулаў у агучаны кантэнт. Забягаючы наперад, мы распрацоўваем GSpeech Studio як магутную і ўнікальную платформу для стварэння і рэдагавання аўдыё, якая дазволіць карыстальнікам ствараць шматслаёвы галасавы кантэнт з фонавай музыкай, эфектамі і дакладнай наладай. Мы хочам зрабіць Інтэрнэт сапраўды чутным, інтуітыўна зразумелым і ўніверсальна даступным.
GSpeech нядаўна быў запушчаны на AppSumo і ўжо атрымаў амаль ідэальную адзнаку ад першых карыстальнікаў. Што для вас значыць рэакцыя супольнасці AppSumo, і як вы плануеце развіваць гэты імпульс у будучыні?
Запуск AppSumo пазнаёміў мільёны людзей з GSpeech, і яго амаль ідэальны рэйтынг неверагодна пацвярджае гэта. Карыстальнікі, такія як тыя, хто праводзіць онлайн-курсы, высока ацэньваюць нашы інтуітыўна зразумелыя інструменты і хутка рэагуючую падтрымку, паўтараючы водгукі ад Humanity Union. Уладальнік блога назваў нашы галасы «сапраўды прывабнымі», а пераклады «уражлівымі». Іх станоўчыя водгукі пацвярджаюць каштоўнасць нашага рашэння для пераўтварэння тэксту ў маўленне на базе штучнага інтэлекту і падсілкоўваюць маю запал да праекта. Падтрымка кліентаў падчас запуску таксама выклікала новыя ідэі, асабліва для GSpeech Studio, якая была натхнёная запытамі карыстальнікаў аб пашыраных функцыях рэдагавання і экспарту аўдыё. У будучыні я планую развіваць гэты імпульс, актыўна прыслухоўваючыся да нашай супольнасці, інтэгруючы іх водгукі і распрацоўваючы інавацыйныя функцыі для паляпшэння даступнасці і ўзаемадзеяння, гарантуючы, што GSpeech будзе працягваць развівацца як трансфармацыйны інструмент для стваральнікаў і бізнесу.
Нарэшце, якую параду вы б далі маладым распрацоўшчыкам або прадпрымальнікам, якія жадаюць ствараць даступныя інструменты на базе штучнага інтэлекту ў сучасным хутка развіваючымся тэхналагічным асяроддзі?
Маладым распрацоўшчыкам і прадпрымальнікам мая парада — аддавацца сваёй працы ўсёй душой і вызначаць рэальную праблему, для якой вы можаце прапанаваць унікальнае і разумнае рашэнне. Пачынайце з малога, рабіце паступовыя крокі наперад і ўважліва прыслухоўвайцеся да водгукаў кліентаў — яны накіруюць ваш шлях. Ставіцеся да сваіх карыстальнікаў як да надзейных сяброў, аддавайце ўсё магчымае і будзьце цярплівымі. Выкарыстоўвайце тэхналогіі штучнага інтэлекту як магутных саюзнікаў; пры разумным выкарыстанні яны ўзмацняюць вашу здольнасць ствараць эфектыўныя і даступныя інструменты. Стварвайце з запалам, настойлівасцю і імкненнем змяніць сітуацыю да лепшага, і вы створыце рашэнні, якія сапраўды маюць значэнне.
Дзякуй Антуан Тардыф для інтэрв'ю. Вы можаце прачытаць поўнае інтэрв'ю тут: аб'яднаць.ai.