MOS vs. AB: Evaluating Text-to-Speech Systems Reliably Using Clustered Standard Errors is geaccepteerd voor INTERSPEECH 2023, in Dublin.
Ik denk dat dit een zeer interessant artikel. Iedere TTS onderzoeker moet TTS systemen evalueren, en de vraag die zich daarbij altijd voordoet is: welke methode gaan we gebruiken? Een MOS test of een vergelijking tussen het ene systeem en het andere (of het ene systeem en opgenomen spraak).
Hoe moet je kiezen? Is een van de twee beter dan andere? Robuuster? Sensitiever?
Als je je dit ooit weleens hebt afgevraagd... lees dan het artikel ;-)
Erg leuk om een praatje te geven aan de groep waar ik zelf gepromoveerd ben. Het zou me overigens niet verbazen als het publiek niet zomaar alle details paraat heeft wat betreft spraaksynthese/TTS (dat had ik zeker zelf niet toen ik daar rondliep), dus dat wordt een mooie uitdaging voor mij om er toch een leuk praatje van te maken!
Slides volgen nog...
Training Text-To-Speech Systems From Synthetic Data: A Practical Approach For Accent Transfer Tasks van Lev Finkelstein, Heiga Zen, Norman Casagrande, Chun-an Chan, Ye Jia, mijzelf, Alexey Petelin, Jonathan Shen, Vincent Wan, Yu Zhang, Yonghui Wu en Rob Clark is geaccepteerd voor INTERSPEECH 2022.
Dit paper gaat over het overzetten van het accent van de ene spreker naar een andere spreker die dat accent niet heeft, waarbij het belangrijk is dat het karakter van de spraak van de doelspreker niet verloren gaat.
Er zijn modellen die dit goed kunnen, maar die zijn vaak computationeel duur, en ze zijn ook niet altijd helemaal betrouwbaar.
Er zijn andere modellen die sneller, efficiënter en betrouwbaarder zijn, maar die niet zo goed zijn in het overzetten van accenten.
Dit artikel laat zien hoe je de data gegenereerd door het goede maar dure systeem kan gebruiken om een efficiënt systeem te trainen.
Improving the Prosody of RNN-based English Text-To-Speech Synthesis by Incorporating a BERT Model van mij, Manish Sharma en Rob Clark is een poging om de gebieden van Natural Language Understanding (NLU) en Text-To-Speech met elkaar te verenigen.
Het idee is dat de prosodie van synthetisch spraak beter wordt als je de kennis in een BERT model erbij betrekt, omdat BERT modellen syntactische en semantische (wereld)kennis in zich hebben.
StrawNet: Self-Training WaveNet for TTS in Low-Data Regimes van Manish Sharma, mij en Rob Clark gaat over het distilleren van Parallel WaveNet modellen.
Normaal wordt zo'n Parallalel Wavenet student model gedestilleerd op basis van de dataset waarop het originele teacher WaveNet is getraind.
Dat werkt niet zo goed als er weinig originele data is, en het idee van dit artikel is dat het helpt als je aan die originele dataset veel gesynthetiseerde voorbeelden van het teacher model toevoegt. Simpel en effectief!
De blog post is gebaseerd op ons SSW10 paper.
Dit paper beschrijft het model, gebaseerd op een variational auto-encoder (VAE), dat op dit moment gebruikt wordt voor spraaksynthese (text-to-speech/TTS) in de Google Assistant voor de meest populaire stemmen.
Het praatje gaat over mijn werk op gebied van byte-level machine reading modellen.
Hier zijn de slides.
In de allerleerste blogpost die ik ook heb geschreven, die op Medium staat, probeer ik uit te leggen hoe byte-level modellen werken, hoe ze zich verhouden tot modellen die letters lezen, en modellen die op woordniveau werken.
Veel leesplezier!
De slides staan hier als één file, maar zijn ook per sessie to downloaden van de NN4IR website.
Daarnaast is hier ook nog het overview paper.
De slides staan hier als één file, maar zijn ook per sessie to downloaden van de NN4IR website.
Daarnaast is hier ook nog het overview paper.
Op vrijdag 15 december 2017 heb ik mijn proefschrift, getiteld Text Understanding for Computers succesvol verdedigd in de Agnietenkapel in Amsterdam.
Veel dank aan de commissieleden: prof. dr. Krisztian Balog (Universiteit van Stavanger), prof. dr. Antal van den Bosch (Radboud Universiteit, Meertens Instituut), prof. dr. Franciska de Jong (Universiteit Utrecht), dr. Evangelos Kanoulas (Universiteit van Amsterdam), dr. Christof Monz (Universiteit van Amsterdam), prof. dr. Khalil Sima'an (Universiteit van Amsterdam), dr. Aleksandr Chuklin (Google Research) en dr. Claudia Hauff (TU Delft). Bovendien veel dank aan mijn co-promotor prof. dr.Joris van Eijnatten (Universiteit Utrecht), en bovenal aan mijn begeleider prof. dr. Maarten de Rijke.
Hier is de PDF van het boek.
De PDF komt eraan...
Er staat een mooie blogpost op de ACM website. En hier zijn alle tweets.
De uiteindelijke slides staan op nn4ir.com.
Hier is een de pre-print versie op arXiv.
Hier is de link naar het artikel op site van de New Scientist.
Ik heb overigens ook het logo ontworpen... ;-)
Nogmaals zeer veel dank aan alle annotatoren die hebben meegewerkt!!!
De uiteindelijke PDFs komen er aan.
De algoritmes die ik heb bedacht om dit soort veranderingen in woordgebruik door de tijd heen te monitoren gaan worden geïmplementeerd in een tool die gebruikt wordt door digital humanities onderzoekers om historisch corpus aan krantenmateriaal (uit de afgelopen vier eeuwen) te doorzoeken.