Ik heb als een van de eerste een nieuwe ACL peer review award gekregen. Zeer vereerd! Hartelijk dank aan de ACL'23 organisatie.
 
Ik heb een ICASSP 2023 Outstanding Reviewer Award gekregen. Ik ben zeer vereerd. Hartelijk dank aan de de ICASSP 2023 organisatie!
 

MOS vs. AB: Evaluating Text-to-Speech Systems Reliably Using Clustered Standard Errors is geaccepteerd voor INTERSPEECH 2023, in Dublin.

Ik denk dat dit een zeer interessant artikel. Iedere TTS onderzoeker moet TTS systemen evalueren, en de vraag die zich daarbij altijd voordoet is: welke methode gaan we gebruiken? Een MOS test of een vergelijking tussen het ene systeem en het andere (of het ene systeem en opgenomen spraak).

Hoe moet je kiezen? Is een van de twee beter dan andere? Robuuster? Sensitiever?

Als je je dit ooit weleens hebt afgevraagd... lees dan het artikel ;-)


 
Ik geef een praatje bij SEA (Search Engines Amsterdam), georganiseerd door het IRLab Amsterdam. Het praatje gaat over "Improving Speech Synthesis by Leveraging Pretrained Language Models".

Erg leuk om een praatje te geven aan de groep waar ik zelf gepromoveerd ben. Het zou me overigens niet verbazen als het publiek niet zomaar alle details paraat heeft wat betreft spraaksynthese/TTS (dat had ik zeker zelf niet toen ik daar rondliep), dus dat wordt een mooie uitdaging voor mij om er toch een leuk praatje van te maken!

Slides volgen nog...
 

Artikel geaccepteerd voor INTERSPEECH 2022!
 

Training Text-To-Speech Systems From Synthetic Data: A Practical Approach For Accent Transfer Tasks van Lev Finkelstein, Heiga Zen, Norman Casagrande, Chun-an Chan, Ye Jia, mijzelf, Alexey Petelin, Jonathan Shen, Vincent Wan, Yu Zhang, Yonghui Wu en Rob Clark is geaccepteerd voor INTERSPEECH 2022.

Dit paper gaat over het overzetten van het accent van de ene spreker naar een andere spreker die dat accent niet heeft, waarbij het belangrijk is dat het karakter van de spraak van de doelspreker niet verloren gaat. Er zijn modellen die dit goed kunnen, maar die zijn vaak computationeel duur, en ze zijn ook niet altijd helemaal betrouwbaar. Er zijn andere modellen die sneller, efficiënter en betrouwbaarder zijn, maar die niet zo goed zijn in het overzetten van accenten. Dit artikel laat zien hoe je de data gegenereerd door het goede maar dure systeem kan gebruiken om een efficiënt systeem te trainen.
 

US Patent 11,295,725 Self-training WaveNet for text-to-speech van Manish Sharma, mijzelf en Rob Clark is gepubliceerd.
 
US Patent 16,867,427 Speech Synthesis Prosody Using A BERT Model van mij, Manish Sharma, Rob Clark en Aliaksei Severyn is gepubliceerd.
 
Twee artikelen geaccepteerd voor INTERSPEECH 2020!
 

Improving the Prosody of RNN-based English Text-To-Speech Synthesis by Incorporating a BERT Model van mij, Manish Sharma en Rob Clark is een poging om de gebieden van Natural Language Understanding (NLU) en Text-To-Speech met elkaar te verenigen. Het idee is dat de prosodie van synthetisch spraak beter wordt als je de kennis in een BERT model erbij betrekt, omdat BERT modellen syntactische en semantische (wereld)kennis in zich hebben.
 

StrawNet: Self-Training WaveNet for TTS in Low-Data Regimes van Manish Sharma, mij en Rob Clark gaat over het distilleren van Parallel WaveNet modellen. Normaal wordt zo'n Parallalel Wavenet student model gedestilleerd op basis van de dataset waarop het originele teacher WaveNet is getraind. Dat werkt niet zo goed als er weinig originele data is, en het idee van dit artikel is dat het helpt als je aan die originele dataset veel gesynthetiseerde voorbeelden van het teacher model toevoegt. Simpel en effectief!
 

Het artikel, Frugal Paradigm Completion, van Alex Erdmann, mijzelf, Markus Becker en Christian Schallhart, over het automatisch aanvullen van van morphologische paradigma's (bijvoorbeeld alle vormen van een werkwoord, of een zelfstandig naamwoord) is geaccepteerd voor The 58th annual meeting of the Association for Computational Linguistics (ACL 2020). Dit werk is gebaseerd op de stage die Alex Erdmann in ons TTS team in Londen heeft gedaan afgelopen jaar.
 
Ik heb een blogpost op het Google AI blog geschreven over het evalueren van spraaksynthese als het over langere teksten gaat (langer dan één zin), omdat ik dacht dat we wat bevindingen hebben gedaan die interessant zijn voor een breder publiek.

De blog post is gebaseerd op ons SSW10 paper.
 

Evaluating Long-form Text-to-Speech: Comparing the Ratings of Sentences and Paragraphs, door Rob Clark, Hanna Silen, mijzelf en Ralph Leith, is geaccepteerd voor SSW10, the 10th ISCA Speech Synthesis Workshop, to be held 20-22 September, 2019, Vienna, Austria. De workshop is een satellietevenement van INTERSPEECH 2019 in Graz, Austria.
 
Personal Knowledge Graphs: A Research Agenda, door Krisztian Balog and mij, is geaccepteerd voor ICTIR 2019, the 9th International Conference on the Theory of Information Retrieval, oktober 2-5, 2019 in Santa Clara, California.
 
Ik neem deel aan de Program Committee van the 28th ACM International Conference on Information and Knowledge Management (CIKM), 3-7 November, 2019 in Peking.
 
Het allereerste text-to-speech paper waar ik aan bij heb gedragen, CHiVE: Varying Prosody in Speech Synthesis with a Linguistically Driven Dynamic Hierarchical Conditional Variational Network, van Vincent Wan, Chun-an Chan, mezelf, Jakub Vit en Rob Clark is geaccepteerd voor ICML 2019, in Los Angeles.

Dit paper beschrijft het model, gebaseerd op een variational auto-encoder (VAE), dat op dit moment gebruikt wordt voor spraaksynthese (text-to-speech/TTS) in de Google Assistant voor de meest populaire stemmen.
 

Ik geef aan praatje aan het Alan Turing Institute in Londen, georganiseerd door de South England Natural Language Processing Meetup.

Het praatje gaat over mijn werk op gebied van byte-level machine reading modellen.

Hier zijn de slides.
 

Ik neem deel aan de Program Committee voor de 1st International Workshop on Computational Approaches to Historical Language Change. LangChange 2019 zal samen worden gehouden met ACL 2019, in Florence, Italië, 28 juli t/m 2 augustus 2019.
 
Sequence-to-sequence modellen met letters als input zijn erg populair tegenwoordig. Deze letter-lezende modellen zijn geweldig, maar, zoals we hebben laten zien in ons AAAI artikel, kunnen modellen die bytes lezen nog beter zijn.

In de allerleerste blogpost die ik ook heb geschreven, die op Medium staat, probeer ik uit te leggen hoe byte-level modellen werken, hoe ze zich verhouden tot modellen die letters lezen, en modellen die op woordniveau werken.

Veel leesplezier!
 

Ik heb een baan bij Google in Londen!
Ik ga onderzoek doen in de Text-To-Speech groep van Rob Clark, naar text-to-speech en natural language understanding, en dan met name hoe het laatste kan helpen het eerste te verbeteren.

Ik heb hier erg veel zin in!!!
 

Het was erg leuk om uitgenodigd te worden een presentatie te doen bij de Dive into New Deep Learning Models for Natural Language Processing Meetup over het Byte-level Machine Reading across Morphologically Varied Languages artikel.
 
Voor de derde en laatste keer NN4IR, dit keer op ECIR 2018, in Grenoble. Hartelijk dank aan de mede-presentatoren, Christophe Van Gysel, Maarten de Rijke en Bhaskar Mitra, en natuurlijk ook aan degenen die er niet bij waren, maar die wel veel tijd in de slides hebben gestoken, Hosein Azarbonyad, Alexey Borisov en Mostafa Dehghani!

De slides staan hier als één file, maar zijn ook per sessie to downloaden van de NN4IR website. Daarnaast is hier ook nog het overview paper.
 

De NN4IR tutorial op WSDM 2018, in Los Angeles, was een sucess. Vanwege (totaal zinloos) gedoe met visa konden Mostafa Dehghani en Maarten de Rijke er niet bij zijn. Zeer veel dank aan Hosein Azarbonyad, voor het opvangen van hun sessies! En verder natuurlijk ook dank aan Alexey Borisov en Christophe Van Gysel!

De slides staan hier als één file, maar zijn ook per sessie to downloaden van de NN4IR website. Daarnaast is hier ook nog het overview paper.
 

AAAI-18, in New Orleans, was te gek!
Ik heb het werk wat ik heb gedaan met Llion Jones en Daniel Hewlett tijdens de eerste stage bij Google Research gepresenteerd. Hier is de PDF van het artikel Byte-level Machine Reading across Morphologically Varied Languages.
 
Ik ben gepromoveerd...!!

Op vrijdag 15 december 2017 heb ik mijn proefschrift, getiteld Text Understanding for Computers succesvol verdedigd in de Agnietenkapel in Amsterdam.

Veel dank aan de commissieleden: prof. dr. Krisztian Balog (Universiteit van Stavanger), prof. dr. Antal van den Bosch (Radboud Universiteit, Meertens Instituut), prof. dr. Franciska de Jong (Universiteit Utrecht), dr. Evangelos Kanoulas (Universiteit van Amsterdam), dr. Christof Monz (Universiteit van Amsterdam), prof. dr. Khalil Sima'an (Universiteit van Amsterdam), dr. Aleksandr Chuklin (Google Research) en dr. Claudia Hauff (TU Delft). Bovendien veel dank aan mijn co-promotor prof. dr.Joris van Eijnatten (Universiteit Utrecht), en bovenal aan mijn begeleider prof. dr. Maarten de Rijke.

Hier is de PDF van het boek.
 

Nadat we NN4IR op SIGIR 2017 hebben gegeven, gaan we (een sterk aangepaste versie van) de tutorial opnieuw doen op WSDM 2018. We zijn met ongeveer dezelfde mensen: Alexey Borisov, Christophe Van Gysel, Mostafa Dehghani, Maarten de Rijke en ik.
 
Mijn paper "Byte-level Machine Reading across Morphologically Varied Languages" met Llion Jones en Daniel Hewlett van Google Research is geaccepteerd voor de Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), in New Orleans.
Dit paper is gebaseerd op het onderzoek dat ik heb gedaan tijdens mijn stage bij Google Research in Californië.

De PDF komt eraan...
 

Ik ben vereerd! Ik heb een Outstanding Paper Reviewer Award gekregen op the 26th ACM International Conference on Information and Knowledge Management CIKM 2017.
Zie deze tweet voor het bewijs!
 
Nogmaals veel dank aan Alexey Borisov, Christophe Van Gysel, Mostafa Dehghani, Maarten de Rijke en Bhaskar Mitra, en aan alle deelnemers, voor een zeer geslaagde en drukbezochte NN4IR tutorial op SIGIR 2017 in Tokyo.

Er staat een mooie blogpost op de ACM website. En hier zijn alle tweets.

De uiteindelijke slides staan op nn4ir.com.
 

Ik ben uitgenodigd voor de programmacommissie van 2018 editie van The Web Conference (27th edition van wat voorheen WWW heette).
Ja, inderdaad, WWW 2018 is dit jaar hernoemt tot The Web Conference.
 
Samen met Mostafa Dehghani (UvA), Jaap Kamps (UvA), Scott Roy (Google) en Ryen White (Microsoft Research), zit ik in de programmacommissie van SCAI'17 — Search-Oriented Conversational AI, gehouden op 1 oktober in Amsterdam, en georganiseerd samen met ICTIR'17.
 
Ik ga een tutorial geven op SIGIR 2017 in Tokyo, over neurale netwerken voor Information Retrieval (NN4IR), samen met Alexey Borisov, Christophe Van Gysel, Mostafa Dehghani, Maarten de Rijke en Bhaskar Mitra.
Meer info in dit overview paper en op de NN4IR website.
 
Ik ben vereerd uitgenodigd te zijn een praatje te geven op het 14e SIKS/Twente Seminar on Searching and Ranking, Text as social and cultural data. Dit symposium wordt georganiseerd ter ere van de promotie van Dong Nguyen.
 
Ik ben uitgenodigd om lid te worden van het Program Committee van KDD 2017, een vooraanstaand interdisciplinair congres voor academici en mensen uit het bedrijfsleven, op het gebied van data science, data mining, knowledge discovery, large-scale data analytics en big data. Het congres wordt gehouden in Halifax, Nova Scotia, Canada, 13 t/m 17 augustus 2017.
 
Dit is geweldig!!! Ik ga voor de tweede keer een stage doen bij Google Research in Mountain View, Californië.
De stage is van april t/m juli en ik ga samenwerken met Dana Movshovitz-Attias.

 
Heel mooi! Het full paper Hierarchical Re-estimation of Topic Models for Measuring Topical Diversity, van Hosein Azerbonyad, Mostafa Dehghani, mijzelf, Maarten Marx, Jaap Kamps en Maarten de Rijke is geaccepteerd voor de 39th European Conference on Information Retrieval (ECIR 2017) in Aberdeen!
 
Vandaag heb ik een praatje gegeven over Siamese CBOW, bij SEA, Search Engines Amsterdam, een serie van praatjes, iedere maand, waar zowel mensen van de universiteit als uit het bedrijfsleven hun werk presenteren. Hier zijn de slides van mijn praatje..
 
Het was erg leuk om BNAIC 2016 te organiseren. Ik had mijn debuut als sessie chair, in de Natural Language Processing sessie. Ik was de Demo Chair van de organisatie, en ik denk dat de demosessie zeer geslaagd was, met "Autonomous Robot Soccer Matches" van Caitlin Lagrand et al. als winnaar van BNAIC SKBS Demo Award.
 
Hier is de officiële versie van Siamese CBOW: Optimizing Word Embeddings for Sentence Representations, het full paper met Alexey Borisov en Maarten de Rijke, dat ik vorige week op ACL 2016 in Berlijn heb gepresenteerd.
 
Het artikel Design and implementation of ShiCo: Visualising shifting concepts over time samen met Carlos Martinez-Ortiz, Melvin Wevers, Pim Huijnen, Jaap Verheul en Joris van Eijnatten is geaccepteerd voor de HistoInformatics2016 workshop die gehouden wordt samen met het Digital Humanities 2016 congres.
De PDF komt eraan.
 
Geweldig!! Mijn full paper Siamese CBOW: Optimizing Word Embeddings for Sentence Representations geschreven samen met Alexey Borisov en Maarten de Rijke is geaccepteerd voor ACL 2016, in Berlijn.

Siamese CBOW: Optimizing Word Embeddings for Sentence Similarity

We present the Siamese Continuous Bag of Words (Siamese CBOW) model, a neural network for efficient estimation of high-quality sentence embeddings. Averaging the embeddings of words in a sentence has proven to be a surprisingly successful and efficient way of obtaining sentence embeddings. However, word embeddings trained with the methods currently available are not optimized for the task of sentence representation, and, thus, likely to be suboptimal. Siamese CBOW handles this problem by training word embeddings directly for the purpose of being averaged. The underlying neural network learns word embeddings by predicting, from a sentence representation, its surrounding sentences. We show the robustness of the Siamese CBOW model by evaluating it on 20 datasets stemming from a wide variety of sources.

Hier is een de pre-print versie op arXiv.
 

Ik ben zeer vereerd en eigenlijk best wel een beetje trots... er staat een interview met mij in de New Scientist.
De titel is: Kan een computer ooit taal begrijpen? Het interview gaat over mijn onderzoek en ook een beetje, aan het einde, over de huidige stand van zaken in de taaltechnologie.

Hier is de link naar het artikel op site van de New Scientist.
 

Het demo-artikel "ShiCo: A Visualization tool for Shifting Concepts Through Time" samen met Carlos Martinez-Ortiz, Melvin Wevers, Pim Huijnen, Jaap Verheul en Joris van Eijnatten is geaccepteerd voor DHBenelux 2016.
Dit is met name leuk, vind ik, omdat dit een demo is die gebaseerd is op ons eerdere CIKM paper Ad Hoc Monitoring of Vocabulary Shifts over Time.
 
Ik ben de demo chair van BNAIC 2016: Annual Benelux Conference on Artificial Intelligence.
Het congres wordt georganiseerd door de Universiteit van Amsterdam and de Vrije Universiteit Amsterdam, onder auspiciën van Benelux Association for Artificial Intelligence (BNVKI) en School for Information and Knowledge Systems (SIKS) en zal plaatsvinden in Amsterdam op donderdag 10 and vrijdag 11 november 2016.

Ik heb overigens ook het logo ontworpen... ;-)
 

Dit is geweldig!!! Ik ga een stage doen bij Google Research in Mountain View, Californië.
Ik ga van mei t/m augustus en ik ga samenwerken met Mat Kelcey.

 
De abstract van mijn CIKM'15 paper Short Text Similarity with Word Embeddings is geaccepteerd voor de Dutch-Belgian Information Retrieval workshop (DIR2015) in Amsterdam.
 
Hier zijn de slides van de twee presentaties die ik heb gegeven op CIKM'15 in Melbourne.

Short Text Similarity with Word Embeddings

Ad Hoc Monitoring of Vocabulary Shifts over Time
 

Mijn onderzoek over betekenis van zinnen en verandering van woordgebruik door de tijd heen heeft het geschopt to de UvA website.

 
De Google NLP PhD Summit in Zürich was geweldig! Zeer veel leuke en interessante mensen ontmoet en goeie discussies gehad.
Hier is een link naar de poster die ik heb gepresenteerd.
 
Cool! Ik ga naar de Google NLP PhD Summit in Zürich in September.


 

Vandaag is Agnes van Belle, een AI master studente die ik begeleid heb, afgestudeerd. Ze heeft een mooie scriptie geschreven Historical Document Retrieval with Corpus-derived Rewrite Rules.
Spellingsveranderingen gebeuren vaak niet van de ene op de andere dag (ook niet als ze door een overheid worden opgelegd) en in de scriptie wordt aangetoond dat je het continuum van veranderingen in je voordeel kan gebruiken als je query expansie doet bij het zoeken in historische documentcollecties.

 
Hier is de uiteindelijke versie van het CIKM 2015 paper Short Text Similarity with Word Embeddings met Maarten de Rijke.

 
Hier is de uiteindelijke versie van het CIKM 2015 paper Ad Hoc Monitoring of Vocabulary Shifts over Time met Melvin Wevers, Pim Huijnen en Maarten de Rijke.

 
We hebben de dataset die we hebben gemaakt voor het CIKM 2015 paper "Ad Hoc Monitoring of Vocabulary Shifts over Time" met Melvin Wevers, Pim Huijnen en Maarten de Rijke vrijelijk toegankelijk gemaakt.
Zie hier.

Nogmaals zeer veel dank aan alle annotatoren die hebben meegewerkt!!!
 

Te gek! Te gek! Beide stukken die ik heb ingestuurd naar CIKM 2015 zijn geaccepteerd. Ik ga naar Melbourne! Dit zijn de papers:

Short Text Similarity with Word Embeddings, samen met Maarten de Rijke
Short Text Similarity with Word Embeddings

Determining semantic similarity between texts is important in many tasks in information retrieval such as search, query suggestion, automatic summarization and image finding. Many approaches have been suggested, based on lexical matching, handcrafted patterns, syntactic parse trees, external sources of structured semantic knowledge and distributional semantics. However, lexical features, like string matching, do not capture semantic similarity beyond a trivial level. Furthermore, handcrafted patterns and external sources of structured semantic knowledge cannot be assumed to be available in all circumstances and for all domains. Lastly, approaches depending on parse trees are restricted to syntactically well-formed texts, typically of one sentence in length.
We investigate whether determining short text similarity is possible using only semantic features — where by semantic we mean, pertaining to a representation of meaning — rather than relying on similarity in lexical or syntactic representations. We use word embeddings, vector representations of terms, computed from unlabelled data, that represent terms in a semantic space in which proximity of vectors can be interpreted as semantic similarity.
We propose to go from word-level to text-level semantics by combining insights from methods based on external sources of semantic knowledge with word embeddings. A novel feature of our approach is that an arbitrary number of word embedding sets can be incorporated. We derive multiple types of meta-features from the comparison of the word vectors for short text pairs, and from the vector means of their respective word embeddings. The features representing labelled short text pairs are used to train a supervised learning algorithm. We use the trained model at testing time to predict the semantic similarity of new, unlabelled pairs of short texts.
We show on a publicly available evaluation set commonly used for the task of semantic similarity that our method outperforms baseline methods that work under the same conditions.


Ad Hoc Monitoring of Vocabulary Shifts over Time samen met Melvin Wevers, Pim Huijnen en Maarten de Rijke.
Ad Hoc Monitoring of Vocabulary Shifts over Time

Word meanings change over time. Detecting shifts in meaning for particular words has been the focus of much research recently. We address the complementary problem of monitoring shifts in vocabulary over time. That is, given a small seed set of words, we are interested in monitoring which terms are used over time to refer to the underlying concept denoted by the seed words.
In this paper, we propose an algorithm for monitoring shifts in vocabulary over time, given a small set of seed terms. We use distributional semantic methods to infer a series of semantic spaces over time from a large body of time-stamped unstructured textual documents. We construct semantic networks of terms based on their representation in those semantic spaces and use graph-based measures to calculate saliency of terms. Based on these graph-based measures we produce ranked lists of terms that represent the concept underlying the initial seed terms over time as final output.
As the task of monitoring shifting vocabularies over time for an ad hoc set of seed words is, to the best of our knowledge, a new one, we construct our own evaluation set. Our main contributions are the introduction of the task of ad hoc monitoring of vocabulary shifts over time, the description of an algorithm for tracking shifting vocabularies over time given a small set of seed words, and a systematic evaluation of results over a substantial period of time (over four decades). Additionally, we make our newly constructed evaluation set publicly available.

De uiteindelijke PDFs komen er aan.
 

Het artikel voor IPM Evaluating Document Filtering Systems over Time samen met Krisztian Balog en Maarten de Rijke is online. Dit is de officiële link en je kan 'm ook hier downloaden.
 
De NLeSc PathFinder aanvraag waar ik aan heb meegeschreven is gehonoreerd. Het gaat om het monitoren van veranderingen in woordgebruik door de tijd heen.
In de jaren '50 sprak men bijvoorbeeld over zelfbedieningwinkel maar tegenwoordig zeg je supermarkt. Hetzelfde concept, maar een ander woord. Nog een mooi voorbeeld: het woord propaganda werd in de jaren '50 gebruikt om te spreken over wat we tegenwoordig met het woord reclame aanduiden.

De algoritmes die ik heb bedacht om dit soort veranderingen in woordgebruik door de tijd heen te monitoren gaan worden geïmplementeerd in een tool die gebruikt wordt door digital humanities onderzoekers om historisch corpus aan krantenmateriaal (uit de afgelopen vier eeuwen) te doorzoeken.
 

Lekker! Mijn artikel Evaluating Document Filtering Systems over Time met Krisztian Balog en Maarten de Rijke is geaccepteerd voor de IPM special issue on Time & IR. PDF komt eraan...
 
Het abstract Concepts Through Time: Tracing Concepts In Dutch Newspapers Discourse (1890-1990) Using Word Embeddings dat ik samen met Melvin Wevers en Pim Huijnen heb geschreven is geaccepteerd voor Digital Humanities 2015 (DH2015) in Sydney, Australië.
 
Ik heb een hele simpele presentatie over word2vec gemaakt voor de een presentatie voor onze groep. Niks bijzonders, gewoon wat het is, wat het niet is, en wat je ermee kan.

 
Ik heb afgelopen jaar meegedaan aan de Cumulative Citation Recommendation taak (CCR) van de Knowledge Base Acceleration (KBA) track van de Text REtrieval Conference, TREC 2013. Hier is het artikel dat de experimenten beschrijft.
 
Vandaag heb ik op CLIN24 in Leiden een presentatie gehouden over "Time-Aware Chi-squared for Document Filtering over Time". Dit is zo'n beetje dezelfde presentatie als ik eerder heb gehouden op de TAIA workshop op SIGIR 2013 in Dublin en op TREC 2013 in Gaithersburg.
Mocht iemand geïnteresseerd zijn, hier zijn de slides.
 
Mijn poster gepresenteerd op ICT.OPEN 2013.


 

Leuk! Mijn abstract voor CLIN24, getiteld "Time-Aware Chi-squared for Document Filtering over Time" is geaccepteerd voor presentatie.