23 jul 2023

Ik heb als een van de eerste een nieuwe ACL peer review award gekregen. Zeer vereerd! Hartelijk dank aan de ACL'23 organisatie.

20 jun 2023

Outstanding Reviewer Award ICASSP 2023

Ik heb een ICASSP 2023 Outstanding Reviewer Award gekregen. Ik ben zeer vereerd. Hartelijk dank aan de de ICASSP 2023 organisatie!

17 mei 2023

Artikel geaccepteerd voor INTERSPEECH 2023

MOS vs. AB: Evaluating Text-to-Speech Systems Reliably Using Clustered Standard Errors is geaccepteerd voor INTERSPEECH 2023, in Dublin.

Ik denk dat dit een zeer interessant artikel. Iedere TTS onderzoeker moet TTS systemen evalueren, en de vraag die zich daarbij altijd voordoet is: welke methode gaan we gebruiken? Een MOS test of een vergelijking tussen het ene systeem en het andere (of het ene systeem en opgenomen spraak).

Hoe moet je kiezen? Is een van de twee beter dan andere? Robuuster? Sensitiever?

Als je je dit ooit weleens hebt afgevraagd... lees dan het artikel ;-)

21 apr 2021

Praatje bij SEA — IRLab in Amsterdam

Ik geef een praatje bij SEA (Search Engines Amsterdam), georganiseerd door het IRLab Amsterdam. Het praatje gaat over "Improving Speech Synthesis by Leveraging Pretrained Language Models".

Erg leuk om een praatje te geven aan de groep waar ik zelf gepromoveerd ben. Het zou me overigens niet verbazen als het publiek niet zomaar alle details paraat heeft wat betreft spraaksynthese/TTS (dat had ik zeker zelf niet toen ik daar rondliep), dus dat wordt een mooie uitdaging voor mij om er toch een leuk praatje van te maken!

Slides volgen nog...

15 jun 2022

Artikelen geaccepteerd voor INTERSPEECH 2022

Artikel geaccepteerd voor INTERSPEECH 2022!

Training Text-To-Speech Systems From Synthetic Data: A Practical Approach For Accent Transfer Tasks van Lev Finkelstein, Heiga Zen, Norman Casagrande, Chun-an Chan, Ye Jia, mijzelf, Alexey Petelin, Jonathan Shen, Vincent Wan, Yu Zhang, Yonghui Wu en Rob Clark is geaccepteerd voor INTERSPEECH 2022.

Dit paper gaat over het overzetten van het accent van de ene spreker naar een andere spreker die dat accent niet heeft, waarbij het belangrijk is dat het karakter van de spraak van de doelspreker niet verloren gaat. Er zijn modellen die dit goed kunnen, maar die zijn vaak computationeel duur, en ze zijn ook niet altijd helemaal betrouwbaar. Er zijn andere modellen die sneller, efficiënter en betrouwbaarder zijn, maar die niet zo goed zijn in het overzetten van accenten. Dit artikel laat zien hoe je de data gegenereerd door het goede maar dure systeem kan gebruiken om een efficiënt systeem te trainen.

5 apr 2022

US Patent: Self-training WaveNet for text-to-speech

US Patent 11,295,725 Self-training WaveNet for text-to-speech van Manish Sharma, mijzelf en Rob Clark is gepubliceerd.

11 nov 2021

US Patent: Speech Synthesis Prosody Using A BERT Model

US Patent 16,867,427 Speech Synthesis Prosody Using A BERT Model van mij, Manish Sharma, Rob Clark en Aliaksei Severyn is gepubliceerd.

26 jul 2020

Twee artikelen geaccepteerd voor INTERSPEECH 2020

Twee artikelen geaccepteerd voor INTERSPEECH 2020!

Improving the Prosody of RNN-based English Text-To-Speech Synthesis by Incorporating a BERT Model van mij, Manish Sharma en Rob Clark is een poging om de gebieden van Natural Language Understanding (NLU) en Text-To-Speech met elkaar te verenigen. Het idee is dat de prosodie van synthetisch spraak beter wordt als je de kennis in een BERT model erbij betrekt, omdat BERT modellen syntactische en semantische (wereld)kennis in zich hebben.

StrawNet: Self-Training WaveNet for TTS in Low-Data Regimes van Manish Sharma, mij en Rob Clark gaat over het distilleren van Parallel WaveNet modellen. Normaal wordt zo'n Parallalel Wavenet student model gedestilleerd op basis van de dataset waarop het originele teacher WaveNet is getraind. Dat werkt niet zo goed als er weinig originele data is, en het idee van dit artikel is dat het helpt als je aan die originele dataset veel gesynthetiseerde voorbeelden van het teacher model toevoegt. Simpel en effectief!

4 apr 2020

Artikel geaccepteerd voor ACL 2020

Het artikel, Frugal Paradigm Completion, van Alex Erdmann, mijzelf, Markus Becker en Christian Schallhart, over het automatisch aanvullen van van morphologische paradigma's (bijvoorbeeld alle vormen van een werkwoord, of een zelfstandig naamwoord) is geaccepteerd voor The 58th annual meeting of the Association for Computational Linguistics (ACL 2020). Dit werk is gebaseerd op de stage die Alex Erdmann in ons TTS team in Londen heeft gedaan afgelopen jaar.

9 sep 2019

Blogpost op Google AI blog

Ik heb een blogpost op het Google AI blog geschreven over het evalueren van spraaksynthese als het over langere teksten gaat (langer dan één zin), omdat ik dacht dat we wat bevindingen hebben gedaan die interessant zijn voor een breder publiek.

De blog post is gebaseerd op ons SSW10 paper.

2 jul 2019

Paper geaccepteerd voor SSW10

Evaluating Long-form Text-to-Speech: Comparing the Ratings of Sentences and Paragraphs, door Rob Clark, Hanna Silen, mijzelf en Ralph Leith, is geaccepteerd voor SSW10, the 10th ISCA Speech Synthesis Workshop, to be held 20-22 September, 2019, Vienna, Austria. De workshop is een satellietevenement van INTERSPEECH 2019 in Graz, Austria.

1 jul 2019

Paper geaccepteerd voor ICTIR 2019

Personal Knowledge Graphs: A Research Agenda, door Krisztian Balog and mij, is geaccepteerd voor ICTIR 2019, the 9th International Conference on the Theory of Information Retrieval, oktober 2-5, 2019 in Santa Clara, California.

8 mei 2019

PC Member CIKM 2019

Ik neem deel aan de Program Committee van the 28th ACM International Conference on Information and Knowledge Management (CIKM), 3-7 November, 2019 in Peking.

22 apr 2019

Paper geaccepteerd voor ICML 2019

Het allereerste text-to-speech paper waar ik aan bij heb gedragen, CHiVE: Varying Prosody in Speech Synthesis with a Linguistically Driven Dynamic Hierarchical Conditional Variational Network, van Vincent Wan, Chun-an Chan, mezelf, Jakub Vit en Rob Clark is geaccepteerd voor ICML 2019, in Los Angeles.

Dit paper beschrijft het model, gebaseerd op een variational auto-encoder (VAE), dat op dit moment gebruikt wordt voor spraaksynthese (text-to-speech/TTS) in de Google Assistant voor de meest populaire stemmen.

4 mrt 2019

Praatje aan het Alan Turing Institute in Londen

Ik geef aan praatje aan het Alan Turing Institute in Londen, georganiseerd door de South England Natural Language Processing Meetup.

Het praatje gaat over mijn werk op gebied van byte-level machine reading modellen.

Hier zijn de slides.

11 feb 2019

PC Member LangChange workshop op ACL 2019

Ik neem deel aan de Program Committee voor de 1st International Workshop on Computational Approaches to Historical Language Change. LangChange 2019 zal samen worden gehouden met ACL 2019, in Florence, Italië, 28 juli t/m 2 augustus 2019.

23 okt 2018

Het mooie van byte-level sequence-to-sequence models in NLP

Sequence-to-sequence modellen met letters als input zijn erg populair tegenwoordig. Deze letter-lezende modellen zijn geweldig, maar, zoals we hebben laten zien in ons AAAI artikel, kunnen modellen die bytes lezen nog beter zijn.

In de allerleerste blogpost die ik ook heb geschreven, die op Medium staat, probeer ik uit te leggen hoe byte-level modellen werken, hoe ze zich verhouden tot modellen die letters lezen, en modellen die op woordniveau werken.

Veel leesplezier!

2 jul 2018

Baan bij Google in Londen

Ik heb een baan bij Google in Londen!
Ik ga onderzoek doen in de Text-To-Speech groep van Rob Clark, naar text-to-speech en natural language understanding, en dan met name hoe het laatste kan helpen het eerste te verbeteren.

Ik heb hier erg veel zin in!!!

29 mrt 2018

Deep Dive into New Deep Learning Models for NLP - Meetup

Het was erg leuk om uitgenodigd te worden een presentatie te doen bij de Dive into New Deep Learning Models for Natural Language Processing Meetup over het Byte-level Machine Reading across Morphologically Varied Languages artikel.

26 mrt 2018

NN4IR tutorial op ECIR 2018

Voor de derde en laatste keer NN4IR, dit keer op ECIR 2018, in Grenoble. Hartelijk dank aan de mede-presentatoren, Christophe Van Gysel, Maarten de Rijke en Bhaskar Mitra, en natuurlijk ook aan degenen die er niet bij waren, maar die wel veel tijd in de slides hebben gestoken, Hosein Azarbonyad, Alexey Borisov en Mostafa Dehghani!

De slides staan hier als één file, maar zijn ook per sessie to downloaden van de NN4IR website. Daarnaast is hier ook nog het overview paper.

5 feb 2018

NN4IR tutorial op WSDM 2018

De NN4IR tutorial op WSDM 2018, in Los Angeles, was een sucess. Vanwege (totaal zinloos) gedoe met visa konden Mostafa Dehghani en Maarten de Rijke er niet bij zijn. Zeer veel dank aan Hosein Azarbonyad, voor het opvangen van hun sessies! En verder natuurlijk ook dank aan Alexey Borisov en Christophe Van Gysel!

De slides staan hier als één file, maar zijn ook per sessie to downloaden van de NN4IR website. Daarnaast is hier ook nog het overview paper.

4 feb 2018

Full paper op AAAI-18

AAAI-18, in New Orleans, was te gek!
Ik heb het werk wat ik heb gedaan met Llion Jones en Daniel Hewlett tijdens de eerste stage bij Google Research gepresenteerd. Hier is de PDF van het artikel Byte-level Machine Reading across Morphologically Varied Languages.

15 dec 2017

Promotie

Ik ben gepromoveerd...!!

Op vrijdag 15 december 2017 heb ik mijn proefschrift, getiteld Text Understanding for Computers succesvol verdedigd in de Agnietenkapel in Amsterdam.

Veel dank aan de commissieleden: prof. dr. Krisztian Balog (Universiteit van Stavanger), prof. dr. Antal van den Bosch (Radboud Universiteit, Meertens Instituut), prof. dr. Franciska de Jong (Universiteit Utrecht), dr. Evangelos Kanoulas (Universiteit van Amsterdam), dr. Christof Monz (Universiteit van Amsterdam), prof. dr. Khalil Sima'an (Universiteit van Amsterdam), dr. Aleksandr Chuklin (Google Research) en dr. Claudia Hauff (TU Delft). Bovendien veel dank aan mijn co-promotor prof. dr.Joris van Eijnatten (Universiteit Utrecht), en bovenal aan mijn begeleider prof. dr. Maarten de Rijke.

Hier is de PDF van het boek.

13 nov 2017

NN4IR tutorial op WSDM 2018

Nadat we NN4IR op SIGIR 2017 hebben gegeven, gaan we (een sterk aangepaste versie van) de tutorial opnieuw doen op WSDM 2018. We zijn met ongeveer dezelfde mensen: Alexey Borisov, Christophe Van Gysel, Mostafa Dehghani, Maarten de Rijke en ik.

8 nov 2017

Full paper geaccepteerd voor AAAI-18!

Mijn paper "Byte-level Machine Reading across Morphologically Varied Languages" met Llion Jones en Daniel Hewlett van Google Research is geaccepteerd voor de Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), in New Orleans.
Dit paper is gebaseerd op het onderzoek dat ik heb gedaan tijdens mijn stage bij Google Research in Californië.

De PDF komt eraan...

8 nov 2017

CIKM 2017 Outstanding Paper Reviewer Award

Ik ben vereerd! Ik heb een Outstanding Paper Reviewer Award gekregen op the 26th ACM International Conference on Information and Knowledge Management CIKM 2017.
Zie deze tweet voor het bewijs!

14 aug 2017

NN4IR tutorial at SIGIR 2017 was great

Nogmaals veel dank aan Alexey Borisov, Christophe Van Gysel, Mostafa Dehghani, Maarten de Rijke en Bhaskar Mitra, en aan alle deelnemers, voor een zeer geslaagde en drukbezochte NN4IR tutorial op SIGIR 2017 in Tokyo.

Er staat een mooie blogpost op de ACM website. En hier zijn alle tweets.

De uiteindelijke slides staan op nn4ir.com.

26 jul 2017

The Web Conference (WWW 2018) programmacommissie

Ik ben uitgenodigd voor de programmacommissie van 2018 editie van The Web Conference (27th edition van wat voorheen WWW heette).
Ja, inderdaad, WWW 2018 is dit jaar hernoemt tot The Web Conference.

6 jul 2017

Programmacommissie SCAI'17 - Search-Oriented Conversational AI

Samen met Mostafa Dehghani (UvA), Jaap Kamps (UvA), Scott Roy (Google) en Ryen White (Microsoft Research), zit ik in de programmacommissie van SCAI'17 — Search-Oriented Conversational AI, gehouden op 1 oktober in Amsterdam, en georganiseerd samen met ICTIR'17.

31 mei 2017

Paper geaccepteerd voor CAIR'17 op SIGIR 2017

Mijn paper Attentive Memory Networks: Efficient Machine Reading for Conversational Search, met Maarten de Rijke is geaccepteerd voor de 1st International Workshop on Conversational Approaches to Information Retrieval (CAIR'17) in samenwerking met in SIGdial op SIGIR 2017 in Tokyo.

29 mrt 2017

Tutorial op SIGIR 2017: Neural Networks for IR (NN4IR)

Ik ga een tutorial geven op SIGIR 2017 in Tokyo, over neurale netwerken voor Information Retrieval (NN4IR), samen met Alexey Borisov, Christophe Van Gysel, Mostafa Dehghani, Maarten de Rijke en Bhaskar Mitra.
Meer info in dit overview paper en op de NN4IR website.

10 mrt 2017

Invited talk op 14e SIKS/Twente Seminar on Searching and Ranking

Ik ben vereerd uitgenodigd te zijn een praatje te geven op het 14e SIKS/Twente Seminar on Searching and Ranking, Text as social and cultural data. Dit symposium wordt georganiseerd ter ere van de promotie van Dong Nguyen.

6 feb 2017

Program Committee KDD 2017

Ik ben uitgenodigd om lid te worden van het Program Committee van KDD 2017, een vooraanstaand interdisciplinair congres voor academici en mensen uit het bedrijfsleven, op het gebied van data science, data mining, knowledge discovery, large-scale data analytics en big data. Het congres wordt gehouden in Halifax, Nova Scotia, Canada, 13 t/m 17 augustus 2017.

14 dec 2016

Tweede stage bij Google Research

Dit is geweldig!!! Ik ga voor de tweede keer een stage doen bij Google Research in Mountain View, Californië.
De stage is van april t/m juli en ik ga samenwerken met Dana Movshovitz-Attias.

2 dec 2016

Full paper geaccepteerd voor ECIR 2017!

Heel mooi! Het full paper Hierarchical Re-estimation of Topic Models for Measuring Topical Diversity, van Hosein Azerbonyad, Mostafa Dehghani, mijzelf, Maarten Marx, Jaap Kamps en Maarten de Rijke is geaccepteerd voor de 39th European Conference on Information Retrieval (ECIR 2017) in Aberdeen!

18 nov 2016

SEA talk

Vandaag heb ik een praatje gegeven over Siamese CBOW, bij SEA, Search Engines Amsterdam, een serie van praatjes, iedere maand, waar zowel mensen van de universiteit als uit het bedrijfsleven hun werk presenteren. Hier zijn de slides van mijn praatje..

11 nov 2016

BNAIC 2016

Het was erg leuk om BNAIC 2016 te organiseren. Ik had mijn debuut als sessie chair, in de Natural Language Processing sessie. Ik was de Demo Chair van de organisatie, en ik denk dat de demosessie zeer geslaagd was, met "Autonomous Robot Soccer Matches" van Caitlin Lagrand et al. als winnaar van BNAIC SKBS Demo Award.

12 aug 2016

ACL 2016 paper online

Hier is de officiële versie van Siamese CBOW: Optimizing Word Embeddings for Sentence Representations, het full paper met Alexey Borisov en Maarten de Rijke, dat ik vorige week op ACL 2016 in Berlijn heb gepresenteerd.

3 jun 2015

Artikel geaccepteerd voor HistoInformatics workshop

Het artikel Design and implementation of ShiCo: Visualising shifting concepts over time samen met Carlos Martinez-Ortiz, Melvin Wevers, Pim Huijnen, Jaap Verheul en Joris van Eijnatten is geaccepteerd voor de HistoInformatics2016 workshop die gehouden wordt samen met het Digital Humanities 2016 congres.
De PDF komt eraan.

24 mei 2016

Full paper geaccepteerd voor ACL 2016

Geweldig!! Mijn full paper Siamese CBOW: Optimizing Word Embeddings for Sentence Representations geschreven samen met Alexey Borisov en Maarten de Rijke is geaccepteerd voor ACL 2016, in Berlijn.

▶ Toon abstract

Siamese CBOW: Optimizing Word Embeddings for Sentence Similarity

We present the Siamese Continuous Bag of Words (Siamese CBOW) model, a neural network for efficient estimation of high-quality sentence embeddings. Averaging the embeddings of words in a sentence has proven to be a surprisingly successful and efficient way of obtaining sentence embeddings. However, word embeddings trained with the methods currently available are not optimized for the task of sentence representation, and, thus, likely to be suboptimal. Siamese CBOW handles this problem by training word embeddings directly for the purpose of being averaged. The underlying neural network learns word embeddings by predicting, from a sentence representation, its surrounding sentences. We show the robustness of the Siamese CBOW model by evaluating it on 20 datasets stemming from a wide variety of sources.

Hier is een de pre-print versie op arXiv.

21 apr 2016

Interview in de New Scientist

Ik ben zeer vereerd en eigenlijk best wel een beetje trots... er staat een interview met mij in de New Scientist.
De titel is: Kan een computer ooit taal begrijpen? Het interview gaat over mijn onderzoek en ook een beetje, aan het einde, over de huidige stand van zaken in de taaltechnologie.

Hier is de link naar het artikel op site van de New Scientist.

31 mrt 2016

Artikel geaccepteerd voor DHBenelux 2016

Het demo-artikel "ShiCo: A Visualization tool for Shifting Concepts Through Time" samen met Carlos Martinez-Ortiz, Melvin Wevers, Pim Huijnen, Jaap Verheul en Joris van Eijnatten is geaccepteerd voor DHBenelux 2016.
Dit is met name leuk, vind ik, omdat dit een demo is die gebaseerd is op ons eerdere CIKM paper Ad Hoc Monitoring of Vocabulary Shifts over Time.

25 jan 2016

Organisatie BNAIC 2016

Ik ben de demo chair van BNAIC 2016: Annual Benelux Conference on Artificial Intelligence.
Het congres wordt georganiseerd door de Universiteit van Amsterdam and de Vrije Universiteit Amsterdam, onder auspiciën van Benelux Association for Artificial Intelligence (BNVKI) en School for Information and Knowledge Systems (SIKS) en zal plaatsvinden in Amsterdam op donderdag 10 and vrijdag 11 november 2016.

Ik heb overigens ook het logo ontworpen... ;-)

14 dec 2016

Stage bij Google Research

Dit is geweldig!!! Ik ga een stage doen bij Google Research in Mountain View, Californië.
Ik ga van mei t/m augustus en ik ga samenwerken met Mat Kelcey.

11 nov 2015

Abstract geaccepteerd voor DIR2015

De abstract van mijn CIKM'15 paper Short Text Similarity with Word Embeddings is geaccepteerd voor de Dutch-Belgian Information Retrieval workshop (DIR2015) in Amsterdam.

6 nov 2015

Slides van de CIKM'15 presentaties

Hier zijn de slides van de twee presentaties die ik heb gegeven op CIKM'15 in Melbourne.

Ad Hoc Monitoring of Vocabulary Shifts over Time

1 okt 2015

Mijn onderzoek op de UvA website

Mijn onderzoek over betekenis van zinnen en verandering van woordgebruik door de tijd heen heeft het geschopt to de UvA website.

29 sep 2015

Google NLP PhD Summit

De Google NLP PhD Summit in Zürich was geweldig! Zeer veel leuke en interessante mensen ontmoet en goeie discussies gehad.
Hier is een link naar de poster die ik heb gepresenteerd.

31 aug 2015

Google NLP PhD Summit

Cool! Ik ga naar de Google NLP PhD Summit in Zürich in September.

27 aug 2015

Student afgestudeerd

Vandaag is Agnes van Belle, een AI master studente die ik begeleid heb, afgestudeerd. Ze heeft een mooie scriptie geschreven Historical Document Retrieval with Corpus-derived Rewrite Rules.
Spellingsveranderingen gebeuren vaak niet van de ene op de andere dag (ook niet als ze door een overheid worden opgelegd) en in de scriptie wordt aangetoond dat je het continuum van veranderingen in je voordeel kan gebruiken als je query expansie doet bij het zoeken in historische documentcollecties.

23 jul 2015

CIKM paper: Short Text Similarity with Word Embeddings

Hier is de uiteindelijke versie van het CIKM 2015 paper Short Text Similarity with Word Embeddings met Maarten de Rijke.

22 jul 2015

CIKM paper: Ad Hoc Monitoring of Vocabulary Shifts over Time

Hier is de uiteindelijke versie van het CIKM 2015 paper Ad Hoc Monitoring of Vocabulary Shifts over Time met Melvin Wevers, Pim Huijnen en Maarten de Rijke.

17 jul 2015

Dataset toegankelijk gemaakt

We hebben de dataset die we hebben gemaakt voor het CIKM 2015 paper "Ad Hoc Monitoring of Vocabulary Shifts over Time" met Melvin Wevers, Pim Huijnen en Maarten de Rijke vrijelijk toegankelijk gemaakt.
Zie hier.

Nogmaals zeer veel dank aan alle annotatoren die hebben meegewerkt!!!

4 jul 2015

Beide full papers voor CIKM 2015 zijn geaccepteerd!!

Te gek! Te gek! Beide stukken die ik heb ingestuurd naar CIKM 2015 zijn geaccepteerd. Ik ga naar Melbourne! Dit zijn de papers:

Short Text Similarity with Word Embeddings, samen met Maarten de Rijke

▶ Toon abstract

Short Text Similarity with Word Embeddings

Determining semantic similarity between texts is important in many tasks in information retrieval such as search, query suggestion, automatic summarization and image finding. Many approaches have been suggested, based on lexical matching, handcrafted patterns, syntactic parse trees, external sources of structured semantic knowledge and distributional semantics. However, lexical features, like string matching, do not capture semantic similarity beyond a trivial level. Furthermore, handcrafted patterns and external sources of structured semantic knowledge cannot be assumed to be available in all circumstances and for all domains. Lastly, approaches depending on parse trees are restricted to syntactically well-formed texts, typically of one sentence in length.
We investigate whether determining short text similarity is possible using only semantic features — where by semantic we mean, pertaining to a representation of meaning — rather than relying on similarity in lexical or syntactic representations. We use word embeddings, vector representations of terms, computed from unlabelled data, that represent terms in a semantic space in which proximity of vectors can be interpreted as semantic similarity.
We propose to go from word-level to text-level semantics by combining insights from methods based on external sources of semantic knowledge with word embeddings. A novel feature of our approach is that an arbitrary number of word embedding sets can be incorporated. We derive multiple types of meta-features from the comparison of the word vectors for short text pairs, and from the vector means of their respective word embeddings. The features representing labelled short text pairs are used to train a supervised learning algorithm. We use the trained model at testing time to predict the semantic similarity of new, unlabelled pairs of short texts.
We show on a publicly available evaluation set commonly used for the task of semantic similarity that our method outperforms baseline methods that work under the same conditions.

Ad Hoc Monitoring of Vocabulary Shifts over Time samen met Melvin Wevers, Pim Huijnen en Maarten de Rijke.

▶ Toon abstract

Ad Hoc Monitoring of Vocabulary Shifts over Time

Word meanings change over time. Detecting shifts in meaning for particular words has been the focus of much research recently. We address the complementary problem of monitoring shifts in vocabulary over time. That is, given a small seed set of words, we are interested in monitoring which terms are used over time to refer to the underlying concept denoted by the seed words.
In this paper, we propose an algorithm for monitoring shifts in vocabulary over time, given a small set of seed terms. We use distributional semantic methods to infer a series of semantic spaces over time from a large body of time-stamped unstructured textual documents. We construct semantic networks of terms based on their representation in those semantic spaces and use graph-based measures to calculate saliency of terms. Based on these graph-based measures we produce ranked lists of terms that represent the concept underlying the initial seed terms over time as final output.
As the task of monitoring shifting vocabularies over time for an ad hoc set of seed words is, to the best of our knowledge, a new one, we construct our own evaluation set. Our main contributions are the introduction of the task of ad hoc monitoring of vocabulary shifts over time, the description of an algorithm for tracking shifting vocabularies over time given a small set of seed words, and a systematic evaluation of results over a substantial period of time (over four decades). Additionally, we make our newly constructed evaluation set publicly available.

De uiteindelijke PDFs komen er aan.

13 jun 2015

Het IPM artikel is online

Het artikel voor IPM Evaluating Document Filtering Systems over Time samen met Krisztian Balog en Maarten de Rijke is online. Dit is de officiële link en je kan 'm ook hier downloaden.

4 jun 2015

NLeSc PathFinder aanvraag is gehonoreerd

De NLeSc PathFinder aanvraag waar ik aan heb meegeschreven is gehonoreerd. Het gaat om het monitoren van veranderingen in woordgebruik door de tijd heen.
In de jaren '50 sprak men bijvoorbeeld over zelfbedieningwinkel maar tegenwoordig zeg je supermarkt. Hetzelfde concept, maar een ander woord. Nog een mooi voorbeeld: het woord propaganda werd in de jaren '50 gebruikt om te spreken over wat we tegenwoordig met het woord reclame aanduiden.

De algoritmes die ik heb bedacht om dit soort veranderingen in woordgebruik door de tijd heen te monitoren gaan worden geïmplementeerd in een tool die gebruikt wordt door digital humanities onderzoekers om historisch corpus aan krantenmateriaal (uit de afgelopen vier eeuwen) te doorzoeken.

23 mrt 2015

Paper geaccepteerd voor IPM special issue on Time & IR!

Lekker! Mijn artikel Evaluating Document Filtering Systems over Time met Krisztian Balog en Maarten de Rijke is geaccepteerd voor de IPM special issue on Time & IR. PDF komt eraan...

11 feb 2015

Abstract geaccepteerd voor DH2015!

Het abstract Concepts Through Time: Tracing Concepts In Dutch Newspapers Discourse (1890-1990) Using Word Embeddings dat ik samen met Melvin Wevers en Pim Huijnen heb geschreven is geaccepteerd voor Digital Humanities 2015 (DH2015) in Sydney, Australië.

12 sep 2014

Word2vec presentatie

Ik heb een hele simpele presentatie over word2vec gemaakt voor de een presentatie voor onze groep. Niks bijzonders, gewoon wat het is, wat het niet is, en wat je ermee kan.

12 feb 2014

TREC 2013 KBA CCR

Ik heb afgelopen jaar meegedaan aan de Cumulative Citation Recommendation taak (CCR) van de Knowledge Base Acceleration (KBA) track van de Text REtrieval Conference, TREC 2013. Hier is het artikel dat de experimenten beschrijft.

17 jan 2014

CLIN 24

Vandaag heb ik op CLIN24 in Leiden een presentatie gehouden over "Time-Aware Chi-squared for Document Filtering over Time". Dit is zo'n beetje dezelfde presentatie als ik eerder heb gehouden op de TAIA workshop op SIGIR 2013 in Dublin en op TREC 2013 in Gaithersburg.
Mocht iemand geïnteresseerd zijn, hier zijn de slides.

27 nov 2013

ICT.OPEN 2013

Mijn poster gepresenteerd op ICT.OPEN 2013.

12 okt 2013

CLIN 24

Leuk! Mijn abstract voor CLIN24, getiteld "Time-Aware Chi-squared for Document Filtering over Time" is geaccepteerd voor presentatie.