Vandaag heb ik een praatje gegeven over Siamese CBOW, bij SEA, Search Engines Amsterdam, een serie van praatjes, iedere maand, waar zowel mensen van de universiteit als uit het bedrijfsleven hun werk presenteren. Hier zijn de slides van mijn praatje..
 
Het was erg leuk om BNAIC 2016 te organiseren. Ik had mijn debuut als sessie chair, in de Natural Language Processing sessie. Ik was de Demo Chair van de organisatie, en ik denk dat de demosessie zeer geslaagd was, met "Autonomous Robot Soccer Matches" van Caitlin Lagrand et al. als winnaar van BNAIC SKBS Demo Award.
 
Hier is de officiële versie van Siamese CBOW: Optimizing Word Embeddings for Sentence Representations, het full paper met Alexey Borisov en Maarten de Rijke, dat ik vorige week op ACL 2016 in Berlijn heb gepresenteerd.
 
Het artikel Design and implementation of ShiCo: Visualising shifting concepts over time samen met Carlos Martinez-Ortiz, Melvin Wevers, Pim Huijnen, Jaap Verheul en Joris van Eijnatten is geaccepteerd voor de HistoInformatics2016 workshop die gehouden wordt samen met het Digital Humanities 2016 congres.
De PDF komt eraan.
 
Geweldig!! Mijn full paper Siamese CBOW: Optimizing Word Embeddings for Sentence Representations geschreven samen met Alexey Borisov en Maarten de Rijke is geaccepteerd voor ACL 2016, in Berlijn.

Siamese CBOW: Optimizing Word Embeddings for Sentence Similarity

We present the Siamese Continuous Bag of Words (Siamese CBOW) model, a neural network for efficient estimation of high-quality sentence embeddings. Averaging the embeddings of words in a sentence has proven to be a surprisingly successful and efficient way of obtaining sentence embeddings. However, word embeddings trained with the methods currently available are not optimized for the task of sentence representation, and, thus, likely to be suboptimal. Siamese CBOW handles this problem by training word embeddings directly for the purpose of being averaged. The underlying neural network learns word embeddings by predicting, from a sentence representation, its surrounding sentences. We show the robustness of the Siamese CBOW model by evaluating it on 20 datasets stemming from a wide variety of sources.

Hier is een de pre-print versie op arXiv.
 

Ik ben zeer vereerd en eigenlijk best wel een beetje trots... er staat een interview met mij in de New Scientist.
De titel is: Kan een computer ooit taal begrijpen? Het interview gaat over mijn onderzoek en ook een beetje, aan het einde, over de huidige stand van zaken in de taaltechnologie.

Hier is de link naar het artikel op site van de New Scientist.
 

Het demo-artikel "ShiCo: A Visualization tool for Shifting Concepts Through Time" samen met Carlos Martinez-Ortiz, Melvin Wevers, Pim Huijnen, Jaap Verheul en Joris van Eijnatten is geaccepteerd voor DHBenelux 2016.
Dit is met name leuk, vind ik, omdat dit een demo is die gebaseerd is op ons eerdere CIKM paper Ad Hoc Monitoring of Vocabulary Shifts over Time.
 
Ik ben de demo chair van BNAIC 2016: Annual Benelux Conference on Artificial Intelligence.
Het congres wordt georganiseerd door de Universiteit van Amsterdam and de Vrije Universiteit Amsterdam, onder auspiciën van Benelux Association for Artificial Intelligence (BNVKI) en School for Information and Knowledge Systems (SIKS) en zal plaatsvinden in Amsterdam op donderdag 10 and vrijdag 11 november 2016.

Ik heb overigens ook het logo ontworpen... ;-)
 

Dit is geweldig!!! Ik ga een stage doen bij Google in Mountain View, Californië.
Ik ga van mei t/m augustus en ik ga samenwerken met Mat Kelcey.

 
De abstract van mijn CIKM'15 paper Short Text Similarity with Word Embeddings is geaccepteerd voor de Dutch-Belgian Information Retrieval workshop (DIR2015) in Amsterdam.
 
Hier zijn de slides van de twee presentaties die ik heb gegeven op CIKM'15 in Melbourne.

Short Text Similarity with Word Embeddings

Ad Hoc Monitoring of Vocabulary Shifts over Time
 

Mijn onderzoek over betekenis van zinnen en verandering van woordgebruik door de tijd heen heeft het geschopt to de UvA website.

 
De Google NLP PhD Summit in Zürich was geweldig! Zeer veel leuke en interessante mensen ontmoet en goeie discussies gehad.
Hier is een link naar de poster die ik heb gepresenteerd.
 
Cool! Ik ga naar de Google NLP PhD Summit in Zürich in September.


 

Vandaag is Agnes van Belle, een AI master studente die ik begeleid heb, afgestudeerd. Ze heeft een mooie scriptie geschreven Historical Document Retrieval with Corpus-derived Rewrite Rules.
Spellingsveranderingen gebeuren vaak niet van de ene op de andere dag (ook niet als ze door een overheid worden opgelegd) en in de scriptie wordt aangetoond dat je het continuum van veranderingen in je voordeel kan gebruiken als je query expansie doet bij het zoeken in historische documentcollecties.

 
Hier is de uiteindelijke versie van het CIKM 2015 paper Short Text Similarity with Word Embeddings met Maarten de Rijke.

 
Hier is de uiteindelijke versie van het CIKM 2015 paper Ad Hoc Monitoring of Vocabulary Shifts over Time met Melvin Wevers, Pim Huijnen en Maarten de Rijke.

 
We hebben de dataset die we hebben gemaakt voor het CIKM 2015 paper "Ad Hoc Monitoring of Vocabulary Shifts over Time" met Melvin Wevers, Pim Huijnen en Maarten de Rijke vrijelijk toegankelijk gemaakt.
Zie hier.

Nogmaals zeer veel dank aan alle annotatoren die hebben meegewerkt!!!
 

Te gek! Te gek! Beide stukken die ik heb ingestuurd naar CIKM 2015 zijn geaccepteerd. Ik ga naar Melbourne! Dit zijn de papers:

Short Text Similarity with Word Embeddings, samen met Maarten de Rijke
Short Text Similarity with Word Embeddings

Determining semantic similarity between texts is important in many tasks in information retrieval such as search, query suggestion, automatic summarization and image finding. Many approaches have been suggested, based on lexical matching, handcrafted patterns, syntactic parse trees, external sources of structured semantic knowledge and distributional semantics. However, lexical features, like string matching, do not capture semantic similarity beyond a trivial level. Furthermore, handcrafted patterns and external sources of structured semantic knowledge cannot be assumed to be available in all circumstances and for all domains. Lastly, approaches depending on parse trees are restricted to syntactically well-formed texts, typically of one sentence in length.
We investigate whether determining short text similarity is possible using only semantic features — where by semantic we mean, pertaining to a representation of meaning — rather than relying on similarity in lexical or syntactic representations. We use word embeddings, vector representations of terms, computed from unlabelled data, that represent terms in a semantic space in which proximity of vectors can be interpreted as semantic similarity.
We propose to go from word-level to text-level semantics by combining insights from methods based on external sources of semantic knowledge with word embeddings. A novel feature of our approach is that an arbitrary number of word embedding sets can be incorporated. We derive multiple types of meta-features from the comparison of the word vectors for short text pairs, and from the vector means of their respective word embeddings. The features representing labelled short text pairs are used to train a supervised learning algorithm. We use the trained model at testing time to predict the semantic similarity of new, unlabelled pairs of short texts.
We show on a publicly available evaluation set commonly used for the task of semantic similarity that our method outperforms baseline methods that work under the same conditions.


Ad Hoc Monitoring of Vocabulary Shifts over Time samen met Melvin Wevers, Pim Huijnen en Maarten de Rijke.
Ad Hoc Monitoring of Vocabulary Shifts over Time

Word meanings change over time. Detecting shifts in meaning for particular words has been the focus of much research recently. We address the complementary problem of monitoring shifts in vocabulary over time. That is, given a small seed set of words, we are interested in monitoring which terms are used over time to refer to the underlying concept denoted by the seed words.
In this paper, we propose an algorithm for monitoring shifts in vocabulary over time, given a small set of seed terms. We use distributional semantic methods to infer a series of semantic spaces over time from a large body of time-stamped unstructured textual documents. We construct semantic networks of terms based on their representation in those semantic spaces and use graph-based measures to calculate saliency of terms. Based on these graph-based measures we produce ranked lists of terms that represent the concept underlying the initial seed terms over time as final output.
As the task of monitoring shifting vocabularies over time for an ad hoc set of seed words is, to the best of our knowledge, a new one, we construct our own evaluation set. Our main contributions are the introduction of the task of ad hoc monitoring of vocabulary shifts over time, the description of an algorithm for tracking shifting vocabularies over time given a small set of seed words, and a systematic evaluation of results over a substantial period of time (over four decades). Additionally, we make our newly constructed evaluation set publicly available.

De uiteindelijke PDFs komen er aan.
 

Het artikel voor IPM Evaluating Document Filtering Systems over Time samen met Krisztian Balog en Maarten de Rijke is online. Dit is de officiële link en je kan 'm ook hier downloaden.
 
De NLeSc PathFinder aanvraag waar ik aan heb meegeschreven is gehonoreerd. Het gaat om het monitoren van veranderingen in woordgebruik door de tijd heen.
In de jaren '50 sprak men bijvoorbeeld over zelfbedieningwinkel maar tegenwoordig zeg je supermarkt. Hetzelfde concept, maar een ander woord. Nog een mooi voorbeeld: het woord propaganda werd in de jaren '50 gebruikt om te spreken over wat we tegenwoordig met het woord reclame aanduiden.

De algoritmes die ik heb bedacht om dit soort veranderingen in woordgebruik door de tijd heen te monitoren gaan worden geïmplementeerd in een tool die gebruikt wordt door digital humanities onderzoekers om historisch corpus aan krantenmateriaal (uit de afgelopen vier eeuwen) te doorzoeken.
 

Lekker! Mijn artikel Evaluating Document Filtering Systems over Time met Krisztian Balog en Maarten de Rijke is geaccepteerd voor de IPM special issue on Time & IR. PDF komt eraan...
 
Het abstract Concepts Through Time: Tracing Concepts In Dutch Newspapers Discourse (1890-1990) Using Word Embeddings dat ik samen met Melvin Wevers en Pim Huijnen heb geschreven is geaccepteerd voor Digital Humanities 2015 (DH2015) in Sydney, Australië.
 
Ik heb een hele simpele presentatie over word2vec gemaakt voor de een presentatie voor onze groep. Niks bijzonders, gewoon wat het is, wat het niet is, en wat je ermee kan.

 
Ik heb afgelopen jaar meegedaan aan de Cumulative Citation Recommendation taak (CCR) van de Knowledge Base Acceleration (KBA) track van de Text REtrieval Conference, TREC 2013. Hier is het artikel dat de experimenten beschrijft.
 
Vandaag heb ik op CLIN24 in Leiden een presentatie gehouden over "Time-Aware Chi-squared for Document Filtering over Time". Dit is zo'n beetje dezelfde presentatie als ik eerder heb gehouden op de TAIA workshop op SIGIR 2013 in Dublin en op TREC 2013 in Gaithersburg.
Mocht iemand geïnteresseerd zijn, hier zijn de slides.
 
Mijn poster gepresenteerd op ICT.OPEN 2013.


 

Leuk! Mijn abstract voor CLIN24, getiteld "Time-Aware Chi-squared for Document Filtering over Time" is geaccepteerd voor presentatie.