Verwante Woorden in Nederlandse kranten

van traditionele letterenstudies en moderne informatietechnologie

Verwante Woorden

De demo laat zien welke zelfstandige naamwoorden en namen het meest verwant zijn aan een gegeven woord. Verwante woorden worden gevonden door te zoeken in krantentekst (500 miljoen woorden) afkomstig uit het AD, Trouw, Volkskrant, NRC, en Parool uit de periode 1997-2004 ontleend aan het Twente Nieuws Corpus en de volledige tekst van de Nederlandse Wikipedia (augustus 2008, 110 miljoen woorden).

Twee woorden zijn verwant wanneer ze vaak in identieke contexten voorkomen, bijvoorbeeld als lijdend voorwerp of onderwerp van hetzelfde werkwoord, of voorafgegaan door hetzelfde bijvoeglijke naamwoord.

Een vergelijkbare demo is gemaakt door Erik Tjong Kim Sang. Vergelijkbare systemen voor het Engels zijn Google Sets, en Patrick Pantel's Thesaurus Demo.

Meer informatie over de gebruikte techniek vind je in het proefschrift van Lonneke van der Plas, en in de on-line TV presentatie van Lonneke van der Plas (via ISLA TV). De statistische technieken die we gebruikten worden besproken in Curran en Moens, 2002. Het uiteindelijke doel is automatisch ontologische kennis op te bouwen die kan worden gebruikt voor Question Answering, zoals in Pasca 2004, Pantel en Ravichandran 2004, en Hasegawa, Sekine, en Grishman 2004.

Dit onderzoek werd uitgevoerd als onderdeel van het project Question Answering for Dutch using Dependency Relations.

Gosse Bouma en Lonneke van der Plas