Demo Help RuG logo NWO logo

Verwante Woorden in het AD en de NRC van 1994 en 1995

De demo laat zien welke zelfstandige naamwoorden en namen het meest verwant zijn aan een gegeven woord. Verwante woorden worden gevonden door te zoeken in krantentekst (80 miljoen woorden) afkomstig uit het Algemeen Dagblad en het NRC Handelsblad van 1994 en 1995.

Twee woorden zijn verwant wanneer ze vaak in identieke contexten voorkomen, bijvoorbeeld als lijdend voorwerp of onderwerp van hetzelfde werkwoord, of voorafgegaan door hetzelfde bijvoeglijke naamwoord.

Vergelijkbare systemen voor het Engels zijn Google Sets, en Patrick Pantel's Thesaurus Demo.

Meer informatie over de gebruikte techniek vind je in de presentatie Syntactic Contexts for Finding Similar Words (Bouma en van der Plas, 2004). De statistische technieken die we gebruikten worden besproken in Curran en Moens, 2002. Het uiteindelijke doel is automatisch ontologische kennis op te bouwen die kan worden gebruikt voor Question Answering, zoals in Pasca 2004, Pantel en Ravichandran 2004, en Hasegawa, Sekine, en Grishman 2004.

Dit onderzoek werd uitgevoerd als onderdeel van het project Question Answering for Dutch using Dependency Relations.

Gosse Bouma en Lonneke van der Plas