Verwante Woorden

#!/usr/bin/env python import sys import cgi import urllib data = '/net/aistaff/gosse/public_html/Sets/' script = 'http://www.let.rug.nl/gosse/bin/verwant.py' def findWords(kwh, filename, rm = '', link = False): l = len(kwh) p = '' fp = open(data + filename, 'r') for line in fp: if line[0:l] == kwh: if (rm): line = line.replace(rm, '') ww = line.split('#') for w in ww[1:21]: w = w.strip() if (w): if (link): sys.stdout.write('%s%s' % (p, script, urllib.quote(w), cgi.escape(w).replace(' ', ' '))) else: sys.stdout.write('%s%s' % (p, cgi.escape(w).replace(' ', ' '))) p = ',\n' fp.close() sys.stdout.write('''Content-type: text/html; charset=iso-8859-1 Verwante Woorden

van traditionele letterenstudies en moderne informatietechnologie

''' % {'script': script}) q = cgi.FormContentDict() try: kw = q['key'][0] kw = kw.strip() assert(kw) except: sys.stdout.write(''' ''') sys.exit() kwh = kw + '#' kwCgi = cgi.escape(kw) sys.stdout.write('

Woorden zoals %s:\n' % kwCgi) findWords(kwh, 'all_10.nbest', link = True) sys.stdout.write('\n

\nWerkwoorden waarmee %s als lijdend voorwerp geassocieerd is:\n' % kwCgi) findWords(kwh, 'clef_op.mi', 'OBJ') sys.stdout.write('\n

\nWerkwoorden waarmee %s als onderwerp geassocieerd is:\n' % kwCgi) findWords(kwh, 'clef_subj.mi', 'SUBJ') sys.stdout.write('\n

\nBijvoeglijke naamwoorden waarmee %s geassocieerd is:\n' % kwCgi) findWords(kwh, 'clef_adj.mi', 'ADJ') sys.stdout.write('\n

\nWoorden waarmee %s in een nevenschikking voorkomt:\n' % kwCgi) findWords(kwh, 'clef_coord.mi', ' CONJ', True) sys.stdout.write('''

Data ontleend aan het Algemeen Dagblad en het NRC Handelsblad van 1994 en 1995 (80 miljoen woorden). Een vergelijkbare demo is gemaakt door Erik Tjong Kim Sang. Google Sets en de thesaurus demo van Patrick Pantel zijn vergelijkbare systeem voor het Engels. ''')