[PetersWerkWiki] [TitleIndex] [WordIndex

Data

Deze data kan gekopieerd worden naar /net/corpora/europarl :

De data in /net/corpora/europarl/txt/nl en /net/corpora/europarl/txt/en zijn niet helemaal vergelijkbaar. Zie bijvoorbeeld ep-00-01-21.txt.gz dat tussen beide talen een heel andere inhoud heeft.

De opdeling door /net/corpora/europarl/sentence-align-corpus.perl geeft lang niet altijd één zin in beide talen. Zie bijvoorbeeld de voorlaatste paragraaf van de laatste spreker (afgezien van de voorzitter) in ep-00-01-17.

Software

Geïnstalleerd in: /net/aps/64/opt/mosesdecoder

Parser

Gekopieerd van /net/aps/64/src/stanford-parser-full-2013-11-12 naar:

Nieuw daarin:

Parser voor Engels met uitvoer in Alpino-formaat, op zardoz, voorbeeld:

mkdir outdir
/net/aistaff/kleiweg/TaalOplijning/Engels/jysp -d outdir /net/aistaff/kleiweg/europarl/aligned/nl-en/en-tok/*.txt.gz

Viewer

Voor weergave van een enkele zin in Alpino-formaat:

/net/aistaff/kleiweg/TaalOplijning/alpinoview zin.xml


CategoryTaalOplijning