Data
/net/corpora/europarl
/net/corpora/LassyLarge/EUROPARL — niet goed bruikbaar, omdat ik eerst zinsparen Nederlands + Engels nodig heb.
Deze data kan gekopieerd worden naar /net/corpora/europarl :
/net/aistaff/kleiweg/europarl/aligned
De data in /net/corpora/europarl/txt/nl en /net/corpora/europarl/txt/en zijn niet helemaal vergelijkbaar. Zie bijvoorbeeld ep-00-01-21.txt.gz dat tussen beide talen een heel andere inhoud heeft.
De opdeling door /net/corpora/europarl/sentence-align-corpus.perl geeft lang niet altijd één zin in beide talen. Zie bijvoorbeeld de voorlaatste paragraaf van de laatste spreker (afgezien van de voorzitter) in ep-00-01-17.
- Nederlands:
- Het vierde politieke punt heeft betrekking op de uitbreiding van de Unie.
- Dit vormt voor onze instellingen het grote politieke en humanitaire project voor de komende jaren. De uitbreiding vormt echter ook de belangrijkste uitdaging voor het cohesiebeleid in Europa.
- De heer Van Dam heeft dit punt reeds benadrukt.
- In Berlijn werden reeds de eerste tekenen zichtbaar van een cohesiebeleid voor de eerste landen die zullen toetreden. Ook in de financiële instrumenten die ons ter beschikking staan is ruimte gereserveerd voor dit cohesiebeleid.
- Hierbij denk ik met name aan het ISPA-instrument. De komende weken zal ik de verantwoordelijkheid dragen voor de toepassing van dit instrument.
- Engels:
- Now to my fourth point regarding the policy; enlargement of the Union, the great political and humanist project of the coming years for our institutions, the major challenge, too, for the European policy on cohesion, a point which Mr van Dam highlighted.
- I shall say that something is already taking shape in Berlin and in the financial instruments available to us which may be a policy on cohesion for the first countries who are going to join us.
- I am thinking in particular of the pre-accession structural instrument, which I shall be responsible for implementing in the next few weeks.
Software
Geïnstalleerd in: /net/aps/64/opt/mosesdecoder
Parser
Gekopieerd van /net/aps/64/src/stanford-parser-full-2013-11-12 naar:
/net/aps/64/opt/stanford-parser-full-2013-11-12
/net/aps/64/opt/stanford-parser (symlink naar directory hierboven)
Nieuw daarin:
englishPCFG.ser.gz uit stanford-parser-3.3.0-models.jar gehaald
stanford-parser-3.3.0-javadoc.jar uitgepakt naar subdir doc
Parser voor Engels met uitvoer in Alpino-formaat, op zardoz, voorbeeld:
mkdir outdir /net/aistaff/kleiweg/TaalOplijning/Engels/jysp -d outdir /net/aistaff/kleiweg/europarl/aligned/nl-en/en-tok/*.txt.gz
Viewer
Voor weergave van een enkele zin in Alpino-formaat:
/net/aistaff/kleiweg/TaalOplijning/alpinoview zin.xml