Robbert Prins (2000)
Alignering van Tweetalige Corpora als Vertaalhulp
Master's thesis, Rijksuniversiteit Groningen.
[ Paper (PDF, 706 kb) ]

Hoofdstuk 1

Inleiding

Het scriptieonderzoek dat in dit verslag wordt weergegeven heeft als onderwerp tekstalignering. Tekstalignering, waarbij wordt gezocht naar correspondenties tussen teksten, wordt meestal gebruikt om data te verkrijgen voor verdere toepassingen, die dan vaak van computationele aard zijn. Zo wordt tekstalignering ingezet bij machinaal vertalen om gegevens te verzamelen die vervolgens de computer moeten helpen bij het vinden van vertalingen van andere teksten. Voor deze toepassing worden tweetalige corpora gealigneerd.

Dit onderzoek richt zich op het aligneren van tweetalige corpora, en in het bijzonder op het taalpaar Nederlands-Engels. Als toepassing van de uiteindelijke alignering wordt niet een computationele toepassing voor ogen gehouden, maar een menselijke. Gealigneerde tweetalige teksten kunnen namelijk ook de menselijke vertaler op verschillende manieren van dienst zijn.

De methode die wordt geïmplementeerd is die van Gale en Church (1993). Dit is een statistische benadering van het probleem, terwijl andere methoden tevens of uitsluitend gebruik maken van lexicale informatie. Binnen de methode wordt gebruik gemaakt van het Levenshtein algorithme, een techniek die via vergelijking en backtracking de optimale alignering tracht te achterhalen.

Hoofdstuk 2 geeft via de probleemstelling weer wat de belangrijkste aandachtspunten en vragen in dit onderzoek zijn. Vervolgens zal in hoofdstuk 3 een introductie tot het onderwerp tekstalignering worden gegeven, waarbij dieper wordt ingegaan op het Levenshtein algorithme. Zowel de statistische methode van Gale en Church als lexicale methoden worden besproken en vergeleken in hoofdstuk 4. In hoofdstuk 5 wordt vervolgens de implementatie van de Gale en Church methode weergegeven. Hierbij wordt ook aandacht geschonken aan manieren om het algorithme te optimaliseren en aan het herkennen van zinsgrenzen. Dit laatste is een cruciaal onderdeel van de methode, waar in sommige andere onderzoeksverslagen in verhouding te weinig aandacht aan wordt besteed. De resultaten van de beschreven implementatie komen in hoofdstuk 6 aan de orde. Het gaat hier zowel om de kwaliteit van de alignering, als om de efficiëntie waarmee de alignering tot stand wordt gebracht. In dit hoofdstuk worden tevens de effecten van enkele variaties besproken die ook door Gale en Church werden toegepast. Met het oog op de voorziene toepassing wordt in hoofdstuk 7 kort ingegaan op enkele manieren waarop de alignering gepresenteerd zou kunnen worden. Hoofdstuk 8 vat uiteindelijk de eerdere hoofdstukken samen in een conclusie. De programmeercode van de implementatie is als bijlage aan dit verslag toegevoegd.