Studiehandleiding
Natuurlijke Taalverwerking
2002/03
Hertentamen maandag 25 augustus, 14-17 u., zaal A8, Academiegebouw.
Het college Natuurlijke Taalverwerking I is een inleiding in de
computationele taalkunde en taaltechnologie en maakt deel uit van het curriculum
van Informatiekunde
en Kunstmatige Intelligentie
. Na een algemene inleiding in de computationele taalkunde zal vooral
aandacht worden besteed aan enige practische toepassingen, het gebruik van
finite state technieken (incl reguliere expressies), en aan het automatisch
verwerken (ontleden) van natuurlijke taal met behulp van grammatica's die
gebruik maken van een taalkundig gemotiveerd formalisme (m.n. unificatie-grammatica).
Enige taalkundige (m.n. syntactische) kennis en kennis van Prolog wordt
verondersteld.
Practisch
- Tijd en plaats
- Hoorcollege: dinsdag 15-17 uur, Harmoniegebouw, zaal 13.309 (via
4e verdieping Harmoniegebouw, bij de computerafdeling).
- Practicum (groep 1, Kunstmatige Intelligentie) : woensdag 11-13 uur, Muntinggebouw, zaal 229.
- Practicum (groep 2, Informatiekunde) : donderdag, 9-11 uur, Harmoniegebouw, zaal 12.102
- Docent
- Gosse Bouma
, Alfa-informatica
, kamer H1311-434, tel. 3635937, email:
gosse@let.rug.nl
- Begoña Villada Moirón (
m.b.villada@let.rug.nl
)
- Tentamen
- Location: Friday, June, 27, 9-12, !!!van der Leeuwzaal!!!, Academiegebouw
- Voorbeeld tentamen (ps, pdf).
- Example Exam (ps, pdf).
- Toetsing
- Het eindcijfer is het gemiddelde van het resultaat van
het practicum (50%) en het tentamen (50%). Voor beide onderdelen moet een
voldoende worden gehaald.
Collegeoverzicht
Het plan voor het college volgt hieronder.
- Week 1 (25/3): Inleiding.
- Wat is computationele taalkunde? Voorbeelden van
toepassingen.
Inleiding Finite state automaten en reguliere expressies
- Aantekeningen (Deel 1 (Inleiding) (postscript, 4 blz op 1 A4, geen achtergrond), Deel 2 (reguliere expressies en automaten) (postscript)
- Demos
- Question Answering: AnswerBus
- Question Answering: Ionaut
- Google Labs (o.a. Sets - zoek b.v. voetballers of politici)
- Practicum: Tutorial FSA tools (English version)
- Week 2 (1/4): Finite state automaten en reguliere expressies (vervolg).
- Toepassingen: woorden afbreken, part-of-speech
tagging. De relatie tussen reguliere talen en eindige automaten en reguliere expressies.
- Aantekeningen Finite State Machines, Syllabification (postscript)
- Practicum (Deadline 17 april):
- Opgave 1: Syllabes
- English version, using Dutch data,
- English version, using English data
- Week 3 (8/4): Finite state transducers.
- Automaten met een input- en outputniveau.
Voorbeelden: Grafeem naar foneem conversie, stemming, part of speech tagging. Definitie m.b.v. reguliere expressies.
Non-determinisme. Compositie.
- Aantekeningen Transducers (postscript)
-
Demos:
-
Induction of Linguistic Knowledge Demo's
van letter-naar-klank (grafeem-naar-foneem) conversie, morfologische analyse,
en part-of-speech tagging (benoemen op woordsoort).
-
Xerox
MLTT Demo's van morfologische analyse en part-of-speech tagging.
- Practicum: Opgave 1 (vervolg).
- Week 4 (15/4): Geen college
- Week 5 (22/4): Finite state transducers (vervolg).
- Aantekeningen Spelling Rules, Replace Operator (postscript)
- Practicum (Deadline: Vrijdag 9 mei): Opgave 2.
- Practical (English Version) (Deadline: Friday, May, 9 ): Exercise 2.
- Week 6 (29/4): Geen college (collegevrije week Letteren)
- Week 7 (6/5): Context-vrije grammatica.
Grammatica, zinnen en betekenis, ambiguiteit, center-embedding. Reguliere vs. context-vrije
talen en grammatica's. Automatisch zinsontleden.
- Aantekeningen Grammars and automatic syntactic analysis (postscript)
- Week 8 (13/5): Definite Clause Grammar.
- Parsing as deduction, congruentie van persoon en getal, de/het woorden.
- Aantekeningen Definite Clause Grammars (postscript)
- Practicum (Deadline: Vrijdag 6 juni): Opgave 3: Definite Clause Grammar.
- Week 9 (20/5): Definite Clause Grammar and Parsing
- Trees, Semantics, Generation, Machine Translation, left-recursion, shift-reduce parsing
- Aantekeningen Definite Clause Grammars (postscript)
-
Demos:
- Systran Machine Translation
- Alpino Dependency Parser for Dutch
- Week 10 (27/5): Shift-reduce Parsing
- Top-down versus bottom-up ontleden. Implementatie van ene shift-reduce parser. Behandeling van epsilon-regels.
- Aantekeningen Shift Reduce Parsing (postscript)
- Week 11 (3/6): Chart Parsing.
- Nadelen van Backtracking.
Depth-first versus breadth-first. Het bijhouden van een chart. Implementatie.
- Aantekeningen Chart Parsing (postscript)
- Practicum (Deadline: Vrijdag 13 juni):
- Opgave 4:Chart Parsing en corpus exploratie.
Exercise 4:Chart Parsing and corpus search.
Literatuur
De syllabus "Computationele Taalkunde en Taaltechnologie" in
postscript (gzipped, 2 blz op 1 A4)
of pdf.
Hertentamen
- Maandag 25 augustus, 14-17 u., zaal A8, Academiegebouw.
- Voorbeeld tentamen (ps, pdf).
- Example Exam (ps, pdf).