Studiehandleiding

Natuurlijke Taalverwerking

2002/03

Hertentamen maandag 25 augustus, 14-17 u., zaal A8, Academiegebouw.

Het college Natuurlijke Taalverwerking I is een inleiding in de computationele taalkunde en taaltechnologie en maakt deel uit van het curriculum van Informatiekunde en Kunstmatige Intelligentie . Na een algemene inleiding in de computationele taalkunde zal vooral aandacht worden besteed aan enige practische toepassingen, het gebruik van finite state technieken (incl reguliere expressies),  en aan het automatisch verwerken (ontleden) van natuurlijke taal met behulp van grammatica's die gebruik maken van een taalkundig gemotiveerd formalisme (m.n. unificatie-grammatica).

Enige taalkundige (m.n. syntactische) kennis en kennis van Prolog wordt verondersteld.


Practisch

Tijd en plaats
Hoorcollege: dinsdag 15-17 uur, Harmoniegebouw, zaal 13.309 (via 4e verdieping Harmoniegebouw, bij de computerafdeling).
Practicum (groep 1, Kunstmatige Intelligentie) : woensdag 11-13 uur, Muntinggebouw, zaal 229.
Practicum (groep 2, Informatiekunde) : donderdag, 9-11 uur, Harmoniegebouw, zaal 12.102
Docent
Gosse Bouma , Alfa-informatica , kamer H1311-434, tel. 3635937, email: gosse@let.rug.nl
Begoña Villada Moirón ( m.b.villada@let.rug.nl )
Tentamen
Toetsing
Het eindcijfer is het gemiddelde van het resultaat van het practicum (50%) en het tentamen (50%). Voor beide onderdelen moet een voldoende worden gehaald.

Collegeoverzicht

Het plan voor het college volgt hieronder.
Week 1 (25/3): Inleiding.
Wat is computationele taalkunde? Voorbeelden van toepassingen.
Inleiding Finite state automaten en reguliere expressies
Aantekeningen (Deel 1 (Inleiding) (postscript, 4 blz op 1 A4, geen achtergrond), Deel 2 (reguliere expressies en automaten) (postscript)
Demos
  1. Question Answering: AnswerBus
  2. Question Answering: Ionaut
  3. Google Labs (o.a. Sets - zoek b.v. voetballers of politici)
Practicum: Tutorial FSA tools (English version)
Week 2 (1/4): Finite state automaten en reguliere expressies (vervolg).
Toepassingen: woorden afbreken, part-of-speech tagging. De relatie tussen reguliere talen en eindige automaten en reguliere expressies. 
Aantekeningen Finite State Machines, Syllabification (postscript)
Practicum (Deadline 17 april):
  1. Opgave 1: Syllabes
  2. English version, using Dutch data,
  3. English version, using English data
Week 3 (8/4): Finite state transducers.
Automaten met een input- en outputniveau. Voorbeelden: Grafeem naar foneem conversie, stemming, part of speech tagging. Definitie m.b.v. reguliere expressies. Non-determinisme. Compositie.
Aantekeningen Transducers (postscript)
Demos:
  1. Induction of Linguistic Knowledge Demo's van letter-naar-klank (grafeem-naar-foneem) conversie, morfologische analyse, en part-of-speech tagging (benoemen op woordsoort).
  2. Xerox MLTT Demo's van morfologische analyse en part-of-speech tagging.
Practicum: Opgave 1 (vervolg).
Week 4 (15/4): Geen college
Week 5 (22/4): Finite state transducers (vervolg).
Aantekeningen Spelling Rules, Replace Operator (postscript)
Practicum (Deadline: Vrijdag 9 mei): Opgave 2.
Practical (English Version) (Deadline: Friday, May, 9 ): Exercise 2.
Week 6 (29/4): Geen college (collegevrije week Letteren)
Week 7 (6/5): Context-vrije grammatica.
Grammatica, zinnen en betekenis, ambiguiteit, center-embedding. Reguliere vs. context-vrije talen en grammatica's. Automatisch zinsontleden.
Aantekeningen Grammars and automatic syntactic analysis (postscript)
Week 8 (13/5): Definite Clause Grammar.
Parsing as deduction, congruentie van persoon en getal, de/het woorden.
Aantekeningen Definite Clause Grammars (postscript)
Practicum (Deadline: Vrijdag 6 juni): Opgave 3: Definite Clause Grammar.
Week 9 (20/5): Definite Clause Grammar and Parsing
Trees, Semantics, Generation, Machine Translation, left-recursion, shift-reduce parsing
Aantekeningen Definite Clause Grammars (postscript)
Demos:
  1. Systran Machine Translation
  2. Alpino Dependency Parser for Dutch
Week 10 (27/5): Shift-reduce Parsing
Top-down versus bottom-up ontleden. Implementatie van ene shift-reduce parser. Behandeling van epsilon-regels.
Aantekeningen Shift Reduce Parsing (postscript)
Week 11 (3/6): Chart Parsing.
Nadelen van Backtracking. Depth-first versus breadth-first. Het bijhouden van een chart. Implementatie.
Aantekeningen Chart Parsing (postscript)
Practicum (Deadline: Vrijdag 13 juni):
  1. Opgave 4:Chart Parsing en corpus exploratie.
  • Exercise 4:Chart Parsing and corpus search.

  • Literatuur

    De syllabus "Computationele Taalkunde en Taaltechnologie" in postscript (gzipped, 2 blz op 1 A4) of pdf.

    Hertentamen

    1. Maandag 25 augustus, 14-17 u., zaal A8, Academiegebouw.
    2. Voorbeeld tentamen (ps, pdf).
    3. Example Exam (ps, pdf).

    Tips voor AI studenten