[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. PaQu

    • ✔ Tekst voor verslag over eerste zes maanden.
  2. Alpino
    • ❏ Erik vragen hoe het zit met ontwikkeling van Alpino-server. Als die niet verder ontwikkeld wordt, dan zelf doen.
    • → Vereisten van de server:
      • ✻ Attributen: id, word, lemma, root, pos, pt, rel, cat, begin, end, index
      • ✻ Geen tokenisatie doen, geen newlines invoegen of verwijderen (doet huidige wel)
      • ✻ Gebruik van labels uit invoer, terugsturen labels bij uitvoer.
      • ✻ Versturen van een ping-regel elke halve minuut zolang verwerking van een zin langer duurt
      • ✻ Versturen van foutmeldingen voor regels die niet geparst konden worden (met label)
      • ? Wat te doen in PaQu als server niet beschikbaar is? Of als ie de verwerking afbreekt?

        • → Eerst een verzoek naar server sturen met de vraag of er een "werker" beschikbaar is.
    • → zie: /net/aistaff/kleiweg/tmp/alptest.sh

Probleempje met tokenizer.

export ALPINO_HOME=/net/aps/64/src/Alpino
/net/aps/64/src/Alpino/Tokenization/tokenize_no_breaks.sh < /net/aistaff/alfa/tmp/vb-in.txt > out
wc -l /net/aistaff/alfa/tmp/vb-in.txt out

resultaat:

10659 /net/aistaff/alfa/tmp/vb-in.txt
10664 out

Het probleem zit in tokenize_more


CategoryPaQu CategoryAlpino