Werkoverleg met GvN.
Taken:
PaQu
- ✔ Tekst voor verslag over eerste zes maanden.
- Alpino
- ❏ Erik vragen hoe het zit met ontwikkeling van Alpino-server. Als die niet verder ontwikkeld wordt, dan zelf doen.
- → Vereisten van de server:
- ✻ Attributen: id, word, lemma, root, pos, pt, rel, cat, begin, end, index
- ✻ Geen tokenisatie doen, geen newlines invoegen of verwijderen (doet huidige wel)
- ✻ Gebruik van labels uit invoer, terugsturen labels bij uitvoer.
- ✻ Versturen van een ping-regel elke halve minuut zolang verwerking van een zin langer duurt
- ✻ Versturen van foutmeldingen voor regels die niet geparst konden worden (met label)
? Wat te doen in PaQu als server niet beschikbaar is? Of als ie de verwerking afbreekt?
- → Eerst een verzoek naar server sturen met de vraag of er een "werker" beschikbaar is.
→ zie: /net/aistaff/kleiweg/tmp/alptest.sh
Probleempje met tokenizer.
export ALPINO_HOME=/net/aps/64/src/Alpino /net/aps/64/src/Alpino/Tokenization/tokenize_no_breaks.sh < /net/aistaff/alfa/tmp/vb-in.txt > out wc -l /net/aistaff/alfa/tmp/vb-in.txt out
resultaat:
10659 /net/aistaff/alfa/tmp/vb-in.txt 10664 out
Het probleem zit in tokenize_more