Werkoverleg met GvN.
Taken:
- Alpino
- ❏ Erik vragen naar update van Alpino-server.
→ oude server:
echo 'Line1|Dit is regel 1 . Line2|Nog een regel ? Line3|Dit gaat Line4|niet goed !' | curl -s --upload-file - http://145.100.57.99/bin/alpino-notk
echo 'Line1|Dit is regel 1 . Line2|Nog een regel ? Line3|Dit gaat Line4|wél goed !' | curl -s --upload-file - http://145.100.57.99/bin/alpino-notk
- Clariah → zie onder
✔ CLARIAH Linguistics Plan doornemen
❏ Ondersteuning in PaQu voor inlezen van bestandsformaten herkend door Clariah
✻ Met folia2alpino.py kan folia omgezet worden in formaat dat direct door PaQu verwerkt kan worden, alleen wordt het juiste formaat een zin per regel, met labels, getokeniseerd (nog) niet automatisch herkend.
? Aparte website voor conversie vanuit diverse formaten naar formaar voor PaQu?
? Later: zoeken m.b.v. metadata (zoals CMDI)
- Wrapper rond tokenizer voor doorlopende tekst die alinea's en zinnen nummert in de labels
- ✔ Gebruiker formaat van label laten aanpassen
→ zie:
echo 'Dit is een test. Met nog een regel. Par 2. Dit is een opsomming. Die moet zo blijven als het is: 1. fiets of bromfiets. Maar geen scooter! 2) auto * trein - boot Dit kan veranderd worden met optie -i ' | partok -t 'test.%03p.%03l|'
Clariah
Links
CLARIN INL Portal — o.a. over AutoSearch, bestandsformaten FoLiA en TEI
CMDI
De userguide geeft een voorbeeld Actor. Ook al is het maar een voorbeeld, het is wel sprekend:
Gebruik van voornaam en achternaam, zie Falsehoods Programmers Believe About Names
Sekse is man of vrouw. Geen andere opties. Geen onbekend.