Werkoverleg met GvN.
Taken:
- ❏ Herziening van de code voor de verwerking van een upload
- ✘ Limiet op basis van bestandsgrootte i.p.v. aantal tokens
- → Dat lost niets op omdat de data toch eerst deels verwerkt moet worden (niet geparst) om de werkelijke omvang te kunnen bepalen. Platte tekst van 1Gb is veel meer data dan een dact-bestand van 1Gb. Na verwerking van 1Gb platte tekst krijg je een dact-bestand van 300Gb.
- ✘ Chaos rond gewone/gecodeerde labels oplossen
- → Die chaos blijkt best mee te vallen, en toevoegen van folia en tei maakt het ook niet erger
- ❏ Meer invoerformaten verwerken
- ✘ Limiet op basis van bestandsgrootte i.p.v. aantal tokens
- ❏ Download als: folia, tei
- ❏ Herziening van de code voor de verwerking van een upload
AutoSearch, zie: https://portal.clarin.inl.nl/
✔ Account aangevragen bij https://user.clarin.eu/user/register
→ AutoSearch deels toegankelijk
Voorbeeld invoer:
Voorbeeld uitvoer door http://yago.meertens.knaw.nl/apache/TTNWW/:
Voorbeeld uitvoer door http://openconvert.clarin.inl.nl/openconvert/tagger/ui:
Voorbeeld omzetting van Alpino naar FoLiA met alpino2folia.py:
Dependencies in folia zijn anders dan die van paqu:
word |
lemma |
root |
postag |
rel |
hword |
hlemma |
hroot |
hpostag |
begin |
end |
hbegin |
hend |
mark |
Ik |
ik |
ik |
vnw |
su |
ga |
gaan |
ga |
ww |
0 |
1 |
1 |
2 |
2,3 |
Ik |
ik |
ik |
vnw |
su |
fietsen |
fietsen |
fiets |
ww |
0 |
1 |
2 |
3 |
5,6 |
ga |
gaan |
ga |
ww |
hd/- |
|
|
|
|
1 |
2 |
0 |
0 |
|
fietsen |
fietsen |
fiets |
ww |
vc |
ga |
gaan |
ga |
ww |
2 |
3 |
1 |
2 |
3,4,6 |