PetersWerkWiki/2015-06-10

Werkoverleg met GvN.

Taken:

PaQu
- ❏ Herziening van de code voor de verwerking van een upload
  - ✘ Limiet op basis van bestandsgrootte i.p.v. aantal tokens
    - → Dat lost niets op omdat de data toch eerst deels verwerkt moet worden (niet geparst) om de werkelijke omvang te kunnen bepalen. Platte tekst van 1Gb is veel meer data dan een dact-bestand van 1Gb. Na verwerking van 1Gb platte tekst krijg je een dact-bestand van 300Gb.
  - ✘ Chaos rond gewone/gecodeerde labels oplossen
    - → Die chaos blijkt best mee te vallen, en toevoegen van folia en tei maakt het ook niet erger
  - ❏ Meer invoerformaten verwerken
    - ✔ Compressie: .gz, .bz2
    - ✔ Archief (met één soort bestand): .tar, .zip (niet alleen voor alpinobestanden)
    - ❏ Annotatie:
      - ✔ folia
      - ❏ tei
        → document kan opgedeeld zijn in zinnen, maar dat hoeft niet
        → zinnen kunnen getokeniseerd zijn, maar dat hoeft niet
        ? dus wat moet ik hiermee?
- ❏ Download als: folia, tei
AutoSearch, zie: https://portal.clarin.inl.nl/
- ✔ Account aangevragen bij https://user.clarin.eu/user/register
  - → AutoSearch deels toegankelijk

Voorbeeld invoer:

Voorbeeld omzetting van Alpino naar FoLiA met alpino2folia.py:

Dependencies in folia zijn anders dan die van paqu:

word

lemma

root

postag

rel

hword

hlemma

hroot

hpostag

begin

end

hbegin

hend

mark

vnw

gaan

2,3

vnw

fietsen

fiets

5,6

gaan

hd/-

fietsen

fiets

gaan

3,4,6