[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. PaQu

    • ❏ Herziening van de code voor de verwerking van een upload
      • ✘ Limiet op basis van bestandsgrootte i.p.v. aantal tokens
        • → Dat lost niets op omdat de data toch eerst deels verwerkt moet worden (niet geparst) om de werkelijke omvang te kunnen bepalen. Platte tekst van 1Gb is veel meer data dan een dact-bestand van 1Gb. Na verwerking van 1Gb platte tekst krijg je een dact-bestand van 300Gb.
      • ✘ Chaos rond gewone/gecodeerde labels oplossen
        • → Die chaos blijkt best mee te vallen, en toevoegen van folia en tei maakt het ook niet erger
      • ❏ Meer invoerformaten verwerken
        • ✔ Compressie: .gz, .bz2

        • ✔ Archief (met één soort bestand): .tar, .zip (niet alleen voor alpinobestanden)
        • ❏ Annotatie:
          • folia

          • tei

            • → document kan opgedeeld zijn in zinnen, maar dat hoeft niet
            • → zinnen kunnen getokeniseerd zijn, maar dat hoeft niet
            • ? dus wat moet ik hiermee?

    • ❏ Download als: folia, tei
  2. AutoSearch, zie: https://portal.clarin.inl.nl/


Voorbeeld invoer:

Voorbeeld uitvoer door http://yago.meertens.knaw.nl/apache/TTNWW/:

Voorbeeld uitvoer door http://openconvert.clarin.inl.nl/openconvert/tagger/ui:


Voorbeeld omzetting van Alpino naar FoLiA met alpino2folia.py:

Dependencies in folia zijn anders dan die van paqu:

word

lemma

root

postag

rel

hword

hlemma

hroot

hpostag

begin

end

hbegin

hend

mark

Ik

ik

ik

vnw

su

ga

gaan

ga

ww

0

1

1

2

2,3

Ik

ik

ik

vnw

su

fietsen

fietsen

fiets

ww

0

1

2

3

5,6

ga

gaan

ga

ww

hd/-

1

2

0

0

fietsen

fietsen

fiets

ww

vc

ga

gaan

ga

ww

2

3

1

2

3,4,6


CategoryPaQu CategoryClarin