[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. Alpino
    • ❏ Erik vragen naar update van Alpino-server.
    • → oude server:

      echo 'Line1|Dit is regel 1 .
      Line2|Nog een regel ?
      Line3|Dit gaat
      Line4|niet goed !' | curl -s --upload-file - http://145.100.57.99/bin/alpino-notk
      

      echo 'Line1|Dit is regel 1 .
      
      Line2|Nog een regel ?
      
      Line3|Dit gaat
      
      Line4|wél goed !' | curl -s --upload-file - http://145.100.57.99/bin/alpino-notk
      
  2. Clariah → zie onder
    • CLARIAH Linguistics Plan doornemen

    • ❏ Ondersteuning in PaQu voor inlezen van bestandsformaten herkend door Clariah

      • ✻ Met folia2alpino.py kan folia omgezet worden in formaat dat direct door PaQu verwerkt kan worden, alleen wordt het juiste formaat een zin per regel, met labels, getokeniseerd (nog) niet automatisch herkend.

      • ? Aparte website voor conversie vanuit diverse formaten naar formaar voor PaQu?

    • ? Later: zoeken m.b.v. metadata (zoals CMDI)

  3. Wrapper rond tokenizer voor doorlopende tekst die alinea's en zinnen nummert in de labels
    • ✔ Gebruiker formaat van label laten aanpassen
    • → zie:

      echo 'Dit is een 
      test. Met nog een
      regel.
      
      Par 2.
      
      Dit is een opsomming. Die moet zo blijven
      als het is:
      
       1. fiets of
          bromfiets. Maar geen scooter!
       2) auto
       * trein
       - boot
      
      Dit kan veranderd worden met optie -i
      ' | partok -t 'test.%03p.%03l|'
      


Clariah

CMDI

De userguide geeft een voorbeeld Actor. Ook al is het maar een voorbeeld, het is wel sprekend:


CategoryAlpino CategoryPaQu CategoryClarin