[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. PaQu

    • Docker

      • ✔ na toevoegen Lassy Klein dat automatisch het defaultcorpus maken
    • ❏ Invoer metadata
      • ❏ metadata + dact-bestand of alpino_ds-bestanden
        • /net/corpora/CGN_cmdi

        • ❏ alleen metadata aanpassen
          • ✔ eerste stap: metadata in cmdi-bestanden vergelijken met metadata in /net/corpora/paqu/cgnmeta.dact

      • ❏ metadata + bestanden die nog geparst moeten worden
        • /net/corpora/Childes_dutch_cmdi

        • ❏ bestand met tekst + metadata voor PaQu maken

CGN

zie: /net/corpora/paqu/cmdi/cgn

speaker_id ontbreekt

1033 zinnen zonder speaker_id

speaker_id komt niet overeen

Verschillen tussen speaker_id (dact) en Code (cmdi) in deze cmdi-bestanden:

Spreker V40194 niet gevonden in file oai_www_mpi_nl_MPI209621.xml
Spreker V80119 niet gevonden in file oai_www_mpi_nl_MPI211541.xml
Spreker V80101 niet gevonden in file oai_www_mpi_nl_MPI213531.xml

speaker_id komt overeen met imdi-bestanden uit /net/corpora/CGN_ANN_V2/data/meta/imdi/sessions

bronnen komen niet overeen

In dact is de data ingedeeld in 15 bronnen.

In cmdi worden 377 verschillende bronnen gemeld.

Er is geen 1-op-1 mapping tussen de twee soorten bronnen. Zie: /net/corpora/CGN_cmdi/tools/sources.out

Childes dutch

zie: /net/corpora/paqu/cmdi/childes

Geen problemen gevonden. Alles matcht.


CategoryPaQu