Werkoverleg met GvN.
Taken:
✔ Docker
- ✔ na toevoegen Lassy Klein dat automatisch het defaultcorpus maken
- ❏ Invoer metadata
- ❏ metadata + dact-bestand of alpino_ds-bestanden
→ /net/corpora/CGN_cmdi
- ❏ alleen metadata aanpassen
✔ eerste stap: metadata in cmdi-bestanden vergelijken met metadata in /net/corpora/paqu/cgnmeta.dact
- ❏ metadata + bestanden die nog geparst moeten worden
→ /net/corpora/Childes_dutch_cmdi
❏ bestand met tekst + metadata voor PaQu maken
- ❏ metadata + dact-bestand of alpino_ds-bestanden
CGN
zie: /net/corpora/paqu/cmdi/cgn
speaker_id ontbreekt
1033 zinnen zonder speaker_id
speaker_id komt niet overeen
Verschillen tussen speaker_id (dact) en Code (cmdi) in deze cmdi-bestanden:
Spreker V40194 niet gevonden in file oai_www_mpi_nl_MPI209621.xml
Spreker V80119 niet gevonden in file oai_www_mpi_nl_MPI211541.xml
Spreker V80101 niet gevonden in file oai_www_mpi_nl_MPI213531.xml
speaker_id komt overeen met imdi-bestanden uit /net/corpora/CGN_ANN_V2/data/meta/imdi/sessions
- fv801125
- cmdi : oai_www_mpi_nl_MPI209621.xml
- V80113
- Unspecified
- imdi
- V40194
- Unspecified
- cmdi : oai_www_mpi_nl_MPI209621.xml
- fv801365
- cmdi : oai_www_mpi_nl_MPI211541.xml
- V80137
- Unspecified
- imdi
- V80119
- Unspecified
- cmdi : oai_www_mpi_nl_MPI211541.xml
- fv901001
- cmdi : oai_www_mpi_nl_MPI213531.xml
- V90504
- V90533
- Unspecified
- imdi
- V80101
- V90533
- Unspecified
- cmdi : oai_www_mpi_nl_MPI213531.xml
bronnen komen niet overeen
In dact is de data ingedeeld in 15 bronnen.
In cmdi worden 377 verschillende bronnen gemeld.
Er is geen 1-op-1 mapping tussen de twee soorten bronnen. Zie: /net/corpora/CGN_cmdi/tools/sources.out
Childes dutch
zie: /net/corpora/paqu/cmdi/childes
Geen problemen gevonden. Alles matcht.