RuG/L04

Tutorial

4. Over het verzamelen van dialectgegevens

Bij het doen van dialectonderzoek gaat de meeste tijd zitten in het verzamelen en digitaliseren van data. De data dient in een formaat opgeslagen te worden waar RuG/L04 mee overweg kan. Als daarmee bij de digitalisatie geen rekening is gehouden moet je eerst zelf voor de omzetting zorgen.

De bestanden waarmee de software werkt, zowel de data zelf als de hulpbestanden, zijn in een formaat dat voor de mens leesbaar is. Dat wil zeggen, je kunt de bestanden bewerken met een editor voor platte tekst, maar bovenal kun je de bestanden bewerken met eenvoudige hulpmiddelen zoals scripts (bijvoorbeeld: Perl). Heb je de data opgeslagen in een binair formaat, bijvoorbeeld in een database, dan moet je het bijbehorende programma gebruiken om de data te exporteren. Je moet met dat programma de data dan uitschrijven, of direct in het formaat dat voor RuG/L04 nodig is, of in een andere vorm als platte tekst, waarna je bijvoorbeeld een script gebruikt om de data in de juiste vorm te krijgen.

4.1 Benodigde hulpbestanden

Behalve de data zelf heb je een paar andere bestanden nodig.

Je hebt een bestand nodig met daarin een lijst van genummerde plaatsnamen. Zie label file voor het formaat van dat bestand. (Zie als voorbeeld het bestand PA.lbl zoals dat gebruikt werd in de voorbeelden van de vorige twee hoofdstukken van deze tutorial.)

Wil je van een meting de local incoherence bepalen (zie deel 6), dan heb je een bestand nodig met daarin de coördinaten van de plaatsen. Zie coordinate file voor het formaat van dat bestand. Dit bestand heb je ook nodig als je kaarten wilt tekenen. (Voorbeeld: het bestand PA.coo uit de vorige hoofdstukken.)

De overige bestanden, die je alleen nodig hebt om kaarten te tekenen, worden in deel 5 van de tutorial besproken.

Hieronder wordt ingegaan op het formaat van de data zelf.

4.2 Databestanden

De dialectgegevens bestaan uit varianten van een reeks woorden (of woordgroepen) zoals die in een reeks plaatsen zijn opgetekend. Deze data is verdeeld over een aantal bestanden. Elk bestand dient alle varianten van één bepaald woord uit alle plaatsen te bevatten. Dat is weergegeven in onderstaand diagram:

Juiste verdeling van dialectgegevens over bestanden

Uitleg over het formaat voor de losse databestanden vind je hier.

Merk op dat hierboven netjes voor elke plaats en elk woord precies één variant aanwezig is. Dit hoeft niet. Je kunt ook voor een bepaald woord en een bepaalde plaats meerdere varianten hebben, of zelfs helemaal geen data.

4.2.1 Herordening van databestanden
Stel nu dat je de data al netjes onderverdeeld hebt in bestanden, maar niet per bestand alle varianten van één woord in alle plaatsen, maar per bestand alle varianten van alle woorden in één plaats, zoals weergegeven in onderstaand diagram:

Verkeerde verdeling van dialectgegevens over bestanden

In dit geval moet je de data herordenen. Hiervoor kun je het programma perfiles gebruiken. Ook in dit geval moeten de bestanden in een bepaald formaat zijn, zoals wordt uitgelegd in de handleiding van het programma perfiles.
4.2.2 Opsplitsen van een werkblad (spreadsheet)
Als je de data in een enkel werkblad hebt (spreadsheet), dan kun je het programma sssplit gebruiken om de data op te splitsen in losse bestanden. Je moet dan eerst het werkblad bewaren als een "tab-delimited file" of als een "comma-delimited file".