Werkoverleg met GvN.
Taken:
✔ Corpus CGN with metadata omzetten in formaat van PaQu → speaker_id omzetten in country
- ✔ Invoer corpus met metadata in MySQL: pqbuild
- ✔ DATE, DATETIME
- ❏ setHigh/unHigh in metadata, namen en waarde: pqbuild, pqserve
❏ Telling van metadata op tab Zoeken
✔ Nieuw onderdeel: telling — metadata
- ✔ Alles (ook tekst): percentages normaliseren
- ✔ In tabelvorm (gesorteerd op waarde, niet op telling, behalve bij tekst)
❏ In onderdeel telling van combinaties: metadata toevoegen
- ❏ tekst
- ❏ int
- ❏ float
- ❏ datum/tijd
- ❏ Op datum
- ❏ Op weekdag
- ❏ Op uur
❏ Telling van metadata op tab XPath
❏ In Selecteer één tot drie attributen
- ❏ datum/tijd
- ✔ Op datum
- ❏ Op weekdag
- ❏ Op uur
- ❏ datum/tijd
❏ Tab Corpora
- ❏ Metadata onder elke zin in overzicht
- ✔ Bij boom
- ✔ Metadadata voor datum/tijd formatteren
- ❏ Nieuwe tab voor overzicht van een corpus
❏ Naam: Analyse, Overzicht?
- ❏ Statistische gegevens
- ❏ Overzicht metadata
- ❏ Subcorpus maken op basis van metadata
- ❏ Bugs
- → Kan ik niet reproduceren
- ❏ Chromium: sorteren van tabel met beschikbare corpora werkt niet
❏ Firefox: na klikken op inloggen wordt er geen nieuwe pagina geladen
Er zijn zinnen die geen enkel triplet in de database hebben, vooral in cgn, zoals de zin ggg .
<?xml version="1.0" encoding="UTF-8"?>
<alpino_ds version="1.3">
<metadata>
<meta type="text" name="speaker_id" value="N01002"/>
<meta type="text" name="country" value="NL"/>
<meta type="text" name="sex" value="male"/>
<meta type="int" name="birthyear" value="1952"/>
</metadata>
<node begin="0" cat="top" end="2" id="0" rel="top">
<node begin="0" end="1" id="1" lcat="SPEC(onverst)" pos="T003" postag="SPEC(onverst)" pt="spec" rel="--" root="ggg" spectype="onverst" word="ggg" lemma="ggg"/>
<node begin="1" end="2" id="2" lcat="LET()" pos="T007" postag="LET()" pt="let" rel="--" root="." word="." lemma="."/>
</node>
<sentence>ggg .</sentence>
</alpino_ds>
Probleem: Samenvoegen van corpora met incompatibele metadata (text vs int vs float vs date vs datetime).
Later: Tellingen in tabelvorm: Sorteren op kolom, net als in tabel met beschikbare corpora.
Later: Tab XPath, apart onderdeel voor alleen metadata, hierin percentages normaliseren, niet in met attributen gecombineerde tabel.
Later: Tellingen normaliseren. Hiervoor moet pqbuild ook per zin opslaan: aantal tokens, aantal nodes (zonder fold van mwu). Tellingen van metadata kun je normaliseren op basis van de verhoudingen van de waardes in alle data.
Verhoudingen in alle data: af, bf, cf
Getelde aantallen: at, bt, ct
genormaliseerde percentages:
sum = at / af + bt / bf + ct / cf a = at / af / sum * 100 b = bt / bf / sum * 100 c = ct / cf / sum * 100
|
f |
t |
|
a |
0.6 |
240 |
30.0% |
b |
0.3 |
70 |
17.5% |
c |
0.1 |
70 |
52.5% |
|
1.0 |
|
100.0% |
Voorbeelden
Zoeken naar gij
Het lijkt of vrouwen dit anderhalf keer zo vaak zeggen als mannen, maar in Vlaanderen is het percentages vrouwen groter dan in Nederland, 57.49% tegen 42.51%
country |
||||
per item: |
per zin |
|||
494 |
BE |
376 |
98.50% |
BE |
13 |
NL |
11 |
1.50% |
NL |
sex |
||||
per item |
per zin: |
|||
271 |
female |
218 |
60.52% |
female |
236 |
male |
169 |
39.48% |
male |