[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. PaQu

    • ✔ Corpus CGN with metadata omzetten in formaat van PaQu → speaker_id omzetten in country

    • ✔ Invoer corpus met metadata in MySQL: pqbuild
      • ✔ DATE, DATETIME
    • ❏ setHigh/unHigh in metadata, namen en waarde: pqbuild, pqserve
    • ❏ Telling van metadata op tab Zoeken

      • ✔ Nieuw onderdeel: telling — metadata

        • ✔ Alles (ook tekst): percentages normaliseren
        • ✔ In tabelvorm (gesorteerd op waarde, niet op telling, behalve bij tekst)
      • ❏ In onderdeel telling van combinaties: metadata toevoegen

        • ❏ tekst
        • ❏ int
        • ❏ float
        • ❏ datum/tijd
          • ❏ Op datum
          • ❏ Op weekdag
          • ❏ Op uur
    • ❏ Telling van metadata op tab XPath

      • ❏ In Selecteer één tot drie attributen

        • ❏ datum/tijd
          • ✔ Op datum
          • ❏ Op weekdag
          • ❏ Op uur
    • ❏ Tab Corpora

      • ❏ Metadata onder elke zin in overzicht
    • ✔ Bij boom
      • ✔ Metadadata voor datum/tijd formatteren
    • ❏ Nieuwe tab voor overzicht van een corpus
      • ❏ Naam: Analyse, Overzicht?

      • ❏ Statistische gegevens
      • ❏ Overzicht metadata
      • ❏ Subcorpus maken op basis van metadata
    • ❏ Bugs
      • → Kan ik niet reproduceren
      • ❏ Chromium: sorteren van tabel met beschikbare corpora werkt niet
      • ❏ Firefox: na klikken op inloggen wordt er geen nieuwe pagina geladen

Er zijn zinnen die geen enkel triplet in de database hebben, vooral in cgn, zoals de zin ggg .

<?xml version="1.0" encoding="UTF-8"?>                                                                          
<alpino_ds version="1.3">
  <metadata>
    <meta type="text" name="speaker_id" value="N01002"/>
    <meta type="text" name="country" value="NL"/>
    <meta type="text" name="sex" value="male"/>
    <meta type="int" name="birthyear" value="1952"/>
  </metadata>
  <node begin="0" cat="top" end="2" id="0" rel="top">           
    <node begin="0" end="1" id="1" lcat="SPEC(onverst)" pos="T003" postag="SPEC(onverst)" pt="spec" rel="--" root="ggg" spectype="onverst" word="ggg" lemma="ggg"/>                                                             
    <node begin="1" end="2" id="2" lcat="LET()" pos="T007" postag="LET()" pt="let" rel="--" root="." word="." lemma="."/>                                                                                                       
  </node>                                                                                                       
  <sentence>ggg .</sentence>                                                                                    
</alpino_ds>                                                                                                    

Probleem: Samenvoegen van corpora met incompatibele metadata (text vs int vs float vs date vs datetime).

Later: Tellingen in tabelvorm: Sorteren op kolom, net als in tabel met beschikbare corpora.

Later: Tab XPath, apart onderdeel voor alleen metadata, hierin percentages normaliseren, niet in met attributen gecombineerde tabel.

Later: Tellingen normaliseren. Hiervoor moet pqbuild ook per zin opslaan: aantal tokens, aantal nodes (zonder fold van mwu). Tellingen van metadata kun je normaliseren op basis van de verhoudingen van de waardes in alle data.

Verhoudingen in alle data: af, bf, cf
Getelde aantallen: at, bt, ct
genormaliseerde percentages:

sum = at / af + bt / bf + ct / cf
a = at / af / sum * 100
b = bt / bf / sum * 100
c = ct / cf / sum * 100

f

t

a

0.6

240

30.0%

b

0.3

70

17.5%

c

0.1

70

52.5%

1.0

100.0%

Voorbeelden

Zoeken naar gij
Het lijkt of vrouwen dit anderhalf keer zo vaak zeggen als mannen, maar in Vlaanderen is het percentages vrouwen groter dan in Nederland, 57.49% tegen 42.51%

country

per item:

per zin

494

BE

376

98.50%

BE

13

NL

11

1.50%

NL

sex

per item

per zin:

271

female

218

60.52%

female

236

male

169

39.48%

male


CategoryPaQu