[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. PaQu

    • ❏ CGN: lijst van zinnen zonder parse, doorgeven aan makers van cgn
      • comp-a/vl/fv400731/fv400731__140.xml

      • comp-c/vl/fv701164/fv701164__258.xml

    • ✔ pqbuild: elementen met rel="--" alleen weglaten als ook pt="let"

      • ✔ CGN met metadata
      • ✔ Lassy Klein
      • ✔ Lassy Groot
      • ✔ Mail aan gebruikers, met omschrijving verandering, waar het effect heeft, en instructies voor wie zelf eigen copora opnieuw wil invoeren.
    • ❏ setHigh/unHigh in metadata, namen en waarde: pqserve (pqbuild is al in orde)
    • ✔ Telling van metadata op tab Zoeken

      • ✔ In onderdeel telling — metadata

        • ✔ Uitleg over percentage en logaritme
          • → Deze tekst moet beter
        • ✔ Correcte normalisatie ook als niet alle tekstvarianten worden weergegeven.
        • ✔ -log2 van fractie
      • ✔ In onderdeel telling van combinaties: metadata toevoegen

        • ✔ Probleem: zoek op Lars Frolander en zoek combinatie met birthyear

    • ❏ Telling van metadata op tab XPath

      • ❏ Nieuw onderdeel telling — metadata, vergelijkbaar met die op tab voor gewoon zoeken

    • ❏ Tab Corpora

      • ❏ Metadata onder elke zin in overzicht
    • ❏ Nieuwe tab voor overzicht van een corpus
      • ❏ Naam: Analyse, Overzicht, Meta?

      • ❏ Statistische gegevens
      • ❏ Overzicht/telling metadata
      • ❏ Telling van combinaties van twee gekozen soorten metadata
      • ❏ Subcorpus maken op basis van metadata
      • ❏ Grafieken?
    • ❏ Bugs
      • → Kan ik niet reproduceren
      • ❏ Chromium: sorteren van tabel met beschikbare corpora werkt niet
      • ❏ Firefox: na klikken op inloggen wordt er geen nieuwe pagina geladen

    • ❏ Waarom stopt pqserve op zardoz niet na sigterm?


SELECT * 
FROM `wordrel_c_cgn_mval` 
WHERE `nall` != `ntrip` 
ORDER BY 1, 2

id

idx

text

nall

ntrip

rall

rtrip

0

663

V40222

131

130

0.00100829

0.00100061

0

856

V60748

121

120

0.000931321

0.000923638

1

0

BE

42250

42248

0.325193

0.325182

2

1

male

67909

67907

0.522687

0.522679

3

11

1975 – 1979

29141

29140

0.224294

0.22429

3

12

1980 – 1984

12954

12953

0.0997052

0.0996991

(rall en rtrip zijn altijd ietsje verschillend)

Kan ik op een of andere manier afkomen van die verschillen tussen *all en *trip?
Kan ik de verschillen negeren?
Oorzaak verschillen: twee zinnen zonder geldige parse, dus zonder triplets.


Probleem: Samenvoegen van corpora met incompatibele metadata (text vs int vs float vs date vs datetime).
Als dingen botsen krijgt de gebruiker vanzelf een foutmelding. Maar als één subcorpus metadata heeft die een ander subcorpus niet heeft, dan de gebruiker waarschuwen?

Later: Tellingen in tabelvorm: Sorteren op geselecteerde kolom, net als in tabel met beschikbare corpora? Welke data dan?

Later: Data voor het doen van tellingen van metadata cachen (met name telling zonder query)

Normaliseren

Verhoudingen in alle data: af, bf, cf
Getelde aantallen: at, bt, ct
genormaliseerde percentages:

sum = at / af + bt / bf + ct / cf
a = at / af / sum * 100
b = bt / bf / sum * 100
c = ct / cf / sum * 100

f

t

a

0.6

240

30.0%

b

0.3

70

17.5%

c

0.1

70

52.5%

1.0

100.0%


CategoryPaQu