[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. Woordrelaties in Lassy

    • ✔ Wie gebruikt dit nog?
      • → Alleen robots, ondank robots:noindex,nofollow
    • ❏ Site "uitfaseren"
  2. PaQu

    • ✔ Corpus CGN met metadata
      • ✔ Zinnen zonder parse uit de data verwijderen
    • ❏ setHigh/unHigh in metadata, namen en waarde:
      • ❏ pqserve
      • ✔ pqbuild: ook dingen als &#nnn; waar nnn groter is dan 65535

    • ✔ pqbuild
      • ✔ Invoegen van lege metadata: is update in lus na select veilig? → nee → of toch wel?

    • ❏ Telling van metadata op tab Zoeken

      • ❏ In onderdeel telling — metadata

        • ✔ Geen rtrip en ntrip gebruiken in MySQL
        • ❏ Betere uitleg over percentage en logaritme
        • ? Wel of geen -log2 van fractie?

      • ✔ In onderdeel Selecteer twee of meer elementen...

        • ✔ Telling geen link maken als er alleen metadata is gekozen
    • ✔ Telling van metadata op tab XPath

      • ✔ Nieuw onderdeel telling — metadata, vergelijkbaar met die op tab voor gewoon zoeken

        • → Code moet nog gecontroleerd worden
    • ❏ Tab Corpora

      • ❏ Metadata onder elke zin in overzicht
    • ❏ Nieuwe tab Metadata

      • ❏ Tab alleen weergeven als er corpora met metadata zijn
      • ❏ Alleen corpora met metadata weergeven in het menu
      • ❏ Overzicht/telling metadata
      • ❏ Telling van combinaties van twee gekozen soorten metadata
      • ❏ Subcorpus maken op basis van metadata
        • ❏ Vanuit meerdere corpora, dan moeten die corpora dezelfde soorten metadata hebben.
      • ❏ Grafieken?
      • ❏ Menu te breed? E-mailadres inkorten
    • ❏ Bugs
      • → Kan ik niet reproduceren → alleen op LWP?
      • ❏ Chromium: sorteren van tabel met beschikbare corpora werkt niet
      • ❏ Firefox: na klikken op inloggen wordt er geen nieuwe pagina geladen

    • ❏ Waarom stopt pqserve op zardoz niet na sigterm?


Probleem: Samenvoegen van corpora met incompatibele metadata (text vs int vs float vs date vs datetime).
Als dingen botsen krijgt de gebruiker vanzelf een foutmelding. Maar als één subcorpus metadata heeft die een ander subcorpus niet heeft, dan de gebruiker waarschuwen?

Later: Tellingen in tabelvorm: Sorteren op geselecteerde kolom, net als in tabel met beschikbare corpora? Welke data dan?

Later: Data voor het doen van tellingen van metadata cachen (met name telling zonder query)

Normaliseren

Verhoudingen in alle data: af, bf, cf
Getelde aantallen: at, bt, ct
genormaliseerde percentages:

sum = at / af + bt / bf + ct / cf
a = at / af / sum * 100
b = bt / bf / sum * 100
c = ct / cf / sum * 100

f

t

a

0.6

240

30.0%

b

0.3

70

17.5%

c

0.1

70

52.5%

1.0

100.0%


CategoryPaQu