Werkoverleg met GvN.
Taken:
- Clariah
❏ pqbuild: elementen met rel="--" alleen weglaten als ook pt="let"
- ✔ CGN met metadata
- → zie onder
- ✔ Lassy Klein
- ❏ Later: Lassy Groot
- ❏ Later: mail aan gebruikers, met omschrijving verandering, waar het effect heeft, en instructies voor wie zelf eigen copora opnieuw wil invoeren.
- ✔ CGN met metadata
- ✔ Xml-entities decoderen voor weergave van woorden onder zinnen.
- → was dubbele codering
- ❏ setHigh/unHigh in metadata, namen en waarde: pqbuild, pqserve
❏ Telling van metadata op tab Zoeken
❏ In onderdeel telling — metadata
✔ Van tekstdata alleen top 10 top 20 weergeven
- ✔ Sneller tellen/normaliseren van metadata: ranges vooraf bepalen, tellen, en opslaan in MySQL
- → Probleem: Normalisatie klopt niet als niet alle data wordt weergegeven.
❏ In onderdeel telling van combinaties: metadata toevoegen
- ✔ tekst
- ✔ int
- ✔ float
- ❏ datum/tijd
- ✔ op datum
- ❏ op weekdag
- ❏ op uur
→ Probleem: zoek op Lars Frolander en zoek combinatie met birthyear
❏ Telling van metadata op tab XPath
❏ Nieuw onderdeel telling — metadata, vergelijkbaar met die op tab voor gewoon zoeken
❏ In Selecteer één tot drie attributen
- ❏ datum/tijd
- ✔ op datum
- ❏ op weekdag
- ❏ op uur
- ❏ datum/tijd
❏ Tab Corpora
- ❏ Metadata onder elke zin in overzicht
- ❏ Nieuwe tab voor overzicht van een corpus
❏ Naam: Analyse, Overzicht, Meta?
- ❏ Statistische gegevens
- ❏ Overzicht/telling metadata
- ❏ Telling van combinaties van twee gekozen soorten metadata
- ❏ Subcorpus maken op basis van metadata
- ❏ Grafieken?
- ❏ Bugs
- → Kan ik niet reproduceren
- ❏ Chromium: sorteren van tabel met beschikbare corpora werkt niet
❏ Firefox: na klikken op inloggen wordt er geen nieuwe pagina geladen
- ❏ Waarom stopt pqserve op zardoz niet na sigterm?
pqbuild: elementen met rel="--" alleen weglaten als ook pt="let"
Na deze verandering zijn er in cgn nog twee zinnen zonder triplets
comp-a/vl/fv400731/fv400731__140.xml
<?xml version="1.0" encoding="UTF-8"?>
<alpino_ds version="1.3">
<metadata>
<meta type="text" name="speaker_id" value="V40222"/>
<meta type="text" name="country" value="BE"/>
<meta type="text" name="sex" value="male"/>
<meta type="int" name="birthyear" value="1982"/>
</metadata>
<node begin="5" cat="top" end="6" id="0" rel="top">
<node begin="5" end="6" id="1" lcat="LET()" pos="T007" postag="LET()" pt="let" rel="--" root="." word="."/>
</node>
<sentence>drie madammen en de Nikolaas .</sentence>
</alpino_ds>
comp-c/vl/fv701164/fv701164__258.xml
<?xml version="1.0" encoding="UTF-8"?>
<alpino_ds version="1.3">
<metadata>
<meta type="text" name="speaker_id" value="V60748"/>
<meta type="text" name="country" value="BE"/>
<meta type="text" name="sex" value="male"/>
<meta type="int" name="birthyear" value="1978"/>
</metadata>
<node begin="3" cat="top" end="4" id="0" rel="top">
<node begin="3" end="4" id="1" lcat="LET()" pos="T007" postag="LET()" pt="let" rel="--" root="." word="."/>
</node>
<sentence>jow da da .</sentence>
</alpino_ds>
Probleem: Samenvoegen van corpora met incompatibele metadata (text vs int vs float vs date vs datetime).
Als dingen botsen krijgt de gebruiker vanzelf een foutmelding. Maar als één subcorpus metadata heeft die een ander subcorpus niet heeft, dan de gebruiker waarschuwen?
Later: Tellingen in tabelvorm: Sorteren op geselecteerde kolom, net als in tabel met beschikbare corpora? Welke data dan?
Later: Data voor het doen van tellingen van metadata cachen (met name telling zonder query)
Normaliseren
Verhoudingen in alle data: af, bf, cf
Getelde aantallen: at, bt, ct
genormaliseerde percentages:
sum = at / af + bt / bf + ct / cf a = at / af / sum * 100 b = bt / bf / sum * 100 c = ct / cf / sum * 100
|
f |
t |
|
a |
0.6 |
240 |
30.0% |
b |
0.3 |
70 |
17.5% |
c |
0.1 |
70 |
52.5% |
|
1.0 |
|
100.0% |