Werkoverleg met GvN.
Taken:
- ❏ CGN: lijst van zinnen zonder parse, doorgeven aan makers van cgn
→ comp-a/vl/fv400731/fv400731__140.xml
→ comp-c/vl/fv701164/fv701164__258.xml
✔ pqbuild: elementen met rel="--" alleen weglaten als ook pt="let"
- ✔ CGN met metadata
- ✔ Lassy Klein
- ✔ Lassy Groot
- ✔ Mail aan gebruikers, met omschrijving verandering, waar het effect heeft, en instructies voor wie zelf eigen copora opnieuw wil invoeren.
- ❏ setHigh/unHigh in metadata, namen en waarde: pqserve (pqbuild is al in orde)
✔ Telling van metadata op tab Zoeken
✔ In onderdeel telling — metadata
- ✔ Uitleg over percentage en logaritme
- → Deze tekst moet beter
- ✔ Correcte normalisatie ook als niet alle tekstvarianten worden weergegeven.
- ✔ -log2 van fractie
- ✔ Uitleg over percentage en logaritme
✔ In onderdeel telling van combinaties: metadata toevoegen
✔ Probleem: zoek op Lars Frolander en zoek combinatie met birthyear
❏ Telling van metadata op tab XPath
❏ Nieuw onderdeel telling — metadata, vergelijkbaar met die op tab voor gewoon zoeken
❏ Tab Corpora
- ❏ Metadata onder elke zin in overzicht
- ❏ Nieuwe tab voor overzicht van een corpus
❏ Naam: Analyse, Overzicht, Meta?
- ❏ Statistische gegevens
- ❏ Overzicht/telling metadata
- ❏ Telling van combinaties van twee gekozen soorten metadata
- ❏ Subcorpus maken op basis van metadata
- ❏ Grafieken?
- ❏ Bugs
- → Kan ik niet reproduceren
- ❏ Chromium: sorteren van tabel met beschikbare corpora werkt niet
❏ Firefox: na klikken op inloggen wordt er geen nieuwe pagina geladen
- ❏ Waarom stopt pqserve op zardoz niet na sigterm?
- ❏ CGN: lijst van zinnen zonder parse, doorgeven aan makers van cgn
SELECT *
FROM `wordrel_c_cgn_mval`
WHERE `nall` != `ntrip`
ORDER BY 1, 2
id |
idx |
text |
nall |
ntrip |
rall |
rtrip |
0 |
663 |
V40222 |
131 |
130 |
0.00100829 |
0.00100061 |
0 |
856 |
V60748 |
121 |
120 |
0.000931321 |
0.000923638 |
1 |
0 |
BE |
42250 |
42248 |
0.325193 |
0.325182 |
2 |
1 |
male |
67909 |
67907 |
0.522687 |
0.522679 |
3 |
11 |
1975 – 1979 |
29141 |
29140 |
0.224294 |
0.22429 |
3 |
12 |
1980 – 1984 |
12954 |
12953 |
0.0997052 |
0.0996991 |
(rall en rtrip zijn altijd ietsje verschillend)
Kan ik op een of andere manier afkomen van die verschillen tussen *all en *trip?
Kan ik de verschillen negeren?
Oorzaak verschillen: twee zinnen zonder geldige parse, dus zonder triplets.
Probleem: Samenvoegen van corpora met incompatibele metadata (text vs int vs float vs date vs datetime).
Als dingen botsen krijgt de gebruiker vanzelf een foutmelding. Maar als één subcorpus metadata heeft die een ander subcorpus niet heeft, dan de gebruiker waarschuwen?
Later: Tellingen in tabelvorm: Sorteren op geselecteerde kolom, net als in tabel met beschikbare corpora? Welke data dan?
Later: Data voor het doen van tellingen van metadata cachen (met name telling zonder query)
Normaliseren
Verhoudingen in alle data: af, bf, cf
Getelde aantallen: at, bt, ct
genormaliseerde percentages:
sum = at / af + bt / bf + ct / cf a = at / af / sum * 100 b = bt / bf / sum * 100 c = ct / cf / sum * 100
|
f |
t |
|
a |
0.6 |
240 |
30.0% |
b |
0.3 |
70 |
17.5% |
c |
0.1 |
70 |
52.5% |
|
1.0 |
|
100.0% |