Van februari 2013 en ouder
Bronnen
/net/corpora/DutchSemCor/dsc20120708-HUMAN.log
/net/corpora/LassyDevelop/Sonar/SONAR500/DATA/*/*.folia.xml
/net/corpora/LassyDevelop/Treebank/*/*.xml
/net/corpora/CGN_ANN_V2/data/annot/text/plk/*/nl/*.plk.gz
/net/corpora/LassyDevelop/Suites/*.sents
/net/corpora/dutchsemcor-folia/*/*.folia.xml
Fouten in dsc20120708-HUMAN.log? Bijvoorbeeld deze regel, met woord "," en lemma geschiedenis:
857569,WR-P-P-G-0000128640.p.1.s.2.w.19,",",geschiedenis,,n,,SoNaR,r_n-14782,Rosa,N,2011-12-30 16:27:45
Doelen
Betekenissen uit 1. toevoegen aan bestanden in 3.
Gedaan met LassyCornetto.go
Nieuwe bestanden in: /net/corpora/Sonar500/Treebank
2583 wijzigingen in 2267 bestanden (overlap tussen 1. en 3. is heel klein).
200 fouten, zie LassyCornetto.errors.txt
Opnieuw gedaan, nu extra veld meegenomen dat aan dsc20120708-HUMAN.log is toegevoegd in logmod.results.csv
14498 wijzigingen in 5464 bestanden.
Nog steeds 200 fouten, zie LassyCornetto.errors.txt
TODO: alleen betekenissen toevoegen als ze twee keer, identiek voorkomen?
Naam bronbestand, sentence-ID en zin toevoegen aan regels in 1.
broncode |
bron |
niet gevonden |
totaal |
|||
SoNaR |
6. |
571.463 |
2. |
52.837 |
3.872 |
628.172 |
CGN |
6. |
0 |
67.871 |
|||
Words |
5. |
1.406 |
23.907 |
|||
Snippet |
6. |
26.383 |
201.530 |
Let op: er zijn 39 regels met ID beginnend met CGN en toch broncode SoNaR.
Programma's: logmod.go (bron 6.), logmod1.go (bronnen 2. 4. 5.)
Resultaten: logmod.results.csv
Fouten: logmod.results.log
Er ontbreken 26.841 bestanden in /net/corpora/dutchsemcor-folia: missing.log
Subdoelen
Kijken of labels uit 1. matchen met die uit 2.
Getest met SonarCheck.go. Labels kloppen.
Onderdelen in 1. met matches in 2.:
Sectie |
Totaal |
Onbekend |
WR-P-E-A |
47335 |
7 |
WR-P-E-C |
45777 |
|
WR-P-E-E |
331 |
|
WR-P-E-F |
1657 |
|
WR-P-E-G |
33777 |
|
WR-P-E-H |
1922 |
151 |
WR-P-E-I |
40878 |
154 |
WR-P-E-J |
132501 |
958 |
WR-P-E-K |
231 |
|
WR-P-P-B |
6234 |
315 |
WR-P-P-C |
11955 |
204 |
WR-P-P-D |
126 |
|
WR-P-P-E |
730 |
|
WR-P-P-F |
17998 |
|
WR-P-P-G |
127681 |
|
WR-P-P-H |
68517 |
10 |
WR-P-P-I |
15766 |
637 |
WR-P-P-J |
8144 |
1026 |
WR-P-P-K |
271 |
|
WR-U-E-S |
201530 |
201530 |
WS-U-E-A |
30184 |
357 |
WS-U-T-B |
36118 |
53 |
De labels uit 3. koppelen aan die in 2.
Hiervoor moet je kunnen zoeken naar zinnen in 2. Erg veel data, dus eerst zinnen opslaan in MongoDB met sonar2mongo.go.
Om te kijken hoeveel zinnen er in de db zitten:
mongo dbtest.js
Resultaten:
1 Match van bestanden in /net/corpora/LassyDevelop/Treebank
2 met /net/corpora/LassyDevelop/Sonar/SONAR500/DATA
3
4 Voorbeeld voor doen controle:
5
6 cd /net/corpora/LassyDevelop/Treebank
7 ../../Sonar500/findsonars WR-P-E-C-0*/*.xml | crop | less
8
9 Goed. Meeste matches op ID, waarbij soms de spatiƫring afwijkt
10 (tokenisatie), enkele zinnen niet gevonden:
11
12 WR-P-E-C
13 WR-P-E-E
14 WR-P-P-B
15 WS-U-E-A
16
17 Redelijk. Matches op ID, waarbij soms de spatiƫring afwijkt
18 (tokenisatie), deel (helft of zo) van zinnen niet gevonden:
19
20 WR-P-P-C
21
22 Slecht. Geen matches, behalve een enkele toevallige korte code:
23
24 WR-P-E-H
25 WR-P-E-I
26 WR-P-E-J
27 WR-P-P-E
28 WR-P-P-F
29 WR-P-P-G
30 WR-P-P-H
31 WR-P-P-I
32 WR-P-P-J
33 WR-P-P-K
34
35 Geen data in LassyDevelop/Sonar/SONAR500/DATA:
36
37 WR-P-P-L
38
39 Verschil in nummering komt niet voor.
Attachments
Download alles: DutchSemCor(2f)OudSpul.tar.gz
CategoryLassy CategorySonar CategoryCornetto CategoryCorpora