[PetersWerkWiki] [TitleIndex] [WordIndex

Van februari 2013 en ouder

Bronnen

  1. /net/corpora/DutchSemCor/dsc20120708-HUMAN.log

  2. /net/corpora/LassyDevelop/Sonar/SONAR500/DATA/*/*.folia.xml

  3. /net/corpora/LassyDevelop/Treebank/*/*.xml

  4. /net/corpora/CGN_ANN_V2/data/annot/text/plk/*/nl/*.plk.gz

  5. /net/corpora/LassyDevelop/Suites/*.sents

  6. /net/corpora/dutchsemcor-folia/*/*.folia.xml

Fouten in dsc20120708-HUMAN.log? Bijvoorbeeld deze regel, met woord "," en lemma geschiedenis:

857569,WR-P-P-G-0000128640.p.1.s.2.w.19,",",geschiedenis,,n,,SoNaR,r_n-14782,Rosa,N,2011-12-30 16:27:45

Doelen

Betekenissen uit 1. toevoegen aan bestanden in 3.

Gedaan met LassyCornetto.go
Nieuwe bestanden in: /net/corpora/Sonar500/Treebank
2583 wijzigingen in 2267 bestanden (overlap tussen 1. en 3. is heel klein).
200 fouten, zie LassyCornetto.errors.txt

Opnieuw gedaan, nu extra veld meegenomen dat aan dsc20120708-HUMAN.log is toegevoegd in logmod.results.csv
14498 wijzigingen in 5464 bestanden.
Nog steeds 200 fouten, zie LassyCornetto.errors.txt

TODO: alleen betekenissen toevoegen als ze twee keer, identiek voorkomen?

Naam bronbestand, sentence-ID en zin toevoegen aan regels in 1.

broncode

bron

niet gevonden

totaal

SoNaR

6.

571.463

2.

52.837

3.872

628.172

CGN

6.

0

67.871

Words

5.

1.406

23.907

Snippet

6.

26.383

201.530

Let op: er zijn 39 regels met ID beginnend met CGN en toch broncode SoNaR.

Programma's: logmod.go (bron 6.), logmod1.go (bronnen 2. 4. 5.)
Resultaten: logmod.results.csv
Fouten: logmod.results.log

Er ontbreken 26.841 bestanden in /net/corpora/dutchsemcor-folia: missing.log

Subdoelen

Kijken of labels uit 1. matchen met die uit 2.

Getest met SonarCheck.go. Labels kloppen.

Onderdelen in 1. met matches in 2.:

Sectie

Totaal

Onbekend

WR-P-E-A

47335

7

WR-P-E-C

45777

WR-P-E-E

331

WR-P-E-F

1657

WR-P-E-G

33777

WR-P-E-H

1922

151

WR-P-E-I

40878

154

WR-P-E-J

132501

958

WR-P-E-K

231

WR-P-P-B

6234

315

WR-P-P-C

11955

204

WR-P-P-D

126

WR-P-P-E

730

WR-P-P-F

17998

WR-P-P-G

127681

WR-P-P-H

68517

10

WR-P-P-I

15766

637

WR-P-P-J

8144

1026

WR-P-P-K

271

WR-U-E-S

201530

201530

WS-U-E-A

30184

357

WS-U-T-B

36118

53

De labels uit 3. koppelen aan die in 2.

Hiervoor moet je kunnen zoeken naar zinnen in 2. Erg veel data, dus eerst zinnen opslaan in MongoDB met sonar2mongo.go.

Om te kijken hoeveel zinnen er in de db zitten:

Resultaten:

   1 Match van bestanden in /net/corpora/LassyDevelop/Treebank
   2 met /net/corpora/LassyDevelop/Sonar/SONAR500/DATA
   3 
   4 Voorbeeld voor doen controle:
   5 
   6     cd /net/corpora/LassyDevelop/Treebank
   7     ../../Sonar500/findsonars WR-P-E-C-0*/*.xml | crop | less
   8 
   9 Goed. Meeste matches op ID, waarbij soms de spatiƫring afwijkt
  10 (tokenisatie), enkele zinnen niet gevonden:
  11 
  12     WR-P-E-C
  13     WR-P-E-E
  14     WR-P-P-B
  15     WS-U-E-A
  16 
  17 Redelijk. Matches op ID, waarbij soms de spatiƫring afwijkt
  18 (tokenisatie), deel (helft of zo) van zinnen niet gevonden:
  19 
  20     WR-P-P-C
  21 
  22 Slecht. Geen matches, behalve een enkele toevallige korte code:
  23 
  24     WR-P-E-H
  25     WR-P-E-I
  26     WR-P-E-J
  27     WR-P-P-E
  28     WR-P-P-F
  29     WR-P-P-G
  30     WR-P-P-H
  31     WR-P-P-I
  32     WR-P-P-J
  33     WR-P-P-K
  34 
  35 Geen data in LassyDevelop/Sonar/SONAR500/DATA:
  36 
  37     WR-P-P-L
  38 
  39 Verschil in nummering komt niet voor.
Results.txt

Attachments

Download alles: DutchSemCor(2f)OudSpul.tar.gz

  • [get | view] (2013-02-06 21:17:13, 1716.6 KB) [[attachment:LassyCornetto]]
  • [get | view] (2013-02-06 21:19:36, 40.9 KB) [[attachment:LassyCornetto.errors.txt]]
  • [get | view] (2013-02-06 21:17:00, 4.0 KB) [[attachment:LassyCornetto.go]]
  • [get | view] (2013-01-19 00:10:52, 0.9 KB) [[attachment:README.txt]]
  • [get | view] (2013-01-18 17:36:32, 0.8 KB) [[attachment:Results.txt]]
  • [get | view] (2013-01-19 05:14:35, 29949.1 KB) [[attachment:SonarCheck.errors.txt]]
  • [get | view] (2013-01-19 01:03:35, 3.4 KB) [[attachment:SonarCheck.go]]
  • [get | view] (2013-01-17 14:27:55, 0.2 KB) [[attachment:dbtest.js]]
  • [get | view] (2013-01-18 11:51:00, 1.5 KB) [[attachment:findsonar.go]]
  • [get | view] (2013-01-18 11:48:37, 3.4 KB) [[attachment:findsonars.go]]
  • [get | view] (2013-01-24 16:44:02, 6.5 KB) [[attachment:logmod.go]]
  • [get | view] (2013-01-25 18:46:32, 320718.2 KB) [[attachment:logmod.results.csv]]
  • [get | view] (2013-01-25 18:46:12, 2229.4 KB) [[attachment:logmod.results.log]]
  • [get | view] (2013-01-25 11:35:10, 10.4 KB) [[attachment:logmod1.go]]
  • [get | view] (2013-01-25 10:23:28, 2.0 KB) [[attachment:missing.go]]
  • [get | view] (2013-01-25 10:26:51, 524.5 KB) [[attachment:missing.log]]
  • [get | view] (2013-01-19 01:03:35, 3.1 KB) [[attachment:sonar2mongo.go]]
 All files | Selected Files: delete move to page copy to page


CategoryLassy CategorySonar CategoryCornetto CategoryCorpora