PetersWerkWiki/2013-11-13

Werkoverleg met GvN.

Taken:

LassyDemo
- ❏ Wanneer nieuwe schrijfruimte beschikbaar is, tabel lassy_wiki opnieuw opbouwen
  - ✻ Beginnend bij 500.000 zinnen, in stappen verdubbelen to 8.000.000 zinnen.
  - ✻ Voor elk stap noteren: tijd voor opslaan zinnen en triplets; tijd voor opslaan van paren woord/lemma; schijfruimte
  - ✻ Programma tags opnieuw draaien, en menu in lassy bijwerken.
DutchSemCor
- ✔ Ook voor LassyLarge.
  - → Te groot om nog in het geheugen te houden. Oplossing: mongo-database op zardoz. Zie Voorbeeldprogramma.
  - → 16.794.441 zinnen gematcht, waarvan 13.580.134 met een of meer betekenissen, 3.214.307 zonder.
  - → Blijkt toch niet te groot te zijn. Alleen betekenissen (dus niet de complete alignments) in het geheugen van Go gebruikt op zardoz een paar procent van het geheugen. Met alle info, dus ook de alignments, gebruikt het 9,3% van het geheugen.
- ? Ook voor LassySmall?
- ✔ *out.log → *out.xml
- ✔ Voorbeeldprogramma. Invoer: naam van xml-bestand. Uitvoer: xml-data met sense ingevoegd.
  - → zie beneden
- ✘ Gebruik van dbxml?
  - → Zoekresultaat geeft altijd complete documenten, niet mogelijk om alleen de matchende knoop (met inhoud) te retourneren.

Voorbeeldprogramma voor DutchSemCor

Dit kan alleen op zardoz

# aanpassen van een heel dact-bestand uit LassyLarge:
/net/aistaff/alfa/LassyDsc/dactmod /net/corpora/LassyLarge/SONAR/DACT/WR-P-E-I/WR-P-E-I0000000.dact out.dact

# aanpassen van een enkel xml-bestand uit LassyDevelop:
/net/aistaff/alfa/LassyDsc/xmlmod D /net/corpora/LassyDevelop/Treebank/WR-P-E-C-0000000004/WR-P-E-C-0000000004.p.28.s.3.xml

CategoryLassy CategoryCornetto