31 mei 2023

  1. Alpino
    • Lassy Groot, helemaal
      • opnieuw compileren, op Hábrók
        • zie /net/corpora/LassyLargeNew
        • extra data invoegen:
          • DTD-versie naar 1.16
          • metadata: source, type, description
          • Universal Dependencies
          • is_nachfeld, is_np, is_vorfeld
          • ook voor Lassy Large kranten
        • voorbeelden uitvoer van batch
          • zie /net/corpora/LassyLargeNew/slurm
    • Alpino vanuit git compileren op habrok
    • documentatie van nieuwe attributen
      • zie implementatie van is_nachfeld, is_np, is_vorfeld in alpinods
  2. profielpagina
  3. neurale netwerken
  4. urd2
    • binnenkort upgrade naar Ubuntu 22.04
  5. migratie naar colossus
  6. index voor semantic web
    • datasets toevoegen, zoals corpora
    • applicaties toevoegen van andere mensen bij Alfa-informatica
  7. Back-up
    • een beter systeem voor back-up van hele pc
  8. Twitter
    • dagtweets: huidige data vervangen door periode met veel data

Lassy Groot, kranten

Op colossus:

cd /net/corpora/LassyLarge/WR-P-P-G/SUITES
scp *sents* habrok:/scratch/p209327

Op habrok:

cd /scratch/p209327
mkdir SUITES
mv WR-P-P-G*sents* SUITES

cd /scratch/p209327/SUITES
gunzip *.gz
for i in *.sents; do j=`basename $i .sents`; split --additional-suffix=.sents -l 5000 -a 1 $i $j; rm -f $i; done
gzip *.sents

cd $ALPINO_HOME/Suites
ln -s /scratch/p209327/SUITES Machine

cd $ALPINO_HOME/Treebank/Machine
make jobs PATTERN=WR-P-P-G ENHANCE=LL,UD

Let op het laatste argument voor make jobs. Met ENHANCE=LL,UD geef je aan dat er metadata moet worden toegevoegd behorend bij het corpus Lassy Large (LL), en dat er Universal Dependencies (UD) moeten worden ingevoegd.

Die metadata is gedefinieerd in ALPINO_HOME/TreebankTools/enhance/enhance.go. Hieraan kunnen definities voor andere corpora worden toegevoegd, met een extra map sourcesXX en een extra case regel in het switch statement.


Alpino installeren op Habrok

Procedure:

mkdir -p ~/opt
cd ~/opt
git clone --depth=1 https://github.com/rug-compling/Alpino.git
export ALPINO_HOME=$HOME/opt/Alpino
export LD_LIBRARY_PATH=$ALPINO_HOME/TreebankTools/IndexedCorpus
export SP_CSETLEN=212
export SP_CTYPE=utf8
cd Alpino
module load Go Tk/8.6.12-GCCcore-11.3.0 Boost/1.79.0-GCC-11.3.0 Python/2.7.18-GCCcore-11.3.0-bare
echo '#!/bin/sh' > bin/Alpino
chmod +x bin/Alpino
make
rm bin/Alpino
make install

Dit ging niet direct goed. Ik heb wat aanpassingen in Makefiles gemaakt om ervoor te zorgen dat make stopt bij een fout. Dat maakt het makkelijker om te zien wat waar fout gaat.

Ergens wordt env.sh gesourced, dat ervan uitgaat dat bin/Alpino al bestaat. Dit is een bug.

Eén programma (tagger) wilde niet compileren vanwege een bug. Dat heb ik aangepast.

Hieronder mijn aanpassingen. Hierin zijn ook de aanpassingen opgenomen die nodig zijn om de extra data toe te voegen. Nieuwe bestanden staan in /net/corpora/LassyLargeNew/cmd/enhance. Kopieer die naar $ALPINO_HOME/TreebankTools/enhance.

diff --git a/.gitignore b/.gitignore
index 2a63c849..95727404 100644
--- a/.gitignore
+++ b/.gitignore
@@ -37,6 +37,7 @@ Tokenization/tok_no_breaks
 TreebankTools/IndexedCorpus/libcorpus.a
 TreebankTools/IndexedCorpus/python/IndexedCorpus-1.0.egg-info
 TreebankTools/bin/dttred
+TreebankTools/enhance/enhance
 TreebankTools/miniact/miniact
 TreebankTools/stylesheets/sanity-checks.xsl
 fadd/maketuple.pl
diff --git a/Makefile b/Makefile
index c6963f12..3b877974 100644
--- a/Makefile
+++ b/Makefile
@@ -12,11 +12,21 @@ DIRS= TreebankTools fadd unix SuffixArrays PosTagger\
 export ALPINO_HOME
 
 quick:
-	( cd Hdrug ; $(MAKE) hdrug state )
-	( cd src ; $(MAKE) guides$(MODULEEXT) )
-	for dir in $(DIRS); do ( if [ -d $$dir ]; \
-                                 then cd $$dir ; $(MAKE);\
-                                 fi ); done
+	$(MAKE) -C Hdrug hdrug state
+	$(MAKE) -C src guides$(MODULEEXT)
+	$(MAKE) -C TreebankTools
+	$(MAKE) -C fadd
+	$(MAKE) -C unix
+	$(MAKE) -C SuffixArrays
+	$(MAKE) -C PosTagger
+	$(MAKE) -C Names
+	$(MAKE) -C Tokenization
+	$(MAKE) -C Generation
+	$(MAKE) -C Generation/fluency
+	$(MAKE) -C Suites
+	$(MAKE) -C Lexicon
+	$(MAKE) -C Grammar
+	$(MAKE) -C src
 
 rebuild:
 	( cd Lexicon/Build; $(MAKE) ; $(MAKE) install )
diff --git a/Makefile.hpc b/Makefile.hpc
index 35db7954..af1b1072 100644
--- a/Makefile.hpc
+++ b/Makefile.hpc
@@ -31,7 +31,7 @@ job:
    echo "hostname -f " ;\
    echo "echo $(suite) " ;\
    echo "cd `pwd`";\
-   echo "$(MAKE) -s $(HPCTARGET) suite=$(suite) cdb_part=$(cdb_part)";\
+   echo "$(MAKE) -s $(HPCTARGET) suite=$(suite) enhance=$(enhance)";\
        ) | sbatch --job-name=$(suite)
 
 shortjob:
@@ -59,7 +59,7 @@ files:
 	
 jobs:
 	for suite in $(FILES);\
-        do echo $$suite $$jobname; $(MAKE) -s job suite=$$suite; sleep 0.02;\
+        do echo $$suite $$jobname; $(MAKE) -s job suite=$$suite enhance=$(ENHANCE); sleep 0.02;\
         done
 
 jobnames:
diff --git a/PosTagger/tagger.cc b/PosTagger/tagger.cc
index f1d2fbf6..1f592bd1 100644
--- a/PosTagger/tagger.cc
+++ b/PosTagger/tagger.cc
@@ -119,7 +119,7 @@ void tagger_init(int    p_model,
   // initialize fadd library
   // nb the key is ignored at the moment, and the memory is never returned.
   int fadd_key=fadd_init_lib(16);
-  if(fadd_init_lib < 0)
+  if(fadd_key < 0)
     cerr << "TAGGER ERROR: fadd_init_lib returns error code " << fadd_key << endl;
 
   // load fadd data structures
diff --git a/Treebank/Makefile.Machine b/Treebank/Makefile.Machine
index 1bfab3dd..f2c9ef7e 100644
--- a/Treebank/Makefile.Machine
+++ b/Treebank/Makefile.Machine
@@ -27,6 +27,7 @@ annotate:
           -flag treebank $(DISK)/$(suite)\
           demo=off\
           end_hook=xml $(extra) -parse 2>> $(DISK)/$(suite).log
+	$(ALPINO_HOME)/bin/enhance $(DISK)/$(suite) $(enhance)
 	$(miniact) -c $(DISK)/$(suite)
 	-$(MAKE) e LOGS=$(DISK)/$(suite).log > $(DISK)/$(suite).errors
 	gzip -f $(DISK)/$(suite).log
diff --git a/TreebankTools/Makefile b/TreebankTools/Makefile
index f8f4606e..53e49d7a 100644
--- a/TreebankTools/Makefile
+++ b/TreebankTools/Makefile
@@ -1,7 +1,9 @@
 all: stylesheets/sanity-checks.xsl
-	for d in $(DIRS); do ( cd $$d ; $(MAKE) all ); done
+	$(MAKE) -C IndexedCorpus all
+	$(MAKE) -C miniact all
+	$(MAKE) -C enhance all
 
-DIRS=IndexedCorpus miniact
+DIRS=IndexedCorpus miniact enhance
 
 ifeq "$(shell if [ -r ../Makefile.include ]; then echo yes; fi)" "yes"
 include ../Makefile.include
diff --git a/bin/.gitignore b/bin/.gitignore
index ddfeccc7..3787cd04 100644
--- a/bin/.gitignore
+++ b/bin/.gitignore
@@ -10,6 +10,7 @@ dtprev
 dtsearch
 dtview
 dtxslt
+enhance
 miniact
 tagger
 

Alpino draaien:

export ALPINO_HOME=$HOME/opt/Alpino
PATH=$ALPINO_HOME/bin:$PATH
module load Tk/8.6.12-GCCcore-11.3.0
Alpino
alpino corpora habrok lassy