/net/corpora/LassyLargeNewsource, type, descriptionis_nachfeld, is_np, is_vorfeld/net/corpora/LassyLargeNew/slurmis_nachfeld, is_np, is_vorfeld in alpinodsOp colossus:
cd /net/corpora/LassyLarge/WR-P-P-G/SUITES
scp *sents* habrok:/scratch/p209327
Op habrok:
cd /scratch/p209327 mkdir SUITES mv WR-P-P-G*sents* SUITES cd /scratch/p209327/SUITES gunzip *.gz for i in *.sents; do j=`basename $i .sents`; split --additional-suffix=.sents -l 5000 -a 1 $i $j; rm -f $i; done gzip *.sents cd $ALPINO_HOME/Suites ln -s /scratch/p209327/SUITES Machine cd $ALPINO_HOME/Treebank/Machine make jobs PATTERN=WR-P-P-G ENHANCE=LL,UD
Let op het laatste argument voor make jobs. Met ENHANCE=LL,UD
geef je aan dat er metadata moet worden toegevoegd behorend bij het
corpus Lassy Large (LL), en dat er Universal Dependencies (UD) moeten
worden ingevoegd.
Die metadata is gedefinieerd in
ALPINO_HOME/TreebankTools/enhance/enhance.go. Hieraan kunnen
definities voor andere corpora worden toegevoegd, met een extra map
sourcesXX en een extra case regel in het switch statement.
Procedure:
mkdir -p ~/opt cd ~/opt git clone --depth=1 https://github.com/rug-compling/Alpino.git export ALPINO_HOME=$HOME/opt/Alpino export LD_LIBRARY_PATH=$ALPINO_HOME/TreebankTools/IndexedCorpus export SP_CSETLEN=212 export SP_CTYPE=utf8 cd Alpino module load Go Tk/8.6.12-GCCcore-11.3.0 Boost/1.79.0-GCC-11.3.0 Python/2.7.18-GCCcore-11.3.0-bare echo '#!/bin/sh' > bin/Alpino chmod +x bin/Alpino make rm bin/Alpino make install
Dit ging niet direct goed. Ik heb wat aanpassingen in Makefiles gemaakt om ervoor te zorgen dat make stopt bij een fout. Dat maakt het makkelijker om te zien wat waar fout gaat.
Ergens wordt env.sh gesourced, dat ervan uitgaat dat bin/Alpino al
bestaat. Dit is een bug.
Eén programma (tagger) wilde niet compileren vanwege een bug. Dat heb ik
aangepast.
Hieronder mijn aanpassingen. Hierin zijn ook de aanpassingen opgenomen
die nodig zijn om de extra data toe te voegen. Nieuwe bestanden staan in
/net/corpora/LassyLargeNew/cmd/enhance. Kopieer die naar
$ALPINO_HOME/TreebankTools/enhance.
diff --git a/.gitignore b/.gitignore index 2a63c849..95727404 100644 --- a/.gitignore +++ b/.gitignore @@ -37,6 +37,7 @@ Tokenization/tok_no_breaks TreebankTools/IndexedCorpus/libcorpus.a TreebankTools/IndexedCorpus/python/IndexedCorpus-1.0.egg-info TreebankTools/bin/dttred +TreebankTools/enhance/enhance TreebankTools/miniact/miniact TreebankTools/stylesheets/sanity-checks.xsl fadd/maketuple.pl diff --git a/Makefile b/Makefile index c6963f12..3b877974 100644 --- a/Makefile +++ b/Makefile @@ -12,11 +12,21 @@ DIRS= TreebankTools fadd unix SuffixArrays PosTagger\ export ALPINO_HOME quick: - ( cd Hdrug ; $(MAKE) hdrug state ) - ( cd src ; $(MAKE) guides$(MODULEEXT) ) - for dir in $(DIRS); do ( if [ -d $$dir ]; \ - then cd $$dir ; $(MAKE);\ - fi ); done + $(MAKE) -C Hdrug hdrug state + $(MAKE) -C src guides$(MODULEEXT) + $(MAKE) -C TreebankTools + $(MAKE) -C fadd + $(MAKE) -C unix + $(MAKE) -C SuffixArrays + $(MAKE) -C PosTagger + $(MAKE) -C Names + $(MAKE) -C Tokenization + $(MAKE) -C Generation + $(MAKE) -C Generation/fluency + $(MAKE) -C Suites + $(MAKE) -C Lexicon + $(MAKE) -C Grammar + $(MAKE) -C src rebuild: ( cd Lexicon/Build; $(MAKE) ; $(MAKE) install ) diff --git a/Makefile.hpc b/Makefile.hpc index 35db7954..af1b1072 100644 --- a/Makefile.hpc +++ b/Makefile.hpc @@ -31,7 +31,7 @@ job: echo "hostname -f " ;\ echo "echo $(suite) " ;\ echo "cd `pwd`";\ - echo "$(MAKE) -s $(HPCTARGET) suite=$(suite) cdb_part=$(cdb_part)";\ + echo "$(MAKE) -s $(HPCTARGET) suite=$(suite) enhance=$(enhance)";\ ) | sbatch --job-name=$(suite) shortjob: @@ -59,7 +59,7 @@ files: jobs: for suite in $(FILES);\ - do echo $$suite $$jobname; $(MAKE) -s job suite=$$suite; sleep 0.02;\ + do echo $$suite $$jobname; $(MAKE) -s job suite=$$suite enhance=$(ENHANCE); sleep 0.02;\ done jobnames: diff --git a/PosTagger/tagger.cc b/PosTagger/tagger.cc index f1d2fbf6..1f592bd1 100644 --- a/PosTagger/tagger.cc +++ b/PosTagger/tagger.cc @@ -119,7 +119,7 @@ void tagger_init(int p_model, // initialize fadd library // nb the key is ignored at the moment, and the memory is never returned. int fadd_key=fadd_init_lib(16); - if(fadd_init_lib < 0) + if(fadd_key < 0) cerr << "TAGGER ERROR: fadd_init_lib returns error code " << fadd_key << endl; // load fadd data structures diff --git a/Treebank/Makefile.Machine b/Treebank/Makefile.Machine index 1bfab3dd..f2c9ef7e 100644 --- a/Treebank/Makefile.Machine +++ b/Treebank/Makefile.Machine @@ -27,6 +27,7 @@ annotate: -flag treebank $(DISK)/$(suite)\ demo=off\ end_hook=xml $(extra) -parse 2>> $(DISK)/$(suite).log + $(ALPINO_HOME)/bin/enhance $(DISK)/$(suite) $(enhance) $(miniact) -c $(DISK)/$(suite) -$(MAKE) e LOGS=$(DISK)/$(suite).log > $(DISK)/$(suite).errors gzip -f $(DISK)/$(suite).log diff --git a/TreebankTools/Makefile b/TreebankTools/Makefile index f8f4606e..53e49d7a 100644 --- a/TreebankTools/Makefile +++ b/TreebankTools/Makefile @@ -1,7 +1,9 @@ all: stylesheets/sanity-checks.xsl - for d in $(DIRS); do ( cd $$d ; $(MAKE) all ); done + $(MAKE) -C IndexedCorpus all + $(MAKE) -C miniact all + $(MAKE) -C enhance all -DIRS=IndexedCorpus miniact +DIRS=IndexedCorpus miniact enhance ifeq "$(shell if [ -r ../Makefile.include ]; then echo yes; fi)" "yes" include ../Makefile.include diff --git a/bin/.gitignore b/bin/.gitignore index ddfeccc7..3787cd04 100644 --- a/bin/.gitignore +++ b/bin/.gitignore @@ -10,6 +10,7 @@ dtprev dtsearch dtview dtxslt +enhance miniact tagger
Alpino draaien:
export ALPINO_HOME=$HOME/opt/Alpino PATH=$ALPINO_HOME/bin:$PATH module load Tk/8.6.12-GCCcore-11.3.0 Alpino