[PetersWerkWiki] [TitleIndex] [WordIndex

Werkoverleg met GvN.

Taken:

  1. EarleyParser

    1. Oude data weer gaan gebruiken, vanaf nu alleen met POS-nodes.

    2. Toevoegen regel: robust → max*
      Gedaan: effect te verwaarlozen. Zie onder.
      Alternatief: onvolledige parses meenemen. Zie: http://www.let.rug.nl/~kleiweg/Earley/2013-06-12/

    3. Als parsen met POS-tags van Alpino niet lukt, dan gewoon parsen met raden.
    4. Precision en Recall van categorieën met of zonder attributen?
    5. Alternatieve validatie: cophenetic correlation coefficient.
      Gedaan: niet nodig. Zie onder.

    6. Webinterface voor browsen van resultaten.
      Gedaan. Eerste versie: http://www.let.rug.nl/~kleiweg/Earley/2013-05-29/

      • Keus van testset.
      • Sorteren naar precision en recall.
      • Bomen dmv svg
      • Goede en niet-goede boom naast elkaar: verschillen markeren
    7. Probleem met geheugen onderzoeken (golang-nuts)
      Oorzaak niet kunnen ontdekken. Zie onder.

  2. Tests op zardoz

    • mail naar Adri, Jonas
      Gedaan.


Let op: De waardes in de linker kolom van drie weken terug waren fout. Door verkeerde test waren de waardes te laag, vooral de waarde voor Recall.


Bij 1.2

Toevoegen regels heeft niet het beoogd effect.

Deze regels toegevoegd:

robust  →  maxlist
maxlist  →  max maxlist
maxlist  →  ϵ
max  →  max(dubb_punt)
max  →  max(hellip)
max  →  max(komma)
max  →  max(puncttype)
max  →  max(punt)
max  →  max(punt_komma)
max  →  max(uitroep)
max  →  max(vraag)
max  →  max((vraag;uitroep;punt_komma;punt;hellip;dubb_punt))
max  →  max((vraag;uitroep;punt_komma;punt;komma;hellip;dubb_punt))

Deze regels waren al aanwezig in de data:

max  →  <for> <president>
max  →  <Niets> <mis> <mee>
max  →  <Noblesse> <oblige>
max  →  <What's> <in> <a> <name>
max  →  <Opgeruimd> <staat> <netjes>
root(punt)  →  max
root((vraag;uitroep;punt_komma;punt;komma;hellip;dubb_punt))  →  max
root(puncttype)  →  max

Soms wordt er een van de nieuwe regels met max als lhs gebruikt. Nooit een regel met maxlist.

Bij gewone verwerking wordt één zin hierdoor anders geparst. Zie: http://www.let.rug.nl/~kleiweg/Earley/2013-06-12/

Bij verwerking met POS-categorieën door Alpino worden drie regels anders geparst, en vier die eerst niet geparst werden nu wel.

De cijfers:

1000 onbekende zinnen op 9 delen. (Zinnen uit een ander deel als waaruit de grammatica komt.)

Linker kolom is de rechter kolom van drie weken terug

Gewoon

Zonder toevoegingen                                       Met robust -> max*                                     Met robust -> robust+

tijd: 3u11 (vingolf)                                      tijd: 3u09 (zardoz)                                    tijd: 5u37 (zardoz)
geheugen: 5.5 Gb                                          geheugen: 5.7 Gb                                       geheugen: 6.6 Gb

OK only                                                   OK only                                                OK only

   Precision          Recall       Crossing brackets         Precision          Recall       Crossing brackets      Precision          Recall       Crossing brackets
 Min.   :0.3000   Min.   :0.3846   Min.   :0.00000         Min.   :0.3000   Min.   :0.3846   Min.   :0.0000       Min.   :0.2727   Min.   :0.4058   Min.   :0.0000
 1st Qu.:0.7059   1st Qu.:0.7024   1st Qu.:0.00000         1st Qu.:0.7059   1st Qu.:0.7024   1st Qu.:0.0000       1st Qu.:0.6718   1st Qu.:0.6904   1st Qu.:0.0000
 Median :0.8415   Median :0.8318   Median :0.00000         Median :0.8415   Median :0.8318   Median :0.0000       Median :0.8120   Median :0.8314   Median :0.0000
 Mean   :0.8291   Mean   :0.8201   Mean   :0.02276         Mean   :0.8294   Mean   :0.8201   Mean   :0.0228       Mean   :0.7768   Mean   :0.8175   Mean   :0.0260
 3rd Qu.:1.0000   3rd Qu.:0.9667   3rd Qu.:0.03890         3rd Qu.:1.0000   3rd Qu.:0.9667   3rd Qu.:0.0389       3rd Qu.:0.9118   3rd Qu.:0.9667   3rd Qu.:0.0400
 Max.   :1.0000   Max.   :1.0000   Max.   :0.20000         Max.   :1.0000   Max.   :1.0000   Max.   :0.2000       Max.   :0.9817   Max.   :1.0000   Max.   :0.2979

OK + FAIL + UNKNOWN                                       OK + FAIL + UNKNOWN                                    OK + FAIL + UNKNOWN

   Precision          Recall       Crossing brackets         Precision          Recall       Crossing brackets      Precision          Recall       Crossing brackets
 Min.   :0.0000   Min.   :0.0000   Min.   :0.0000          Min.   :0.0000   Min.   :0.0000   Min.   :0.0000       Min.   :0.0000   Min.   :0.0000   Min.   :0.0000
 1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.0000          1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.0000       1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.0000
 Median :0.0000   Median :0.0000   Median :1.0000          Median :0.0000   Median :0.0000   Median :1.0000       Median :0.0000   Median :0.0000   Median :1.0000
 Mean   :0.3938   Mean   :0.3896   Mean   :0.5358          Mean   :0.3940   Mean   :0.3896   Mean   :0.5358       Mean   :0.3698   Mean   :0.3892   Mean   :0.5364
 3rd Qu.:0.8262   3rd Qu.:0.8209   3rd Qu.:1.0000          3rd Qu.:0.8262   3rd Qu.:0.8209   3rd Qu.:1.0000       3rd Qu.:0.7984   3rd Qu.:0.8209   3rd Qu.:1.0000
 Max.   :1.0000   Max.   :1.0000   Max.   :1.0000          Max.   :1.0000   Max.   :1.0000   Max.   :1.0000       Max.   :0.9817   Max.   :1.0000   Max.   :1.0000

Fail:     4.1%                                            Fail:     4.1%                                         Fail:     4.0%
Unknown: 48.4%                                            Unknown: 48.4%                                         Unknown: 48.4%

POS door Alpino

Zonder toevoegingen                                       Met robust -> max*                                     Met robust -> robust+

tijd: 2u27 (vingolf)                                      tijd: 2u29 (zardoz)                                    tijd: 3u17 (zardoz)
geheugen: 3.1 Gb                                          geheugen: 3.2 Gb                                       geheugen: 3.3 Gb

OK only                                                   OK only                                                OK only

   Precision          Recall        Crossing brackets        Precision          Recall        Crossing brackets     Precision          Recall        Crossing brackets
 Min.   :0.1771   Min.   :0.06195   Min.   :0.00000        Min.   :0.1771   Min.   :0.06195   Min.   :0.00000     Min.   :0.1735   Min.   :0.04444   Min.   :0.00000
 1st Qu.:0.7073   1st Qu.:0.69129   1st Qu.:0.00000        1st Qu.:0.7071   1st Qu.:0.69060   1st Qu.:0.00000     1st Qu.:0.6712   1st Qu.:0.68293   1st Qu.:0.00000
 Median :0.8222   Median :0.80833   Median :0.00000        Median :0.8220   Median :0.80769   Median :0.00000     Median :0.7952   Median :0.80226   Median :0.00000
 Mean   :0.8161   Mean   :0.79812   Mean   :0.02805        Mean   :0.8159   Mean   :0.79788   Mean   :0.02834     Mean   :0.7638   Mean   :0.78982   Mean   :0.03298
 3rd Qu.:1.0000   3rd Qu.:0.95321   3rd Qu.:0.04662        3rd Qu.:1.0000   3rd Qu.:0.95266   3rd Qu.:0.04725     3rd Qu.:0.8750   3rd Qu.:0.95161   3rd Qu.:0.04902
 Max.   :1.0000   Max.   :1.00000   Max.   :0.37037        Max.   :1.0000   Max.   :1.00000   Max.   :0.37037     Max.   :0.9820   Max.   :1.00000   Max.   :0.41071

OK + FAIL + UNKNOWN                                       OK + FAIL + UNKNOWN                                    OK + FAIL + UNKNOWN

   Precision          Recall       Crossing brackets         Precision          Recall       Crossing brackets      Precision          Recall       Crossing brackets
 Min.   :0.0000   Min.   :0.0000   Min.   :0.00000         Min.   :0.0000   Min.   :0.0000   Min.   :0.00000      Min.   :0.0000   Min.   :0.0000   Min.   :0.00000
 1st Qu.:0.6610   1st Qu.:0.6499   1st Qu.:0.00000         1st Qu.:0.6642   1st Qu.:0.6511   1st Qu.:0.00000      1st Qu.:0.6317   1st Qu.:0.6457   1st Qu.:0.00000
 Median :0.8043   Median :0.7888   Median :0.01058         Median :0.8046   Median :0.7891   Median :0.01058      Median :0.7792   Median :0.7872   Median :0.01143
 Mean   :0.7434   Mean   :0.7271   Mean   :0.11456         Mean   :0.7465   Mean   :0.7301   Mean   :0.11093      Mean   :0.7058   Mean   :0.7298   Mean   :0.10647
 3rd Qu.:0.9829   3rd Qu.:0.9417   3rd Qu.:0.06250         3rd Qu.:0.9829   3rd Qu.:0.9417   3rd Qu.:0.06250      3rd Qu.:0.8571   3rd Qu.:0.9417   3rd Qu.:0.06544
 Max.   :1.0000   Max.   :1.0000   Max.   :1.00000         Max.   :1.0000   Max.   :1.0000   Max.   :1.00000      Max.   :0.9820   Max.   :1.0000   Max.   :1.00000

Fail:     8.9%                                            Fail:     8.5%                                         Fail:     7.6%


Bij 1.5

Mijn idee was dat de huidige foutmaat niet gevoelig was voor de afstand waarover een verkeerde node is verplaatst. Dat idee blijkt niet te kloppen. Zie voorbeelden hieronder.

000001a.png 000001b.png

Precision

Recall

Crossing Brackets

0.889

0.889

0

000002a.png 000002b.png

Precision

Recall

Crossing Brackets

0.667

0.667

0.222


Bij 1.7:

Op golang-nuts werd me aangeraden meer geheugengegevens te tracken. Dat zou misschien een aanwijzing kunnen geven van wat er fout zou gaan. Maar toen ik dat deed was het probleem verdwenen.

Ik gok dat het om een bug in de garbage collector ging, die soms, afhankelijk van speciale omstandigheden de kop op duikt. Deze week is er net een nieuwere versie van Go uitgekomen, waarin een aantal bugs in de garbage collector zijn verholpen. Misschien is het probleem nu helemaal verdwenen? Afwachten.


CategoryParsing CategoryLinux CategoryGo