Corpustaalkunde
Inleiding in de corpustaalkunde, college Alfa-Informatica en Nederlands.
Voor de studiehandleiding, klik hier.
Wederzijdse informatie en verwante begrippen: klik
hier.
Overzicht van corpora op het net
- Eindhoven corpus: op dit corpus is het frequentiewoordenboek van P.C. Uit
den Boogaart gebaseerd. Lokale vindplaats: /users1/vannoord/Eindhoven/Tagged.
Van de teksten bestaan twee versies: (a) met woordsoorttags, 1 woord per regel
(deze teksten zijn herkenbaar aan de extensie ".tag") en (b) zonder
tags, 1 zin per regel (deze teksten hebben de extensie ".zinnen").
- LOB corpus: belangrijk Brits-Engels corpus met teksten uit de jaren 1960.
Te vinden onder /corpora/lob. Het corpus is opgebouwd naar het voorbeeld van
het Amerikaans-Engelse Brown corpus.
- Corpora op cd-rom: cdrom2 (UNIX): Penn Treebank. Teksten uit de Wall Street
Journal en het Avis corpus (vliegtuigreserveringen), met een syntactische
annotatie. Je kunt bijv. zoeken op nominale constituenten of zinnen met een
transitief werkwoord. Cdrom3 bevat CELEX, woordenlijsten van het Nederlands en
het Engels, zeer uitgebreid, met veel fonologische en spellingsinformatie. Je
kunt hierin zoeken op woorden met 6 lettergrepen, met een frequentie van minder
dan 5, of woorden met 1 lettergreep met een frequentie tussen 5 en 250, of alle
transitieve werkwoorden van het Nederlands met meer dan 3 lettergrepen. Cdrom4
bevat het materiaal van het European Corpus Initiative (ECI) met materiaal uit
de meeste Europese talen, inclusief een royale selectie uit onze eigen
Universiteitskrant (UK). Verder zijn grote delen van het
Corpus Gesproken Nederlands
inmiddels op cdrom verschenen. Deze cdroms staan niet op het net.
- Teksten: de bijbel (King James vertaling) in een bekende Engelse vertaling
is te vinden op Unix, onder /corpora/kjv. Verder zijn er diverse
bijbelvertalingen op het World Wide Web te vinden, evenals veel klassieke
literatuur. Voor Engelstalige literatuur is er het
Project Gutenberg. Voor Nederlandstalige
literatuur is er het L.J. Costerproject (net als het Gutenberg-project genoemd
naar een uitvinder van de boekdrukkunst). Zie http://www.dds.nl/~ljcoster. Een
andere belangrijke bron voor Nederlandse literaire teksten is
Digitale Bibliotheek der Nederlandse Letteren.
Ook teksten in vele andere talen zijn te vinden op het Internet, inclusief
Hitler's Mein Kampf en het Starr-rapport over de Lewinsky-affaire.
Enkele nuttige links
Boek: Chris Brew & Marc Moens,
Data Intensive
Linguistics. Een HTML-tekst met veel informatie over corpora en
kwantitatieve benaderingen.
Nog een boek, of liever, aanvullingen op een boek:
Corpus
Linguistics van Tony McEnery en Andrew Wilson.
CELEX: Lexicale Database. Naast de
cdrom (hierboven genoemd) kan men ook online gebruik maken van CELEX,
bijvoorbeeld via het World Wide Web.
De corpus pagina van Michael Barlow,
met veel links.
Tutorial van Cathy
Ball, professor aan de Georgetown University in Washington, DC.