Een belangrijke eis die we stellen aan taalkundige theorieën is dat ze de data correct beschrijven. Het beantwoorden van de vraag of een bepaalde theorie de data juist beschrijft kan echter een moeizaam proces zijn. Wanneer we bijvoorbeeld een theorie opstellen over de volgorde van werkwoorden in Nederlandse bijzinnen, is het van belang te weten of zinnen als dat dit gedrag niet kan worden goed gekeurd, ... goed kan worden gekeurd, en ...kan goed worden gekeurd alle drie (even) acceptabel zijn. De oordelen van sprekers van het Nederlands over zulke zinnen lopen echter nogal uiteen en een taalkundige doet er dan ook goed aan niet alleen af te gaan op zijn of haar eigen mening of die van een klein aantal informanten. Een goed oordeel over de grammaticaliteit van dit soort zinnen is waarschijnlijk wel te verkrijgen door in een grote hoeveelheid teksten te kijken welke volgordes werkelijk voorkomen.
Een belangrijke bijdrage van de computationele taalkunde aan de taalkunde in het algemeen is dat ze het verzamelen en onderzoeken van grote hoeveelheden taaldata mogelijk maakt. Een hoeveelheid tekst of gesproken taal die is verzameld met het oog op verder taalkundig onderzoek noemt men een corpus. Met behulp van corpora kunnen steeds meer taalkundige vragen beantwoord worden. Het grote voordeel van het gebruik van corpora is dat ze een objectief alternatief bieden voor oordelen die alleen op intuïtie of taalgevoel gebaseerd zijn en dat ze het moeizaam met de hand verzamelen van voorbeelden overbodig maken.
Het gebruik van corpora wordt in steeds meer sectoren van de taalkunde belangrijk. Eén van de oorzaken is het feit dat er domweg steeds meer corpora beschikbaar komen, die antwoord kunnen geven op steeds meer taalkundige vragen. De snelle groei van het aantal corpora is vooral te danken aan de opkomst van de computer, waardoor steeds meer tekst electronisch beschikbaar is, en randapparatuur zoals scanners (om oude teksten automatisch in te lezen) en CD-ROM's (waarop grote hoeveelheden tekst kunnen worden opgeslagen). De enorme toename van communicatie via computers, bijvoorbeeld via het globale netwerk Internet, is ook zeer gunstig voor het maken van corpora. Electronische post, discussiegroepen en systemen zoals het World Wide Web bevatten enorme hoeveelheden taaldata, die allemaal reeds in electronische vorm zijn, en die dus gemakkelijk de basis voor een corpus kunnen vormen. Via projecten die tot doel hebben literaire teksten via Internet beschikbaar te maken zijn bijvoorbeeld enorme hoeveelheden tekst beschikbaar die ook voor taalkundig onderzoek interessant kunnen zijn.