Rutger Wessels (2003)
FlexRef: Het annoteren van documenten
Master's thesis, Rijksuniversiteit Groningen.
[ Paper (PDF, 1898 kb) ]

1 Inleiding

1.1 Werken met informatie

Tijdens het schrijven van een tekst heeft de schrijver informatie nodig. Deze informatie kan gevonden worden in een groot aantal bronnen en systemen, bijvoorbeeld tijdschriften, boeken of internet. Tijdens het verwerken van al die informatie zal de auteur samenvattingen maken, commentaren schrijven, kanttekeningen plaatsen (letterlijk en figuurlijk). Dit soort gegevens noemt men annotaties.

Er zijn twee informatiesoorten: documenten die informatie aanleveren en documenten die daar annotaties van zijn.

Het beheren van deze informatie gebeurt vaak op ad-hoc wijze: er worden kopieën gemaakt van (delen van) documenten, er worden opmerkingen in de kantlijn gemaakt, er worden bookmarks gemaakt of er worden mappen met aantekeningen bijgehouden. Bij grote (schrijf)projecten neemt de complexiteit snel toe en kunnen documenten soms niet meer worden teruggevonden. Dit omdat de informatie niet op een eenduidige, gestructureerde wijze wordt opgeslagen. Bovendien maakt deze werkwijze het niet mogelijk om relaties tussen documenten inzichtelijk te maken.

Vaak ontstaat naast de schriftelijke neerslag van een informatieverzameling ook nog een ordening van de informatie in het hoofd van de auteur. Dit cognitief beeld stelt de auteur in staat om een zekere ordening aan te brengen: welke auteur is belangrijk, welk artikel is belangrijk, wat is de samenhang tussen artikelen. Juist de samenhang is moeilijk vast te leggen. Vaak zijn de relaties lastig te benoemen ('Document A heeft te maken met document B').

Het probleem is dat het overzicht over de documenten en de relaties daartussen kan verdwijnen, waardoor belangrijke informatie verloren kan gaan en de kwaliteit van een rapport afneemt.

Het probleem is dus tweeledig: het structureren van documenten (zowel de brondocumenten als de annotaties daarop) en het inzichtelijk maken van de relaties tussen die documenten.

1.2 Uitwisseling van informatie

Een schrijver zal vòòr de start van het eigenlijke schrijfproces informatie verzamelen die in meer of mindere mate relevant is voor het onderwerp. Deze informatie wordt vervolgens verwerkt in het in paragraaf 1 beschreven proces.

Dit kan echter betekenen dat auteurs die met hetzelfde onderwerp bezig zijn dubbel werk verrichten. Beide auteurs verrichten literatuuronderzoek naar hetzelfde onderwerp en zullen voor een deel dezelfde bronnen tegenkomen en voor een deel afwijkende bronnen gebruiken. De auteurs zouden er belang bij kunnen hebben om elkaars literatuurlijsten te kunnen raadplegen. Maar op het moment dat één van beide auteurs annotaties op de gevonden literatuur heeft vastgelegd kan ook die informatie door de andere auteur gebruikt worden. De tweede auteur zou op grond van de annotaties een beter beeld kunnen vormen van de gevonden informatie en sneller kunnen analyseren of een bepaald document wel of niet relevant is.

Naast het inzichtelijk maken van relaties tussen documenten (paragraaf 1) vormt het uitwisselen en delen van annotaties de tweede component van deze scriptie.

1.3 Doelstelling

Doelstelling van dit onderzoek is een antwoord geven op de volgende vraag:

Hoe kunnen schrijvers gegevens over en relaties tussen documenten vastleggen en delen?

Hierbij wordt onder een schrijver verstaan: iedereen die een tekst schrijft en daar andere documenten bij nodig heeft. Gegevens over documenten betekent: Bibliografische en beheersmatige informatie, bijvoorbeeld de auteur van een document, de locatie of het onderwerp.

Met relaties tussen documenten wordt bedoeld: het verband tussen documenten onderling. Een document is een informatieobject: een afzonderlijke eenheid van samenhangende informatie. Het is daarbij niet relevant of een document elektronisch beschikbaar is of alleen op papier. Onder 'delen van relaties' versta ik: het toestaan dat andere auteurs de gemaakte annotaties kunnen inzien en kunnen integreren in eigen annotatiesystemen.

1.4 Probleemstelling

Een van de oorzaken van het geschetste probleem is dat de verschillende documenten niet eenduidig zijn: de aard van een tekst op het internet verschilt in een aantal opzichten sterk van een tekst in een tijdschrift. Een mogelijke oplossing is dan ook het uniform benaderen van alle documenten. Hiermee wordt bedoeld dat documenten los moeten worden gezien van de verschijningsvormen. Er moet alleen gekeken worden naar relevante kenmerken van een document.

Hieruit volgt de probleemstelling van dit onderzoek:

Hoe kunnen gebruikers met behulp van standaardisatie van documenten relaties vastleggen tussen documenten en deze relaties delen?

Deze probleemstelling laat zich vertalen in de volgende deelproblemen:

Het standaardiseren van documenten: er moet een standaard komen waarmee alle documenten op een eenduidige manier vast te leggen zijn. Uitgaande van de beschikbare eigenschappen van een document moet vastgelegd worden welke eigenschappen worden opgenomen. Een voorbeeld van zo n universeel kenmerk is de titel van een document: (bijna) alle documenten zullen een titel hebben. Een minder universeel kenmerk is bijvoorbeeld het aantal pagina s van een document. Dit is afhankelijk van presentatieaspecten van een document en niet direct van de inhoud.

Het vastleggen van relaties: er moet een standaard komen die definieert op welke manier relaties tussen documenten worden vastgelegd zodat dit op een uniforme wijze gebeurt.

Het delen van relaties: er moet een standaard uitwisselingsprotocol komen dat het mogelijk maakt gemaakte annotaties te delen met andere gebruikers.

Gebruikers: uiteindelijk moeten eindgebruikers in staat zijn deze handelingen op een eenvoudige manier uit te voeren. Belangrijk is verder dat 'gebruikers' kunnen staan voor verschillende groepen: een enkele gebruiker, een groep onderzoekers die samen (binnen één organisatie) werken aan een project, een groep die verspreid over verschillende lokaties is of een wereldwijde groep. Hier mag geen inperking op bestaan.

Deze componenten zullen geïntegreerd worden in een applicatie waarmee de doelstelling gerealiseerd wordt.

1.5 Aanpak

De komenende hoofdstukken geven weer hoe de probleemstelling is aangepakt. In het hoofdstuk 'Probleemanalyse' wordt bekeken welke oplossingen er bestaan voor het geschetste probleem. Er worden twee groepen software bekeken en onderzocht wordt wat de tekortkomingen zijn. Op basis van deze gegevens wordt in hoofdstuk 3 een concept uitgewerkt dat de basis vormt voor implementatie van een mogelijke oplossing (hoofdstuk 4).