Martin Frederik (2004)
Image Retrieval op het Web
Een methodologie voor het maken van een onderscheid tussen onderdelen van webpagina's voor het vinden van beschrijvingen van afbeeldingen op het Web
Master's thesis, Rijksuniversiteit Groningen.
[ Paper (PDF, 524 kb) ]

Inleiding

Het onderzoek naar zoekmachines voor afbeeldingen kent een centraal probleem: het is voor geautomatiseerde systemen nog niet mogelijk om in woorden te beschrijven wat een afbeelding weergeeft. Het gebruik van woorden om afbeeldingen te beschrijvingen is echter voor gebruikers de meest natuurlijk communicatiewijze met geautomatiseerde systemen.

Afbeeldingen op het web bezitten een mogelijke oplossing voor dit centrale probleem, zij zijn daar namelijk door een persoon en met een bepaald doel geplaatst. Het is dan ook aannemelijk dat ergens in dezelfde webpagina de woorden zijn die beschrijvingen van die afbeeldingen vormen. Het gebruik van die woorden kan daarom een oplossing zijn voor de problematiek van het geautomatiseerd koppelen van afbeeldingen aan bepaalde woorden.

Afbeeldingen op het Web kennen echter hun eigen problemen. De makers van webpagina's blijken nauwelijks gebruik te maken van de voorgeschreven mogelijkheden om afbeeldingen in hun webpagina's te beschrijven. Deze scriptie zal zich concentreren op deze problematiek: het vinden van de woorden die de afbeeldingen op een webpagina beschrijven.

De centrale vraag in deze scriptie is: Hoe kan men van een set van webpagina's de locaties van beschrijvingen voor afbeeldingen uit die webpagina's bepalen en hoe moeten deze locaties ten opzichte van elkaar gewaardeerd worden?

Deze scriptie heeft tot doel om een methodiek te beschrijven en toe te passen die deze centrale vraag beantwoord. Deze methodiek bestaat uit de beschrijving van een aantal stappen en de bijbehorende software waarmee het mogelijk is om voor een set van webpagina's de centrale vraag uit de scriptie te beantwoorden. Ruwweg is de methodiek op te delen in twee stappen, een praktisch (deels geautomatiseerd) onderzoek waarbij handmatig aangegeven dient te worden welke woorden een bepaalde afbeelding beschrijven en een analyse van de resultaten die het beschrijvingen van afbeeldingen oplevert.

Opbouw van deze scriptie

Deze scriptie bestaat uit vier hoofdstukken. In het eerste hoofdstuk wordt de algemene theorie achter het zoeken en vinden van afbeeldingen beschreven. Daarna wordt specifieker op het zoeken en vinden van afbeeldingen op het Web ingegaan. Hier wordt ook de theorie behorend bij de onderzoeksvraag aangehaald.

In het tweede hoofdstuk wordt de werking van HTML besproken. Vervolgens wordt de wijze waarop afbeeldingen in webpagina's zijn verwerkt besproken. Van alle onderdelen van HTML worden daarna die elementen geselecteerd die beschrijvingen voor afbeeldingen kunnen bevatten. Deze informatie is benodigd om in de uitvoering van het onderzoek te kunnen bepalen welke onderdelen van een webpagina mogelijk beschrijvingen voor afbeeldingen bevatten.

Het derde hoofdstuk beschrijft de algemene opzet en het eerste gedeelte van de methodiek: het praktische onderzoek. In dat hoofdstuk zal de uitvoering van het onderzoek aan de hand van de stappen uit de methodiek worden toegelicht. Waaronder de keuzes voor de software en de database voor het onderzoek en de keuze voor beide sets van webpagina's die geanalyseerd zullen worden.

De opzet van het tweede deel van de methodiek en de analyse van de resultaten van het onderzoek komen in hoofdstuk vier aan de orde. De resultaten van het onderzoek op twee onderzoeksobjecten worden los van elkaar en in relatie tot elkaar behandeld. Op basis daarvan zullen conclusies worden getrokken over de mogelijkheid en het nut om een methodologie te gebruiken om beschrijvingen van afbeeldingen te vinden.

Deze scriptie wordt afgesloten met de conclusie, aanbevelingen voor verder onderzoek, een literatuurlijst en de bijlagen.