http://eos.kub.nl:2080/infolab/seminar/www/search.html (Einblicke ins Internet, 10/1995)

Search Engines
De groei van het
Web heeft er voor gezorgd dat er verschillende tools ontwikkeld zijn om informatie makkelijk en snel te kunnen vinden.
In navolging van onder andere Netscape Communications Corporation hebben wij een onderzoek
gedaan naar de op het Web beschikbare zoekmethoden. Op deze pagina vindt
u een opsomming van de naar ons inzien beste hulpmiddelen. Diverse
zoekmethoden worden hier niet vermeld omdat zij in prestatie
achterblijven bij de hier vermelde tools. De eerlijkheid gebied ons te
zeggen dat een aantal populaire goede zoekmethoden minder goed uit deze
test komen, omdat het grote aantal aanvragen hiervan vaak een vervelend
oponthoud geven. Wij adviseren dan ook deze search engines in de ochtenduren
(CET) te gebruiken, omdat men in de USA dan slaapt. Hieronder volgt een lijst van de ons bekende tools, inclusief een aantal opvallende eigenschappen, waardoor ze zich onderscheiden, zoals zoektijd, aantal treffers en gebruikersgemak. Het zoekargument waarmee wij de search engines testen is CGI (Common Gateway Interface).
- Jumpstation II
- Eind 1994 is Jumpstation II geintroduceerd als de opvolger van de
succesvolle Jumpstation I, die al sinds September 1993 door vele gebruikers
van het World Wide Web werd gebruikt om informatie te zoeken. De Jumpstation II
bestaat uit drie delen, te weten de Document Search, de Server Scanner en de
URL Scanner. De Document Search, waar wij mee gewerkt hebben, is bedoeld voor het zoeken in de Jumpstation
Document database, dit kan op elke combinatie van titel, header en onderwerp.
Het woord waar wij de verschillende search engines hebben getest, CGI, gaf
bij het zoeken op titel 15 treffers, bij het zoeken op header 14 treffers en bij
onderwerp 21 treffers. Dit zijn op zich niet zoveel treffers maar ze waren wel
allemaal bruikbaar.
De output bestaat uit vijf onderdelen, namelijk een URL adres met link
naar bijbehorende pagina, de titel van het document, de datum van de
laatste modificatie, de grootte van het document en het type document
(HTML, Binair etc).
De gebruikersvriendelijkheid van deze search engine is door een duidelijke layout goed te noemen
en de snelheid van het zoeken was hoog (minder dan 10 seconde per zoekopdracht ,die wij uitgevoerd hebben), het enige minpunt aan
Jumpstation II is, zoals al gezegd, het geringe aantal treffers.
- Lycos
- Dit is waarschijnlijk de meest gebruikte search engine. De Lycos
database bestaat uit 4.370.000 documenten die tesamen voor mer dan 100 Mb aan
samenvattingen en pointers zorgen. Het gebruik van deze search engine levert,
door zijn populariteit, echter in veel gevallen een zodanige wachttijd
op dat ons inziens, door dit gebrek aan gebruikersvriendelijkheid, Lycos
niet tot de beste zoek methoden behoort. Het aantal hits bij CGI was
meer dan 42 duizend waarvan een groot aantal niet veel met CGI te maken hadden
en dus overbodig waren.
- WebCrawler
- De WebCrawler is een van onze favorieten, de mogelijkheid tot het
zoeken op meerdere trefwoorden alsmede het feit dat het maximale aantal
results kan worden ingesteld, zodat allen de belangrijkste hits worden
weergegeven in de output, maakt de deze engine tot een van de beteren.
Het maximaal aantal results kun je instellen op 10, 25, 100 of 500, bij
het zoeken naar CGI hadden wij 25 ingesteld. De WebCrawler gaf aan dat hij
in totaal 2013 documenten had gevonden met CGI waarvan dus alleen de beste
25 werden afgebeeld. Deze waren bijna allemaal bruikbaar. Ook de snelheid
waarmee het zoeken gebeurt is een goede eigenschap. Conclusie: een goede,
snelle, gebruikersvriendelijke search engine.
- World Wide Web Worm
- De World Wide Web Worm valt op door de vier onderdelen waarin gezocht kan
worden. Men kan namelijk zoeken in titels van documenten, in namen van
documenten, in alle hypertext of in namen van URL's. Het aantal hits op
CGI was ongekend groot, meer dan 300.000, waarvan 99% niet bruikbaar was.
Dit maakt de WWWW niet echt tot een bruikbare search engine voor 1 trefwoord.
Waar WWWW wel zeer geschikt voor is, is bijvoorbeeld het zoeken naar
*.GIF's of *.MPEG's, ook het zoeken op meerdere trefwoorden kan goede
resultaten opleveren.
- EINet Galaxy
- DE Galaxy EINet heeft de mogelijkheid tot het zoeken in eigen
database-pages/entries en daarnaast ook het zoeken op het WWW, in de
Gopherspace of op het Hytelnet. Ook deze engine biedt de mogelijkheid tot
het instellen van het maximaal aantal hits. We hebben met het trefwoord CGI
gezocht in de Galaxy pages database waar het aantal hits 2030 was.
De output wordt gerepresenteerd door
middel van het toekennen van een maximale score van 1000 aan het document
waarin de meeste keren CGI voorkomt de documenten waarin CGI minder vaak
voorkomt krijegn dan ook een lagere score. De gebruikersvriendelijkheid
alsmede de snelheid waren goed te noemen.
- Wandex
- De Wandex search engine heeft indexen over 27.000 WWW Documenten van
12.000 sites en meer dan 6000 homepages. Leuk bij Wandex is de mogelijkheid
tot het instellen van Best, Good en OK matches bij het zoeken. Deze engine
let dus op de kwaliteit van de results. Bij het zoeken op CGI kwam Wandex terug met een aantal (WANDEX geeft niet aan hoeveel) treffers, waarvan 3 BEST en ongeveer 10 GOOD matches.
- Harvest
- Harvest biedt een meer gecontroleerde manier van zoeken aan, men kan
niet alleen een maximaal aantal hits meegeven maar ook
het aantal lagen dat hij diep moet zoeken. Dit is de output die wij kregen bij het zoeken op trefwoord CGI.
- Spider
- Zoekt op URL adressen en geeft deze ook als resultaat.
- CUSI
- CUSI staat voor Configurable Unified Search Engine en is een configureerbare interface voor veel WWW bronnen. CUSI maakt het mogelijk om snel gerelateerde bronnen te onderzoeken zonder de zoektermen opnieuw in te typen. Als men gebruik wil maken van CUSI is dit bijna altijd mogelijk vanwege de zelf opgelegde kwaliteitsstandaard van een 95% beschikbaarheidsgraad.
- Conclusie
- Niet een bepaalde search engine is voor alle situaties de beste. Qua snelheid verschillen de search engines niet veel, en het feit of ze vaak beschikbaar zijn of niet kan al veel tijd schelen. De search engines die ons inziens het beste resultaat geven, zowel qua aantal gevonden documenten, als de mogelijkheid ze in variabele aantallen te laten presenteren, en de vorm waarop ze gepresenteerd worden, zijn Harvest, Lycos en de Webcrawler.