Projekt: Implementierung von web-Suchmaschinen
Voraussetzungen
- Interesse am Programmieren
Ziele
Web-Suchmaschinen bestehen aus mehreren Komponenten.
- Crawler: Dieses Programm lädt Seiten und Dokumente rekursiv aus dem Netz und speichert sie in einer Datenbank ab.
- Index: Um Suchbegriffe schnell in den Dokumenten zu finden, wird ein Index für die Dokumente in der Datenbank angelegt. Dabei werden die Dokumente gleichzeitig komprimiert. Hier gibt es verschiedene Ansätze wie z.B. die sog. Inverted Indexes.
- Ranking Algorithmen: Um die Relevanz eines Dokumentes bezüglich eines Suchbegriffs gegenüber anderen Dokumenten zu berechnen, werden Ranking Algorithmen eingesetzt. Beispiele sind etwa die Okapi BM25-Funktion oder der PageRank(tm), der bei Google (mit)eingesetzt wird.
Ziel des Praktikums ist es, eine kleine Suchmaschine zu schreiben, die alle Komponenten implementiert und Suchanfragen effizient beantwortet.
Themen
Die Themen sollen - je nach Umfang - alleine oder in Gruppen bis zu drei Studierenden bearbeitet werden. Die Themen stammen aus den Bereichen 1.-3. des vorherigen Absatzes.
Vorbesprechungstermin
25.10.2011 um 16.00 Uhr, im Raum O27/531
Interessenten können bereits vorher eine Email schreiben (hilft uns, ist aber nicht zwingend notwendig).