Allgemeines zu den Übungen Web Mining

Zurück zur Vorlesungsseite. Zu den Übungsaufgaben.

Die Übungsphase ist abgeschlossen. Danke für die Teilnahme und die interessanten Diskussionen.

Die Punkte für die sechste und letzte Übungsaufgabe sind online und können im Upload-System eingesehen werden.

An­mel­dung zur Übung 

Wer Übungsauf­gaben abgeben möchte, muss sich mit seinen RBG-Dat­en am Up­load-Sys­tem anmelden.​ Dafür ist ein RBG-Ac­count notwendig.​ Die An­mel­dung läuft wie folgt ab:

  • Loggen Sie sich unter https://​www.​ke.​tu-darmstadt.​de/​webmin­ing-up­load/ mit ihrem RBG-Lo­gin an. 
  • Bei der er­sten An­mel­dung müssen Sie Ihre Daten wie Ma­trikel­num­mer und Vor- und Nach­na­men ver­vollständi­gen.
  • Wur­den Sie von einem Kom­mili­to­nen bere­its einem Team zu­ge­ord­net, ist die An­mel­dung für Sie beendet.​ Sie können das Sys­tem jetzt voll nutzen.
  • Gehören Sie noch keinem Team an, be­fol­gen Sie im Sys­tem den entsprechen­den Link, um ein neues Team zu erzeugen.​ Fügen Sie bis zu zwei weit­ere Stu­den­ten ihrem Team zu, indem Sie ihre RBG-Be­nutzerken­nun­gen angeben.​ Vergewis­sern Sie sich, bevor Sie den Vor­gang ab­schließen, daß die Be­nutzerken­nun­gen Ihrer Team­mit­glieder ko­r­rekt sind und seien Sie sich sich­er, daß Sie mit diesem Team antreten wollen.​ Eine nachträgliche Änderung ist nicht mehr im Sys­tem selb­st, son­dern nur noch über den Ve­r­anstal­ter möglich.
  • Die An­mel­dung ist the­o­retisch jed­erzeit möglich.​ Sie soll­ten sich je­doch rechtzeit­ig vor Ab­gabe­da­tum der er­sten Übung an­melden, falls Kom­p­lika­tio­nen bei der An­mel­dung auftreten.
  • Bitte teilen Sie uns mit soll­ten Schwierigkeit­en mit dem Up­load/An­meldesys­tem auftreten.
  • Ihr RBG-Pass­wort wird von uns in ke­in­ster Weise gespe­ichert und nur für die Au­then­tifizierung am LDAP-Serv­er der RBG ver­wen­det (jew­eils ein­ma­lig beim Ein­loggen).

Die nachfolgenden Hinweise finden sich in ähnlicher Form auch in den Folien zur Vorbesprechung (letzte Aktualisierung: 17.5.11) der Übungen.

Ablauf

Im Rahmen der Übungen werden praktische Erfahrungen mit einigen der in der Vorlesung vorgestellten Konzepten gesammelt. Die Aufgaben können auch in kleinen Gruppen (maximal 3 Teilnehmer) gelöst werden. Geben Sie bei der Abgabe alle Gruppenmitglieder an.

Es wird ca. alle 14 Tage ein Übungsblatt geben, das zu lösen ist. Die Übungsaufgaben werden dann zu einem bestimmten Termin diskutiert, wobei einige Gruppen aufgefordert werden, ihre Lösungen zu präsentieren.

Es wird erwartet, daß pro Gruppe mindestens eine Person anwesend ist, und daß Sie in der Lage sind, jedes abgegebene Beispiel im Rahmen der Übungen zu präsentieren. Sollten Sie dazu aus irgendwelchen Gründen nicht in der Lage sein, müssen Sie das rechtzeitig bekannt geben.

Beurteilung

Die Absolvierung der Übungen ist nicht verpflichtend, Sie können jedoch Bonuspunkte erwerben, die auf die Klausurnote angerechnet werden. Verbesserungen bis zu einem Notengrad sind möglich. Die Klausur muß jedoch unabhängig von den Übungspunkten bestanden werden. Im Sommersemester 2011 wird es 6 Übungen geben, die jeweils mit 10 Punkten plus 2 möglichen Bonuspunkten bewertet werden. Die Summe der Übungspunkte wird in Klausurpunkte umgerechnet, so daß die maximal erreichbare Punktzahl (60) für einen Notensprung reicht.

Achtung: In der Vergangenheit mußten wir leider feststellen, daß einige Lösungen zur Gänze aus nicht angegebenen Quellen im Internet bzw. aus Lösungen des Vorjahres kopiert wurden. Wir werden dies auch weiterhin kontrollieren. Wir weisen Sie nochmals darauf hin, daß diese Übungsabgaben als Teil Ihrer Prüfungsleistung anzusehen sind. Ein Betrugsversuch bei der Prüfungsleistung führt automatisch zu einer negativen Gesamtbeurteilung für diese Vorlesung. Geben Sie daher nur ab, wenn Sie Ihre Lösungen selbst erstellt haben.

Bei der Vorlesungsklausur werden keine Programmier-Kenntnisse erwartet!

Abgabe

Die Abgabe wird als ZIP-Archiv mit dem Namen abgabe1.zip (bzw. abgabe2.zip usw.) auf der Web Mining Upload-Seite mit dem RBG-Account hochgeladen. Dabei kann jedes Team nur eine Abgabe hinterlegen. Die Datei, die zuletzt von einem Teammitglied hochgeladen wurde, wird dann als Abgabe des Teams genommen.

Das ZIP-Archiv soll folgendes enthalten:
  • das Lösungsdokument: eine PDF-Datei (z.B. abgabe_1.pdf), die die Lösungen der Aufgaben darstellt. Das Dokument muss keine spezielle Form haben, es sollte sich für eine Präsentation in der Übung eignen. (Unter Windows lassen sich PDF-Dokumente leicht mit dem virtuellen Druckertreiber PDFCreator erzeugen.)
  • zusätzliche Ergebnisdateien, die Teile der Lösung darstellen, welche zu groß sind, um sie sinnvoll im Lösungsdokument zu integrieren, etwa größere Listen und Tabelle.
  • die Quelldateien der Programme, welche zur Lösung der Aufgaben implementiert wurden.
  • die Beispieldateien, auf die die Programme angewandt wurden und auf die sich das Lösungsdokument bezieht. Für die Analyse von Web-Seiten sollten diese als Offline-Kopie vorliegen.
Bei der Gestaltung des Lösungsdokument beachten Sie bitte folgende Hinweise:
  • Die Lösung muss ohne mündliche Erklärung nachvollziehbar sein, d.h. sie muss genügend Erläuterungen und Ausführungen enthalten. Eine reine Ansammlung von Graphiken und Tabellen ohne jegliche Begleittexte ist hierfür z.B. nicht ausreichend.
  • Die Dateien zusätzlich zur PDF-Datei sollten nur zum Nachweis oder für Detailfragen zur Verfügung stehen. Eine vollständige Bewertung sollte allein anhand der PDF-Datei möglich sein.
  • Tabellen, Diagramme, Graphen, Code-Listings, Abbildungen jeglicher Art müssen vollständig beschriftet sein, d.h. sie müssen zumindest direkt an der Abbildung eine kurze Beschreibung enthalten und ausreichend kommentiert sein. Im Falle z.B. von Achsen bei einem Graphen müssen diese vollständig beschriftet sein.
  • Die Beispieldateien, auf die sich eine Analyse, Tabelle oder Graphik bezieht, müssen immer angegeben werden.
  • Bitte keine längeren Code-Listings einfügen, stattdessen auf die konkrete Quelldatei verweisen.
  • In PDF-Dateien lassen sich Links auch auf lokale Dateien setzten.

Programmierung

Zur Lösung der Aufgaben wird es im Allgemeinen notwendig sein, zu programmieren. Im Zentrum der Ausarbeitung eines Übungsbeispiels sollte die Beantwortung der gestellten Fragen sein. Das Programm, das Sie zur Beantwortung dieser Fragen schreiben, ist nur Mittel zum Zweck und nur von sekundärem Interesse. Dementsprechend bleibt es Ihnen überlassen, welche Programmier-Werkzeuge Sie verwenden.

Wir würden die Verwendung von Python oder Perl empfehlen, da für beide Sprachen eine große Sammlung von Bibliotheken zur Behandlung von Verarbeitung von Text- und Web-Dokumenten.

Python

Im folgenden sind einige für die Übung relevante Python-Frameworks aufgeführt.

Perl

Eine komfortable Windows-Installation bietet ActivePerl an. Tutorials zu Perl und Beispielprogramme finden Sie zahlreich im Netz, z.B. jenes aus der Web-Mining-Veranstaltung 2006. Perl-Module für alle Lebenslagen finden sie im CPAN Archive. Eine empfehlenswerte Sammlung von praktischen Bausteinen ist das Perl Cookbook. Perl-Module installieren Sie am einfachsten mit perl -MCPAN -e shell und dann mit install modul-name.

Javascript und Firefox-Addons

Firefox-Addons sind, insbesondere wenn man eins der zahlreichen Javascript-Framework verwendet, sehr leicht zu programmieren und erlauben eine Vielzahl von nützlichen Anwendungen auf Webseiten.
 

Diagramme

Sie können zum Erstellen der Graphen jedes beliebige Werkzeug heranziehen. Aufgrund der großen Datenmengen ist jedoch ein automatisiertes Plotten der Daten empfehlenswert.

  • matplotlib (Python): Umfangreiche Bibliothek zum Erstellen von Plots orientiert sich in seiner Funktionsweise an matlab.
  • jfree (Java): Umfangreiche Bibliothek zum Erstellen von Plots
  • gnuplot: Tool zum Erstellen von Plots. Vielleicht gibt es auch Wrapper zu Python und anderen Sprachen.
  • r-project: R ist eine Sprache und Umgebung für statistische Berechnungen und Grafiken.
  • graphviz: Tool zum Zeichnen von (un)gerichteten Graphen. Ein Python Wrapper existiert.

Weitere nützliche Links

  • svn: Zentrale Versionsverwaltung (VCS) - benötigt einen Server
  • mercurial: Dezentrales VCS - benötigt keinen Server
  

 

Übungsaufgaben

Übungsblatt 1

Übungsblatt 2

Übungsblatt 3

Übungsblatt 4

Übungsblatt 5

Übungsblatt 6

Ansprechpartner

Eneldo Loza Mencía, Clemens Dörrhöfer

A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang