Data Mining Cup 2011

Praktikum aus maschinellem Lernen und Data Mining (4 SWS)

LVA 20-00-0103-pr im Vor­lesungsverze­ich­nis der TU Darm­stadt, SS 11.

Das Studententeam der TU-Darmstadt hat sehr erfolgreich am diesjährigen Data Mining Cup teilgenommen und den 2., 6., 8. und 10. Platz belegt. Die Abschlussvorträge zu den erarbeiteten Lösungen werden am Dienstag, den 5.7.11 ab 15 Uhr in A213 vorgestellt und jeder Interessierte ist herzlich zu den Präsentationen eingeladen.

Vorbesprechung

Die Vorbe­sprechung findet am Dienstag, den 15.3.2011 um 16:00 Uhr in S202/E202 statt.​ Während des Semesters findet der Termin voraussichtlich mittwochs statt.

In­halt und Ablauf

Im Zuge dieses Prak­tikums wer­den wir am Data Min­ing Cup teilnehmen.​ Der Data Min­ing Cup ist ein internationaler Wet­tbe­werb für Studenten.​ Dabei muß eine fest­gelegte Data Min­ing Auf­gabe gelöst werden.​ In den letzten Jahren wurden vorzugsweise reelle Daten aus dem Verkauf analysiert, so sollten u.a. Buchverkäufe, Gutscheineinlösungen, Auktionspreise und Zahlungsausfälle vorhergesagt werden. Die diesjährige Auf­gabe wird am 15.​ April 2011 veröffentlicht.​ Die bis 31.​5.​ eingesandten Lösun­gen wer­den gesam­melt und von den Ve­r­anstal­tern an­hand einer Test-Menge, deren Ausgänge vorher un­bekan­nt sind, evaluiert.

Auf­gabe des Prak­tikums ist Ausar­beitung und Ein­re­ichung einer Lösung für den Data Min­ing Cup.​ Die Haup­tar­beit wird dabei in den er­sten Wochen des Som­mersemesters an­fall­en, in denen Sie die Lösung er­ar­beit­en müssen.​ Die einzel­nen Lösun­gen sollen dann im Zuge des weit­eren Ver­laufs des Prak­tikums (noch vor Bekan­nt­gabe der of­fiziellen Lösung) doku­men­tiert und im Rah­men von Vorträgen vorgestellt wer­den.

Das Prak­tikum be­gin­nt schon Mitte März.​ Die Idee ist, daß Sie bis zum Beginn des Wettbewerbs Auf­gaben aus den let­zten Jahren bear­beit­en um sich grundlegende Techniken anzueignen und Ihre Lösung dann beim er­sten Tr­e­f­fen im SS vorstellen.​ Während der er­sten Phase der Ausar­beitung der Lösung wer­den in etwa alle zwei Wochen Tr­e­f­fen zum Ideenaus­tausch stat­tfind­en, in der heis­sen Phase des Prak­tikums (während der Laufzeit des Wet­tbe­werbs) wer­den wir uns vo­raus­sichtlich öfters tr­e­f­fen. Am Ende werden die zwei besten Lösungen ermittelt und eingereicht.

Beurteilung

Die Lösun­gen können in Grup­pe­nar­beit (2-3 Teil­nehmer pro Gruppe) er­stellt werden.​ Beurteilt wird Ihr En­gage­ment für das Prak­tikum und die Qualität Ihres Lösungsweges (nicht unbe­d­ingt die Qualität der Lösung selb­st, d.​h.​ das Ab­schnei­den im Wet­tbe­werb ist nicht un­mit­tel­bar noten­rel­e­vant).

Wiki und Forum

Zu der Veranstaltung wird es einen wiki und ein Forum geben. Der wiki ist dazu gedacht Neuigkeiten zu veröffentlichen, sowie Termine bekannt zu geben. Außerdem wird es dort auch allgemeine Informationen geben. Im Forum sollten Fragen zu entsprechenden Problemen, die während des Prozesses auftreten, gestellt und vor allem auch beantwortet werden.

Der Link zum wiki ist: https://www.ke.tu-darmstadt.de/students-wiki/bin/view/DmC/WebHome

Der Link zum Forum ist: https://www.ke.tu-darmstadt.de/students-wiki/bin/view/DmCForum11. Das Forum kann auch direkt über das wiki erreicht werden (siehe Webs).

Lit­er­atur

Die fol­gen­den Ar­tikel könnten für eine er­fol­gre­iche Pro­jekt-Bewälti­gung hil­fre­ich sein:

Tools

Die folgenden Software-Tools stellen Algorithmen und Werkzeuge für das Bearbeiten der Arbeit bereit:
  • Weka: Eins der beliebtesten Frameworks und APIs im Maschinellem Lernen, in Java geschrieben.
  • RapidMiner: Framework ähnlich Weka aus Deutschland mit besserer GUI und weiteren Funktionen, Java.
  • NTLK: Spezialisiert auf Natural Language Processing, stellt aber auch Algorithmen nach Stand der Technik für Python zur Verfügung
  • SVMlight: Gute Implementierung von Support-Vektor-Maschinen, alternatives LibSVM Framework ist auch z.B. in Weka verfügbar.
A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
zum Seitenanfangzum Seitenanfang