Diplom-, Master-, Bachelor- oder Studienarbeiten

Im Fachgebiet Knowledge Engineering (Prof. J. Fürnkranz) werden zur Zeit folgende Themen für studentische Arbeiten angeboten. Die meisten Themen eignen sich sowohl für Master-, als auch für Studien- oder Bachelor-Arbeiten, wobei bei letzteren natürlich eine etwas weniger tiefe Behandlung des Themas erwartet wird.

Als Vorkenntnisse werden absolvierte Vorlesungen bzw. praktische Erfahrung in machinellem Lernen, Data Mining oder einem verwandten Gebiet erwartet.

Die Themen-Liste ist keineswegs vollständig und Sie sind auch herzlich eingeladen, selbst Themen vorzuschlagen. Am Fachgebiet findet auch regelmäßig ein Ober-Seminar statt, in dem laufende oder gerade fertig gestellte Arbeiten vorgestellt werden.

Antworten auf häufig gestellte Fragen zu Abschlußarbeiten finden Sie in unserer FAQ.

All theses can be written in English (in fact, this is strongly encouraged). English descriptions of individual topics are available upon request. Prior coursework or practical experience in machine learning, data mining or similar is expected.

 Regel-Lernen

Implementierung des SeCo-Regel-Lern-Frameworks in Python

Ansprechpartner: JF

Scikit-learn ist ein Framework für maschinelles Lernen, das sich zunehmend grösserer Beliebtheit erfreut. Eine grosse Zahl von Lern-Algorithmen sind bereits implementiert, jedoch noch kein Regel-Lerner. Aufgabe dieser Arbeit ist es, eine im Fachgebiet bereits vorhandene Java-Implementierug des SeCo-Lern-Frameworks auf Python zu portieren und in in scikit-learn zu integrieren. Dabei soll auch ein gründliches Code-Review vorgenommen werden. Exzellente Python-Kenntnisse sind Voraussetzung für diese Arbeit.

Präferenz-Lernen

Unifying Pairwise Object and Label Ranking

Ansprechpartner: JF

Object Ranking ist die Aufgabe, eine Menge von Objekten, die durch Merkmale beschrieben sind, in eine Reihung zu bringen. Label Ranking ist dagegen die Aufgabe, für eine Menge von Objekten abhängig von einem Kontext in eine Reihung zu bringen. Hier wird der Kontext durch Merkmale beschrieben, die zugeordneten Objekte jedoch nur durch einen Identifier, i.e., durch ein Label.

Aufgabe dieser Diplomarbeit ist es, ein Szenario zur Unifikation beider Ansätze zu implementieren, zu testen und ggf. auch weiterzuentwickeln. Die Grundidee hierbei ist es, ein Prädikat p(c,o1,o2) zu lernen, welches angibt, das im Kontext c das Objekt c1 dem Objekt c2 vorgezogen wird. Zum Lernen diese Prädikats kann auf bestehende Lernalgorithmen zurückgegriffen werden. Die Evaluierung soll einen Vergleich mit Label Ranking und Object Ranking beinhalten und soll sowohl auf reellen Daten (z.B. dem Sushi-Datensatz) als auch auf zu erstellenden künstlichen Daten erfolgen.

Predicting Partial Orders

Ansprechpartner: JF

Präferenz-Lern-Algorithmen zum Lernen aus Label-Präferenzen sagen für einen neuen Datenpunkt eine totale Ordnung aller möglichen Präferenzen voraus. Durch eine Reduktion auf eine Multilabel-Klassifikationsproblem läßt sich jedoch auch eine partielle Ordnung vorhersagen. Aufgabe dieser Diplomarbeit ist die Implementierung und das Testen dieser Methode, insbesondere für den Spezialfall von Klassifikationsdaten.


    Machine Learning

    Correlation-based classification

    Ansprechpartner: JF

    Correlation clustering describes the problem of finding a clustering of datapoints when the points are not described with features but with a correlation matrix that indicates pairwise similarities between points. The goal of this thesis is to survey this family of techniques and identify methods that could be extended into a supervised or semi-supervised learning framework, where class labels are available for all or some of the points.

    Data Mining

    Competitions im Data Mining

    Im Bereich des Data Mining gibt es eine Vielzahl an Wettbewerben, Competitions und Challenges. Ein jährlicher Wettbewerb, an dem die Knowledge Engineering Group regelmäßig teilnimmt, ist der  Data Mining Cup. Dabei werden besonders Vorhersageprobleme aus dem Feld der Recommender Systeme gestellt. Ein weiterer Wettbewerb, diesmal aus dem Bereich der Künstlichen Intelligenz, ist die Computer Poker Competition. Die Teilnahmen fanden jeweils im Rahmen eines Praktikums statt.

    Wir möchten Studierenden die Möglichkeit geben, auch an weiteren interessanten Wettbewerben im Bereich des Data Mining und der Künstlichen Intelligenz teilnehmen zu können. Dies wird im Normalfall im Rahmen einer Studienarbeit stattfinden, aber je nach Aufwand und Vor- und Nacharbeit ist auch eine Bachelor- oder Masterarbeit oder ein Projektpraktikum denkbar.

    Im Folgenden stellen wir eine kleine Liste laufender bzw. abgeschlossener (soweit aktualisiert) Wettbewerbe statt:

    Weitere Möglichkeiten, um sich über aktuelle Wettbewerbe zu informieren, bieten:

    Web Mining

    Identifikation von fachspezifischen Merkmalen von wissenschaftlichen Arbeiten

    Ansprechpartner: JF

    Aufgabe dieser Arbeit ist es, anhand eines Korpus von deutschsprachigen Dissertationen der TU Darmstadt Unterschiede zwischen verschiedenen Fachkulturen zu identifizieren. Grundlage dafür ist das Trainieren von Klassifizierern, die eine Zuordnung von Texten zu Fachgebieten vornehmen können. Die Menge der Merkmale, auf deren Basis diese Zuordnung erfolgen soll, soll im Rahmen dieser Arbeit systematisch variiert werden. Verwendet werden können z.B. der gesamte Text, Teile des Textes (Einleitung, Methoden, Resutlate, Schlussfolgerungen, ...), das Inhaltsverzeichnis, Kapitelüberschriften, die Struktur des Textes, die Verteilung von nicht-fachspezifischen Worten, u.v.m. Hier können auch eigene Ideen einfliessen. Gegebenenfalls kann auch ein eigener, groesserer Korpus erstellt werden. Ziel der Arbeit ist es, fachspezifische Merkmale von wissenschaftlichen Arbeit zu identifizieren. Die Arbeit wird in Zusammenarbeit mit Prof. Marcus Müller vom Institut für Sprach- und Literaturwissenschaften angeboten.

    Game Playing

    Vorhersage von Spielzuständen für General Video Game Playing (GVGP)

    Ansprechpartner: TJ

    Unter General Video Game Playing versteht man das Spielen mehrerer unterschiedlicher Videospiele durch den gleichen Agenten. Anders als bei Schach, Go oder Poker kann hier nicht auf spielspezifisches Wissen zurückgegriffen werden, sondern muss ein möglichst allgemeiner Agent entwickelt werden, der in der Lage ist unterschiedlichste Spiele zu spielen.
    Die General Video Game AI Competition (GVGAI) ist ein von Google Deepmind unterstützter internationaler Wettbewerb, in welchem Agenten auf unterschiedlichen Spielen, die sie vorher nicht kannten, gegeneinander antreten. Die Spiele sind in einem einheitlichen Framework, der Video Game Description Language (VGDL) implementiert.
    Das Ziel dieser Arbeit ist es ein abstraktes Modell für Spiele zu entwickeln, sodass Vorhersagen im Stil von "Was passiert, wenn ich {Aktion X} mache?" gemacht werden können.
    Wir nehmen seit mehreren Jahren erfolgreich an dem Wettbewerb teil und gehören zu den Titelfavoriten kommender Wettbewerbe. 
    Wissen über GVGAI und VGDL ist in unserer Gruppe vorhanden, ebenso klare Ideen wie solch ein Modell erstellt werden kann. Wir sind aber auch offen für andere Ideen.
     
     

    Deep Learning for Chess

    Ansprechpartner: JF

    The goal of this thesis is to test the potential of convolutional neural networks in the domain of chess. There are several tasks that need to be performed, such as the development of an auto-encoder that is able to compress and reconstruct chess position. A similar architecture that is trained to predict the board n moves in advance could, e.g., be used to make positional judgements. The main task is to find a suitable input representation (e.g. the raw board position, a bitmap board configuration consisting of 12 bit arrays, or other choices), a suitable deep network architecture, and the selection of suitable positions for training the network (a database with several million chess games is available). For this thesis you should have a good working knowledge of either chess playing or deep learning.

    Classification of chess annotations

    Ansprechpartner: JF

    Chess games are often annotated by strong grandmasters. On the one and, they rely on a standardized symbol set for annotating whether a position is good or bad for the white or black player. On the other hand, however, they also often write plain text. The task of this thesis is to investigate to what extent such plain text annotations can be mapped to position evaluations. To do so, the first task is to extract texts with associated position evaluations from game databases. This dataset can the be used to evaluate standard sentiment classification techniques, or to train a tailor-made text classifier for this task.

    Wissensgewinn aus Spiel-Datenbanken

    Ansprechpartner: JF

    Zu einer stetig wachsenden Anzahl von Spielen gibt es wertvolle Informationen in Datenbanken. Zum einen wurden viele Spiele bereits durch vollständige Enumeration gelöst, d.h. man weiss für jede mögliche Stellung (und damit auch für die Ausgangsstellung), ob die Stellung gewonnen oder verloren ist bzw. wie viele Züge man bis zum Gewinn benötigt. Zum anderen werden immer mehr Spiele zwischen menschlichen Gegnern aufgezeichnet und in Datenbanken gespeichert.

    Derartige Datenbanken sind ein Parade-Beispiel für die Aufgabe von Data Mining: In den Daten steckt alle Information, die notwendig ist, um das Spiel perfekt (im Falle von vollständigen Datenbanken) oder sehr gut zu spielen (im Falle von Partiensammlungen von guten Spielern). Dennoch ist es angesichts der Fülle der Daten menschlichen Experten zumeist unmöglich, aus dieser Information explizites, formalisierbares Wissen zu gewinnen.

    Eine Abschlussarbeit zu diesem Thema hätte die Aufgabe, aus einer relativ kleinen Datenbank (z.B. das König-Turm-König Endspiel im Schach) Wissen über das Spiel zu gewinnen, das in einer wohldefinierten Aufgabe zu einer Performanz-Steigerung führt. Solche Aufgaben können z.B. sein: einfache Konzepte zu lernen, mit deren Hilfe ein Programm seine Spielstärke verbessern kann, unter Verwendung häufig auftretender Muster eine bessere Komprimierung der Datenbank zu erreichen, etc. Das Hauptproblem, das dabei zu lösen sein wird, ist, geeignetes Hintergrundwissen zu definieren, mit deren Hilfe sinnvolle Konzepte repräsentiert werden können, sowie Data Mining Methoden so zu adaptieren, das sie dieses Wissen effizient nutzen können.

    UCT*

    Ansprechpartner: JF

    UCT ist ein Algorithmus, der klassische Spielbaum-Suche mit einer stochastischen Monte-Carlo Suche kombiniert. B* ist ein auf A* basiserendes Such-Verfahren, dessen Grundidee es ist, den möglichen Wertebereich einer Variante durch eine obere und untere Schranke einzuschränken.

    Aufgabe dieser Master-Arbeit ist es, eine intervall-basierte Version des UCT-Algorithmus zu entwickeln und zu testen. Die ''ProveBest'' and ''DisproveRest'' Strategien  von B* sollen dabei für Monte-Carlo-Suche angepaßt werden. Dadurch läßt sich eine dynamisches Abbruch-Kriterium für die Monte-Carlo Iterationen realisieren.

    Literatur:

    • Hans J. Berliner, Chris McConnell: B Probability Based Search. Artificial Intelligence 86(1): 97-156 (1996)
    • Hans J. Berliner: The B* Tree Search Algorithm: A Best-First Proof Procedure. Artificial Intelligence 12(1): 23-40 (1979)
    • G.M.J-B. Chaslot, M.H.M. Winands, J.W.H.M. Uiterwijk, H.J. van den Herik, and B. Bouzy. Progressive strategies for Monte-Carlo Tree Search. New Mathematics and Natural Computation 4(3), 2008.

    Künstliche Intelligenz in kommerziellen Computer-Spielen

    Ansprechpartner: JF

    Die kommerzielle Spiele-Industrie beginnt gerade Methoden der Künstlichen Intelligenz zu entdecken, um den Unterhaltungswert ihrer Spiele zu steigern. Die Expertise für die KI-Methoden ist bei uns vorhanden, die Expertise für die Spielanwendung müßten Sie mitbringen. Wenn Sie eine Idee für ein diesbezügliches Projekt haben, können wir gerne darüber sprechen, ob sich dieses für eine Master- oder Bachelor-Arbeit eignet.

    Materialien:

    Predictive Maintenance 

    Ansprechpartner: SK

     Predictive Maintenance befasst sich mit der Problematik, Wartungsvorgänge auf den individuellen Verschleiss einer Maschine anzupassen, um unnötige Wartungen zu vermeiden. Dafür werden die betroffenen Systeme permanent überwacht, und ein Datenstrom mit Zustandsmessungen erzeugt. Diesen Datenstrom verarbeiten wir mit Machine-Learning Methoden, um Ausfälle von Komponenten vorherzusagen. 
    Als Datenbasis stehen mehrjährige Aufzeichnungen einer 400 Lokomotiven grossen Flotte zur Verfügung. Aufgrund von teilweise großen Unterschieden innerhalb der Flotte, was die Fahrleistung der einzelnen Züge, deren genaue Systemcharakteristik und das Zusammenspiel der verschiedenen Systeme auf dem Zug betrifft, ist es nicht trivial, das Vorhersagemodell für eine spezielle Schadensart als binäres Klassifizierungsproblem 
    darzustellen. Erschwerend kommt noch eine ungleiche Verteilung der Klassen hinzu, da Fehlerfälle nur relativ selten auftreten.

    Hierzu bieten wir bei Interesse am Thema studentische Arbeiten an. Individuelle Themen sind möglich, und Themenvorschläge gern gesehen. Bei Interesse oder Fragen wenden Sie sich bitte an kauschke@ke.tu-darmstadt.de.

    Anforderungen:

    • Kenntnisse im maschinellen Lernen
    • Erfahrung im Umgang mit WEKA von Vorteil
    • Grundlegende Programmierkenntnisse in Java
    • Analytisches Denkvermögen und systematische Arbeitsweise

    Adaptive Patching: Self-adaptive Learning

    Ansprechpartner: SK
     

    In einem Klassifikationsszenario ist häufig folgende Situation vorherrschend:
    Es müssen permanent neue Instanzen ausgewertet werden, aber die korrekten Labels zu
    diesen Instanzen sind erst zeitverzögert einsehbar, oder im schlimmsten Fall gar nicht. Das
    von uns entwickelte Patching-Framework arbeitet auf diesen Batches von Daten, um einen
    Klassifizierer damit iterativ zu verbessern. Es ist aber darauf angewiesen, dass irgendwann
    die korrekten Labels vorhanden sind, um den Klassifizierer zu verbessern. Basierend auf
    diesem System soll eine Methode entwickelt werden, die eine kontinuierliche Verbesserung
    (z.B. basierend auf Wahrscheinlichkeiten) erreicht, und diese dann verifiziert oder
    korrigiert, sobald die wahren Labels einsehbar sind.

    Time Series Patching

    Ansprechpartner: SK

    Das von uns entwickelte Patching Framework zur iterativen Verbesserung von Klassifizierern soll auf die Klassifikation von Zeitreihen erweitert werden. In Szenarios, die auf Zeitreihen basieren (z.B. mit kontinuierlichen Messwerten von Sensoren einer Maschine), können Änderungen im Verhalten der Zeitreihe auftreten. Diese können saisonal bedingt sein, oder wenn man versucht, ein auf Maschinentyp A gelerntes Modell auf einen neuen Maschinentyp B anzuwenden. Ein Zeitreihen-Klassifizierer soll entwickelt werden, der die prinzipielle Funktionsweise von Patching auf Zeitreihenprobleme einsetzen kann, um Zeitreihenklassifikation iterativ anzupassen.

    Learning of behaviour switching situations

    Ansprechpartner: SK

    Wenn mehrere Benutzer eine Software oder ein System benutzen, zeichnen sich häufig spezielle Verhalten der Individuen ab. Zum Beispiel wird Person A beim Fahren eines Fahrzeuges ein anderes Verhalten bezüglich Spurwechsel und Fahrverhalten aufweisen als Person B. Gegeben dem Falle, dass ein Assistenzsystem zur Unterstützung des Fahrers vorhanden ist, welches diesen beispielsweise vor kritischen Situationen warnt, muss dieses System auf die individuellen Eigenheiten des Fahrers angepasst werden. Nutzen jedoch mehrere Personen das gleiche Fahrzeug, ist dies für normale Lernalgorithmen verwirrend, sofern man nicht explizit die nutzende Person als Lernparameter hinzufügt. Das Ziel dieser Arbeit soll sein, individuelle Anpassung an das Verhalten verschiedenartiger Nutzer/Fahrer basierend auf einem gemeingültigen Grundmodell vorzunehmen, und zu erkennen, wann welches Modell aktiviert werden muss, um reibungslose Nutzungsszenarien zu ermöglichen.

    Deep Learning zur automatisierten Featureextraktion

    Ansprechpartner: SK

    Deep Learning ist momentan ein sehr hoch gehandeltes Thema. Eine der stärken von Deep
    Learning besteht unter anderem darin, dass man den Anteil des Feature-Engineerings wie
    man es für normales Supervised-Learning betreiben müsste teilweise vernachlässigen kann.
    Ob dies für auch für Problemstellungen gilt, die sich nicht konkret mit Bild- oder Ton-
    Erkennung befassen, und ob sich im Umkehrschluss aus dem Neuronalen Netz hinweise auf
    ein verbessertes Feature Engineering ziehen lassen, soll in dieser Arbeit überprüft werden.

    Keywords: Deep-Learning, Feature-Extraction, Feature-Engineering 

    Ensemble-Lernen von diskreten und kontinuierlichen Zeitreihen zur Vorhersage von Handlungsempfehlungen bei Diabetes Typ 1 Patienten

    Ansprechpartner: SK
    Typ 1 Diabetes ist eine Stoffwechselkrankheit, bei der die körpereigene Regelung der Insulinregulierung beeinträchtigt ist. Als Folge dessen müssen die Betroffenen mehrfach täglich durch Gabe von Insulin diese Regelung manuell vornehmen. Dies ist mit häufigen Messvorgängen und Schätzung der korrekten Insulinmenge anhand der Messergebnisse und den vorgenommenen Mahlzeiten verbunden.
    In dieser Arbeit soll ein historischer Datensatz von Typ 1 Diabetikern (beinhaltet Blutzuckerspiegel und Zeitpunkte sowie Mengenangaben bezüglich der Nahrungsaufnahme/
    Insulingabe) untersucht werden. Das Ziel ist es, basierend aus den Aufzeichnungen des Blutzuckerspiegels und den dazu hinterlegten Aktionen Handlungsempfehlungen für den Betroffenen in zukünftigen Szenarien zu generieren. Diese sollen dem Diabetiker dabei helfen, seinen Blutzuckerspiegel möglichst konstant zu halten. Um dieses Handlungsempfehlungs-Modell zu erzeugen, sollen gängige Methoden der Zeitreihenklassifikation und -vorhersage mit den diskreten Daten der aufgezeichneten Aktionen kombiniert werden. Es können herkömmliche Methoden oder auch fortgeschritterene Technologien wie Deep-Learning oder Long Short-Term Memory (LSTM) verwendet werden.
    Du bist selbst betroffener Typ 1 Diabetiker (oder kennst jemanden) und kannst eigene Daten beitragen? Dann ist dieses Thema prädestiniert für dich!

     

      A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
      zum Seitenanfangzum Seitenanfang