Diplom-, Master-, Bachelor- oder Studienarbeiten

Im Fachgebiet Knowledge Engineering (Prof. J. Fürnkranz) werden zur Zeit folgende Themen für studentische Arbeiten angeboten. Die meisten Themen eignen sich sowohl für Diplom- und Master-Arbeiten, als auch für Studien- oder Bachelor-Arbeiten, wobei bei letzteren natürlich eine etwas weniger tiefe Behandlung des Themas erwartet wird, bzw. Themen eventuell auch zu zweit behandelt werden können.

Die Themen-Liste ist keineswegs vollständig und Sie sind auch herzlich eingeladen, selbst Themen vorzuschlagen. Am Fachgebiet findet auch regelmäßig ein Ober-Seminar statt, in dem laufende oder gerade fertig gestellte Arbeiten vorgestellt werden.

Antworten auf häufig gestellte Fragen zu Abschlußarbeiten finden Sie in unserer FAQ.

All theses can be written in English (in fact, this is strongly encouraged). English descriptions of individual topics are available upon request.

 

Data Mining

Data Mining for Predicting Future Growth of Slums

Ansprechpartner: JF

Within recent years, urbanization in developing countries led to the development of mega cities with more than 10 million inhabitants. There is a rising need to provide different ways of water supply networks in slums of big cities. For this, the first question that arises is to identify slums and factors that influence the development of slums. Task of this thesis, which is offered in collaboration with the Institute for Fluid Systems, is an assessment whether data mining methods can help to identify such factors. Tasks that have to be tackeld in the thesis are the identification of suitable source data, the proposal of suitable data mining and machine learning methods for their analysis, and an evaluation and discussion of the results. Ideally, the thesis should lead to the discovery of patterns which trigger urbanisation and developing of slums in mega cities.

Outlier Detection in Satellite Data

Ansprechpartner: JF

An important and tedious task in the monitoring of satellite data is to recognize abnormal behavior of the satellite from the sensor information that is transmitted from the satellite to the ground. For this task, time series of up to 40,000 parameters of different degrees of relevance have to be manually screened by ground staff. A domain expert usually looks at about 50 of them in order to recognize potential outliers. In addition, known and unknown external events may cause abnormal behavior the sensors (e.g.,Was the satellite in the sun or in the earth shadow?Was some on-board equipment like the camera turned on?). While such outliers do not constitute abnormal behavior, they are nevertheless interesting to detect, in particular if a suitable explanation can be found.

The main task of this thesis is to develop automated support for this task via data mining and machine learning algorithms, in particular with outlier detection and subgroup discovery techniques. The work will be conducted in cooperation with Solenix, a proficient startup company targeting the space industry, in particular the European Space Agency ESA/ESOC.

Prerequisites

Ideally, a student working on this thesis should bring

  • Basic knowledge in machine learning and data mining (at least one course in these areas)
  • Practical experience with data mining tools such as Weka or RapidMiner
  • Good communication skills (English) that facilitate working in the intersection between TU Darmstadt and the Solenix company

Competitions im Data Mining

Im Bereich des Data Mining gibt es eine Vielzahl an Wettbewerben, Competitions und Challenges. Ein jährlicher Wettbewerb, an dem die Knowledge Engineering Group regelmäßig teilnimmt, ist der  Data Mining Cup. Dabei werden besonders Vorhersageprobleme aus dem Feld der Recommender Systeme gestellt. Ein weiterer Wettbewerb, diesmal aus dem Bereich der Künstlichen Intelligenz, ist die Computer Poker Competition. Die Teilnahmen fanden jeweils im Rahmen eines Praktikums statt.

Wir möchten Studierenden die Möglichkeit geben, auch an weiteren interessanten Wettbewerben im Bereich des Data Mining und der Künstlichen Intelligenz teilnehmen zu können. Dies wird im Normalfall im Rahmen einer Studienarbeit stattfinden, aber je nach Aufwand und Vor- und Nacharbeit ist auch eine Bachelor- oder Masterarbeit oder ein Projektpraktikum denkbar.

Im Folgenden stellen wir eine kleine Liste laufender bzw. abgeschlossener (soweit aktualisiert) Wettbewerbe statt:

Weitere Möglichkeiten, um sich über aktuelle Wettbewerbe zu informieren, bieten:

    Regel-Lernen

    Überblick und Implementierung von Algorithmen zur Klassifikation mittels Assoziationsregeln

    Ansprechpartner: JF

    In der jüngeren Literatur findet sich eine Anzahl von Algorithmen, die Assoziations-Regel-Lern-Algorithmen einsetzen, um Klassifikationsregeln zu lernen. Aufgabe dieser Diplomarbeit, ist einerseits eine Aufarbeitung der Literatur auf diesem Gebiet (Startpunkte in der Literatur-Liste unten), andererseits eine Implementierung eines prototypischen Algorithmus in einer bereits vorhandenen Regel-Lern-Umgebung.

    Literatur:

    • Branko Kavsek, Nada Lavrac, Viktor Jovanoski: APRIORI-SD: Adapting Association Rule Learning to Subgroup Discovery. Proceedings Intelligent Data Analysis 2003: 230-241
    • Bing Liu, Wynne Hsu, Yiming Ma: Integrating Classification and Association Rule Mining. Proceedings SIGKDD 1998: 80-86
    • Wenmin Li, Jiawei Han, Jian Pei: CMAR: Accurate and Efficient Classification Based on Multiple Class-Association Rules. Proceedings of the IEEE Conference on Data Mining, 2001: 369-376
    • Xiaoxin Yin, Jiawei Han: CPAR: Classification based on Predictive Association Rules. Proceedings SIAM Conference on Data Mining, 2003

    Präferenz-Lernen

    Unifying Pairwise Object and Label Ranking

    Ansprechpartner: JF

    Object Ranking ist die Aufgabe, eine Menge von Objekten, die durch Merkmale beschrieben sind, in eine Reihung zu bringen. Label Ranking ist dagegen die Aufgabe, für eine Menge von Objekten abhängig von einem Kontext in eine Reihung zu bringen. Hier wird der Kontext durch Merkmale beschrieben, die zugeordneten Objekte jedoch nur durch einen Identifier, i.e., durch ein Label.

    Aufgabe dieser Diplomarbeit ist es, ein Szenario zur Unifikation beider Ansätze zu implementieren, zu testen und ggf. auch weiterzuentwickeln. Die Grundidee hierbei ist es, ein Prädikat p(c,o1,o2) zu lernen, welches angibt, das im Kontext c das Objekt c1 dem Objekt c2 vorgezogen wird. Zum Lernen diese Prädikats kann auf bestehende Lernalgorithmen zurückgegriffen werden. Die Evaluierung soll einen Vergleich mit Label Ranking und Object Ranking beinhalten und soll sowohl auf reellen Daten (z.B. dem Sushi-Datensatz) als auch auf zu erstellenden künstlichen Daten erfolgen.

    Predicting Partial Orders

    Ansprechpartner: JF

    Präferenz-Lern-Algorithmen zum Lernen aus Label-Präferenzen sagen für einen neuen Datenpunkt eine totale Ordnung aller möglichen Präferenzen voraus. Durch eine Reduktion auf eine Multilabel-Klassifikationsproblem läßt sich jedoch auch eine partielle Ordnung vorhersagen. Aufgabe dieser Diplomarbeit ist die Implementierung und das Testen dieser Methode, insbesondere für den Spezialfall von Klassifikationsdaten.

      Word Sense Alignment anhand von Präferenzen-Lernen

      Ansprechpartner: ELM
       
      Sense Alignment bezeichnet grob gesprochen das Zuordnen von Bedeutungen eines Wortes von einem Wörterbuch zu der semantisch zutreffenden Bedeutung eines Wortes in einem anderen Wörterbuch. So ist die Zuordnung von "Kiefer (Föhre)" aus openthesaurus.de zu "Kiefer (Botanik)" aus wiktionary.org sicherlich korrekt, während "Kiefer (Föhre)" zu "Kiefer (Knochen)" eine falsche Zuordnung darstellt. Im UKP Lab werden derzeit Verfahren erforscht, die anhand von semantischen Ähnlichkeiten zwischen den Beschreibungen automatisch Sprachresourcen wie wiktionary und WordNet miteinander verbinden. Aktuell wird hierfür semi-statisch ab einem bestimmten Wert der Ähnlichkeit zwischen zwei Bedeutungen die Zuordnung durchgeführt.

      Das Ziel dieser Arbeit ist es, Techniken aus dem Präferenzlernen anzuwenden, um dieses Problem zu lösen. So kann man die Zuordnung von "Kiefer (Föhre)" zu "Kiefer (Botanik)" und nicht "Kiefer (Knochen)" natürlicherweise als Präferenz modellieren. In Zusammenarbeit mit UKP soll untersucht werden, welches Präferenzmodell zu verwenden ist und wie es im Vergleich zur statischen Methode abschneidet.

       
      Referenzen:
      • Christian M. Meyer and Iryna Gurevych: What Psycholinguists Know About Chemistry: Aligning Wiktionary and WordNet for Increased Domain Coverage, in: Proceedings of the 5th International Joint Conference on Natural Language Processing, (to appear), November 2011. Chiang Mai, Thailand.
       

      Web Mining

      Identifikation von fachspezifischen Merkmalen von wissenschaftlichen Arbeiten

      Ansprechpartner: JF

      Aufgabe dieser Arbeit ist es, anhand eines Korpus von deutschsprachigen Dissertationen der TU Darmstadt Unterschiede zwischen verschiedenen Fachkulturen zu identifizieren. Grundlage dafür ist das Trainieren von Klassifizierern, die eine Zuordnung von Texten zu Fachgebieten vornehmen können. Die Menge der Merkmale, auf deren Basis diese Zuordnung erfolgen soll, soll im Rahmen dieser Arbeit systematisch variiert werden. Verwendet werden können z.B. der gesamte Text, Teile des Textes (Einleitung, Methoden, Resutlate, Schlussfolgerungen, ...), das Inhaltsverzeichnis, Kapitelüberschriften, die Struktur des Textes, die Verteilung von nicht-fachspezifischen Worten, u.v.m. Hier können auch eigene Ideen einfliessen. Gegebenenfalls kann auch ein eigener, groesserer Korpus erstellt werden. Ziel der Arbeit ist es, fachspezifische Merkmale von wissenschaftlichen Arbeit zu identifizieren. Die Arbeit wird in Zusammenarbeit mit Prof. Marcus Müller vom Institut für Sprach- und Literaturwissenschaften angeboten.

      Game Playing

      Deep Learning for Chess

      Ansprechpartner: JF

      The goal of this thesis is to test the potential of convolutional neural networks in the domain of chess. There are several tasks that need to be performed, such as the development of an auto-encoder that is able to compress and reconstruct chess position. A similar architecture that is trained to predict the board n moves in advance could, e.g., be used to make positional judgements. The main task is to find a suitable input representation (e.g. the raw board position, a bitmap board configuration consisting of 12 bit arrays, or other choices), a suitable deep network architecture, and the selection of suitable positions for training the network (a database with several million chess games is available). For this thesis you should have a good working knowledge of either chess playing or deep learning.

      Wissensgewinn aus Spiel-Datenbanken

      Ansprechpartner: JF

      Zu einer stetig wachsenden Anzahl von Spielen gibt es wertvolle Informationen in Datenbanken. Zum einen wurden viele Spiele bereits durch vollständige Enumeration gelöst, d.h. man weiss für jede mögliche Stellung (und damit auch für die Ausgangsstellung), ob die Stellung gewonnen oder verloren ist bzw. wie viele Züge man bis zum Gewinn benötigt. Zum anderen werden immer mehr Spiele zwischen menschlichen Gegnern aufgezeichnet und in Datenbanken gespeichert.

      Derartige Datenbanken sind ein Parade-Beispiel für die Aufgabe von Data Mining: In den Daten steckt alle Information, die notwendig ist, um das Spiel perfekt (im Falle von vollständigen Datenbanken) oder sehr gut zu spielen (im Falle von Partiensammlungen von guten Spielern). Dennoch ist es angesichts der Fülle der Daten menschlichen Experten zumeist unmöglich, aus dieser Information explizites, formalisierbares Wissen zu gewinnen.

      Eine Abschlussarbeit zu diesem Thema hätte die Aufgabe, aus einer relativ kleinen Datenbank (z.B. das König-Turm-König Endspiel im Schach) Wissen über das Spiel zu gewinnen, das in einer wohldefinierten Aufgabe zu einer Performanz-Steigerung führt. Solche Aufgaben können z.B. sein: einfache Konzepte zu lernen, mit deren Hilfe ein Programm seine Spielstärke verbessern kann, unter Verwendung häufig auftretender Muster eine bessere Komprimierung der Datenbank zu erreichen, etc. Das Hauptproblem, das dabei zu lösen sein wird, ist, geeignetes Hintergrundwissen zu definieren, mit deren Hilfe sinnvolle Konzepte repräsentiert werden können, sowie Data Mining Methoden so zu adaptieren, das sie dieses Wissen effizient nutzen können.

      UCT*

      Ansprechpartner: JF

      UCT ist ein Algorithmus, der klassische Spielbaum-Suche mit einer stochastischen Monte-Carlo Suche kombiniert. B* ist ein auf A* basiserendes Such-Verfahren, dessen Grundidee es ist, den möglichen Wertebereich einer Variante durch eine obere und untere Schranke einzuschränken.

      Aufgabe dieser Master-Arbeit ist es, eine intervall-basierte Version des UCT-Algorithmus zu entwickeln und zu testen. Die ''ProveBest'' and ''DisproveRest'' Strategien  von B* sollen dabei für Monte-Carlo-Suche angepaßt werden. Dadurch läßt sich eine dynamisches Abbruch-Kriterium für die Monte-Carlo Iterationen realisieren.

      Literatur:

      • Hans J. Berliner, Chris McConnell: B Probability Based Search. Artificial Intelligence 86(1): 97-156 (1996)
      • Hans J. Berliner: The B* Tree Search Algorithm: A Best-First Proof Procedure. Artificial Intelligence 12(1): 23-40 (1979)
      • G.M.J-B. Chaslot, M.H.M. Winands, J.W.H.M. Uiterwijk, H.J. van den Herik, and B. Bouzy. Progressive strategies for Monte-Carlo Tree Search. New Mathematics and Natural Computation 4(3), 2008.

      Künstliche Intelligenz in kommerziellen Computer-Spielen

      Ansprechpartner: JF

      Die kommerzielle Spiele-Industrie beginnt gerade Methoden der Künstlichen Intelligenz zu entdecken, um den Unterhaltungswert ihrer Spiele zu steigern. Die Expertise für die KI-Methoden ist bei uns vorhanden, die Expertise für die Spielanwendung müßten Sie mitbringen. Wenn Sie eine Idee für ein diesbezügliches Projekt haben, können wir gerne darüber sprechen, ob sich dieses für eine Master- oder Bachelor-Arbeit eignet.

      Materialien:

      Predictive Maintenance in a railway scenario

      Ansprechpartner: SK

       Predictive Maintenance befasst sich mit der Problematik, Wartungsvorgänge auf den individuellen Verschleiss einer Maschine anzupassen, um unnötige Wartungen zu vermeiden. Dafür werden die betroffenen Systeme permanent überwacht, und ein Datenstrom mit Zustandsmessungen erzeugt. Diesen Datenstrom verarbeiten wir mit Machine-Learning Methoden, um Ausfälle von Komponenten vorherzusagen. 
      Als Datenbasis stehen mehrjährige Aufzeichnungen einer 400 Lokomotiven grossen Flotte zur Verfügung. Aufgrund von teilweise großen Unterschieden innerhalb der Flotte, was die Fahrleistung der einzelnen Züge, deren genaue Systemcharakteristik und das Zusammenspiel der verschiedenen Systeme auf dem Zug betrifft, ist es nicht trivial, das Vorhersagemodell für eine spezielle Schadensart als binäres Klassifizierungsproblem 
      darzustellen. Erschwerend kommt noch eine ungleiche Verteilung der Klassen hinzu, da Fehlerfälle nur relativ selten auftreten.

      Hierzu bieten wir bei Interesse am Thema studentische Arbeiten an. Individuelle Themen sind möglich, und Themenvorschläge gern gesehen. Bei Interesse oder Fragen wenden Sie sich bitte an kauschke@ke.tu-darmstadt.de.

      Anforderungen:

      • Kenntnisse im maschinellen Lernen
      • Erfahrung im Umgang mit WEKA von Vorteil
      • Grundlegende Programmierkenntnisse in Java
      • Analytisches Denkvermögen und systematische Arbeitsweise

      Fahrmanöver-Erkennung und Klassifizierung

      Ansprechpartner: SK

      Im Themengebiet Predictive Maintenance dreht es sich vorwiegend darum, den Zustand einer Maschine und die Notwendigkeit einer Reparaturmaßnahme zu ermitteln. Der Zustand
      lässt sich aber nicht immer nur von aktuellen Meßwerten bestimmen, sondern kann bei
      mobilen Maschinen - wie Lokomotiven - auch davon abhängen, wie diese benutzt werden.
      In dieser Arbeit sollen aus kontinuierlichen Zeitreihen des Fahrbetriebs die einzelnen
      Fahrmanöver (Beschleunigen, Bremsen, etc.) erkannt werden. Durch Zeitreihen-Clustering
      sollen verschiedene Typen von Fahrweisen (rasant, gemächlich) ermittelt werden, um die
      Belastung einer Lokomotive besser beurteilen zu können.

      Keywords: Time-Series Clustering, Time-Series Prediction, Deep Learning 

      Prädiktion von Zentralschraubenbruch

      Ansprechpartner: SK

      In dieser Arbeit soll ein konkreter Schadfall untersucht werden, der aktuell für viel Kopfzerbrechen sorgt: Zentralschraubenbruch. Hierbei handelt es sich um ein wichtiges mechanisches Bauteil, welches eigentlich nicht kaputt gehen sollte. Gelegentlich treten hier dennoch Probleme auf, welche große Folgeschäden verursachen. Anhand von kontinuierlichen Messwerten diverser Sensoren auf der Lokomotive soll ein Vorhersagemodell entwickelt werden, dass Zentralschraubenbruch im besten Fall verhindern kann.

      Keywords: Time-Series Prediction, Multivariate Time Series, Time-Series Classifikation,
      Outlier-Detection 

      Recurrent neural networks mit latenten, unsichtbaren Zuständen zur Vorhersage von Schadzuständen

      Ansprechpartner: SK

      Die Lokomotiven der Baureihe 185 zeichnen ein stetes Logfile auf, welches alle Aktionen
      innerhalb der Lokomotive und diverse Systemmeldungen der Komponenten derselbigen
      enthält. Es besteht die Annahme, dass Ablauf-Kombinationen dieser Meldungen bestehen,
      die auf einen zukünftigen Schaden hindeuten und mithilfe deren man diesen verhindern
      könnte.

      Mittels eines Recurrent Neural Network kombiniert mit Hidden Markov Model soll ein
      hybrides Zustands-Vorhersagemodell gelernt werden, welches die latenten Zustände die
      dem Betrachter nicht erkennbar sind, abbildet und diese für die Vorhersage von Schadfällen
      nutzt.

      Keywords: Recurrent Neural Networks, Deep Learning, Hidden Markov Model, DNNHMM 

      Deep Learning zur automatisierten Featureextraktion

      Ansprechpartner: SK

      Deep Learning ist momentan ein sehr hoch gehandeltes Thema. Eine der stärken von Deep
      Learning besteht unter anderem darin, dass man den Anteil des Feature-Engineerings wie
      man es für normales Supervised-Learning betreiben müsste teilweise vernachlässigen kann.
      Ob dies für auch für Problemstellungen gilt, die sich nicht konkret mit Bild- oder Ton-
      Erkennung befassen, und ob sich im Umkehrschluss aus dem Neuronalen Netz hinweise auf
      ein verbessertes Feature Engineering ziehen lassen, soll in dieser Arbeit überprüft werden.

      Keywords: Deep-Learning, Feature-Extraction, Feature-Engineering 

      Adaptive Modellanpassung zur Individualisierung von Standardmodellen

      Ansprechpartner: SK

      Um den Zustand einer Maschine oder eines Fahrzeuges beurteilen zu können, muss ein
      Modell konstruiert werden. Im Regelfall kann man annehmen, dass z.B. die Lokomotiven
      einer gleichen Baureihe ähnliche Verhaltensweisen aufzeigen. Demnach würde man ein
      Modell am besten auf allen Maschinen der Flotte trainieren, um eine optimale Datenlage
      zu ermöglichen.

      Das Einsatzgebiet oder die Einsatzbedingungen der individuellen Maschine können aber
      durchaus vom Durchschnittsmodell abweichen. In dieser Arbeit gilt es zu Untersuchen, ob
      bei Lokomotiven von DB Schenker eine solche Diskrepanz besteht. Danach soll ein Verfahren
      entwickelt werden, mit dem ein bestehendes Modell individuell an eine Lokomotive
      angepasst werden kann, ohne dass es sich zu weit vom Basismodell entfernt, und wesentliche Grundfunktionalitäten des Basismodells verloren gehen. Auch für Themen wie
      Idealerweise sind Deep-Learning Kenntnisse oder Interesse an DNN vorhanden. Concept Drift verursacht durch Jahreszeitenwechsel kann ein solches Modell relevant sein.

      Keywords: Concept Drift, Model Adaptation, Individual Model, Deep-Learning

        A A A | Drucken | Impressum | Sitemap | Suche | Mobile Version
        zum Seitenanfangzum Seitenanfang