14.03.2019
Lösungen für maschinelles Lernen bestehen aus sehr unterschiedlichen Algorithmen und werden auf die unterschiedlichsten Arten trainiert. Berater, Entwickler und Architekten benötigen daher einen Überblick über die vorhandenen Möglichkeiten, um für spezifische Anforderungen gewappnet zu sein. Hier setzt der von msg erarbeitete Machine Learning Catalogue an. Er listet branchenneutral die unterschiedlichen Bausteine auf, erklärt sie und stellt deren Zusammenhang klar und übersichtlich dar. Auch ist der Machine Learning Catalogue als Nachschlagewerk zu verstehen, der Verfahren erläutert, auf die man in Artikeln, Programmen oder Vorlesungen stößt.
Ein Interview über das Konzept mit Richard Hudson, dem Ideengeber des Machine Learning Catalogues.
Was war der Grund für msg, den Machine Learning Catalogue zusammenzustellen?
In unseren ML-Projekten haben wir festgestellt, dass die Suche nach dem richtigen Algorithmus gar nicht so einfach ist. Denn das Internet bietet eine Flut an Informationen zu Machine-Learning-Methoden. Da ist es äußerst schwierig, sich schnell und effektiv zurechtzufinden. Als uns dann klar wurde, dass nicht nur wir mit diesem Problem kämpfen, sondern eben auch viele andere Entwickler, haben wir uns das Ziel gesetzt, eine Sammlung zusammenzustellen, die über drei wichtige Merkmale verfügt: Struktur, Verwandtschaft und Anwendungssicht.
Welche konkreten Vorteile bietet der Machine Learning Catalogue dem Anwender in der Praxis?
Der Katalog besitzt eine klare Struktur, die auch mit einem Metamodell veranschaulicht wird. Auch die verwendeten Begriffe erhalten eindeutige Definitionen, die durchgängig berücksichtigt werden. Denn das ist sonst häufig ein Problem: Ein Begriff wie „Regression“ bezeichnet mal einen konkreten Algorithmus, mal eine Gruppe von Algorithmen und mal eine fachliche Funktion. Dies ist sehr mühsam für einen Anfänger, der sich einen schnellen Überblick verschaffen möchte. Der Katalog erfasst auch Synonyme und Subtypen. So sind dort bspw. Algorithmen gelistet, die bis zu fünf unterschiedliche Bezeichnungen und bis zu 14 Subtypen haben. Die Beziehungen zwischen den verschiedenen Begrifflichkeiten sind für das Verständnis extrem wichtig, werden aber in den meisten Quellen nur selten explizit gemacht. Zudem werden im Katalog die Techniken aus der Anwenderperspektive betrachtet. Für viele der Algorithmen existieren hervorragende Wikipedia-Artikel, die aber meistens das Innenleben des Algorithmus mathematisch beschreiben: Sie legen dar, wie sich der Algorithmus programmieren ließe. Im Entwicklungsalltag ist es aber nur sehr selten der Fall, dass der Leser eine Technik selber umsetzen möchte. Er möchte vielmehr wissen, wann sie hilfreich ist, was ihre Vor- und Nachteile sind und welche Punkte bei ihrem Einsatz zu beachten sind.
Wenn er sich dann tatsächlich für sie entscheidet, greift er fast immer – zumindest für die mathematisch komplexen Aufgabenteile – auf bestehende Software-Bibliotheken zurück.
Lassen sich alle denkbaren Machine-Learning-Lösungen aus den beschriebenen Bausteinen zusammensetzen?
Das ist mit Sicherheit nicht der Fall und wird auch nie so sein. Machine Learning ist ein höchst kreativer Prozess und die beste Lösung für ein gegebenes Problem liegt oft in einer neuartigen Abänderung oder Kombination bestehender Techniken. Somit sind die beschriebenen Algorithmen nicht als starre Kochrezepte zu verstehen, sondern eher als Archetypen. Gleichzeitig wurden unsere Archetypen von unterschiedlichen erfahrenen Kolleginnen und Kollegen vorgeschlagen, was uns zuversichtlich macht, dass wir inzwischen die wichtigsten Punkte erfasst haben müssen.
Lässt sich mithilfe des Machine Learning Catalogues herausfinden, welche Bausteine beispielsweise für eine Machine-Learning-Lösung wie Predictive Maintenance entscheidend sind?
Nach diesem Prinzip ist der Katalog nicht aufgebaut und diesen Anspruch kann es alleine schon deshalb nicht geben, weil ein konkreter Use Case wie Predictive Maintenance sehr viel umfassen kann und die passenden Algorithmen, je nach genauer Aufgabenstellung, sehr verschieden sein können. Die im Katalog genannten Use Cases sind vor allem als Inspiration gedacht. Wenn sich aus dieser Inspiration eine konkrete Problemstellung herauskristallisiert hat, ist der nächste Schritt, den Lernstil und die Input- und Outputdatentypen zu ermitteln. Filtert man anschließend nach diesen Informationen, erhält man eine hoffentlich handhabbare Liste aus Algorithmen, die in Frage kommen. Die Kommentare und Tipps in den Beschreibungen helfen dann bei der Entscheidung, welche dieser Algorithmen es sich lohnt, auszuprobieren.
Sind bereits inhaltliche Erweiterungen für den Katalog geplant und wie sehen diese aus?
Der aktuell online verfügbare Machine Learning Catalogue ist bereits in der zweiten Iteration. Die erste Version entstand 2017. Mithilfe des Inputs verschiedener Kolleginnen und Kollegen, die vor allem zusätzliche Bausteine vorgeschlagen haben, wurde der Katalog dann 2018 ergänzt und überarbeitet. Der Katalog soll sich weiterentwickeln und wachsen. Der Plan ist, neue Bausteine sukzessive hinzuzufügen, sobald sie uns bekannt sind.
https://ai.msg.group/news-ai/msg-launcht-den-machine-learning-catalogue-maschinelles-lernen-verstehen-und-effektiv-loesungen-erarbeiten#sigProId29646e2802