Long short-term memory: Anwendungsbeispiele von LSTM im Unternehmen
Was haben Google Translate, Amazons Alexa und das QuickType-Feature von Apples virtueller Tastatur gemeinsam? Sie basieren auf einer speziellen Architektur neuronaler Netze, sogenannten Long short-term memory Zellen – kurz LSTM.
Long short-term memory Zellen: Was macht sie so besonders?
LSTM sind vereinfacht gesagt Weiterentwicklungen einfacher rekurrenter neuronaler Netzwerke (RNNs). Das Besondere an LSTM: Sie verfügen über die besondere Eigenschaft, vergangene Informationen in sequenzielle Daten zu selektieren. So kann aus den Trainingsdaten gelernt werden, welche Informationen aus der Vergangenheit für den aktuellen Output wichtig sind und welche vergessen werden können. Diese Fähigkeit des langanhaltendenden Kurzzeitgedächtnisses ist das Ergebnis jahrelanger Forschung und Entwicklung.
Wie kann man sich diese Fähigkeit vorstellen?
Sie arbeiten in einem Hochhaus mit Konferenzräumen im obersten Stockwerk. Für ein Meeting verlassen Sie Ihr Büro in einem unteren Stockwerk und nehmen die Treppe in das oberste Stockwerk. Nach dem Meeting wollen Sie wieder in ihr Büro zurückkehren. Die einzelnen Stockwerke sind hier – übertragen auf künstliche neuronale Netze – unzählige vertiefende Schichten. Sie sind auf der Suche nach dem tiefsten Stockwerk, die Ausgänge des Treppenhauses sind nicht durchgängig nach Stockwerken nummeriert und leider sind Sie auch sehr vergesslich. So kann es passieren, dass Sie im erst besten Büro landen. Dieses ist im 20. Stockwerk mit einer deutlich besseren Aussicht gesegnet, aber eben leider nicht Ihr Büro. LSTMs ermöglichen es Ihnen zurück in Ihr Büro zu finden – auf Basis der Erinnerung an frühere Erfahrungen. Im Fachjargon nennt man diese Art des Trainings künstlicher neuronaler Netze Backpropagation.
LSTM: Use Cases aus der Praxis
Neben den bereits in der Einleitung vorgestellten Lösungen, welche auf LSTMs basieren, gibt es eine Vielzahl an weiteren Beispielen, in denen fortgeschrittene rekurrente neuronale Netze Mehrwerte schaffen.
So hat sich gezeigt, dass komplexere neuronale Netzwerke mit LSTM-Komponenten die Identifikation von Hirntumoren aus MRT-Schnittbildern mit einer extrem hohen Trefferquote ermöglichen können. Doch nicht nur Wörter und Bilddaten können verarbeitet werden, sondern auch (multivariate) Zeitreihendaten wie Sonnenflecken, Aktienkurse und das Kaufverhalten von Kunden im E-Commerce Kontext.
Selbst die vom Kunden beabsichtigte Beendigung von Geschäftsbeziehungen im B2C-Kontext konnte mit LSTMs bereits valide prognostiziert werden. Eine Erkenntnis, die dazu genutzt werden kann, um automatisierte Kundenrückgewinnung zu implementieren und die Loyalität von Kunden durch gezieltes und an den Kunden angepasstes Marketing zu erhöhen.
Ein weiterer Use Case von LSTM bezieht sich auf die Prognose des zukünftigen Absatzes. Es liegen hunderte von historischen Zeitreihen zu Produkten vor, bei welchen zeitversetzte Absatzzusammenhänge vermutet werden. Das Ziel besteht hierbei den Umsatz bzw. Absatz von Produkten in einem vorher identifizierten „High Seller“ Cluster zu prognostizieren. Der Verkauf dieser „High Seller“ zeichnet sich dadurch aus, dass er durch den vorangegangenen Verkauf von Produkten anderer Cluster ausgelöst wird. Ein Beispiel ist der Kauf von Spiegelreflex Kameras und der zeitversetzte Kauf von Stativen, SD Karten oder größeren Akkus, welche aufgrund technischer Restriktionen zusätzlich eine limitierte Nutzungszeit aufweisen.
Der Einsatz von LSTMs ist für Unternehmen also in vielen Bereichen und Use Cases mit einem großen Potenzial verbunden – das macht LSTMs so relevant.
In einem weiteren Blogbeitrag erklären wir Ihnen, wie der typische Analyseprozess mit LSTMs abläuft, wie Data Scientists dabei Fallstricke umgehen können und wie die Keras API mit dem Tensorflow backend zu einer schnellen und effizienten Implementierung von LSTMs beitragen.
Sie sehen Anwendungsszenarien für LSTMs in Ihrem Unternehmen? Wir sind Ihr Ansprechpartner für die Umsetzung Ihrer Data-Science-Projekte.
—
Informationen zum Autor: Dennis Herle
Dennis Herle hat sich im Rahmen seiner Tätigkeit bei eoda vorrangig mit der Durchführung von Data-Science-Projekten beschäftigt. Der thematische Fokus dabei: Die Anwendung von fortgeschrittenen Zeitreihenmethoden und Machine-Learning-Modellen.