Dr. Christian Winkler, Stephanie Fischer - mgm Technology
Wir zeigen, wie man mit Open Source
Tools unstrukturierte Texte erfassen, analysieren und die Ergebnisse
visualisieren kann. Durch Iteration lassen sich Animationen erzeugen und die
Daten besser interpretieren. Zur Visualisierung nutzen wir Word Clouds und
Histogramme von D3.js. Wir erklären den gesamten Prozess von der Datenakquise
über die Verarbeitung und Indizierung der Daten bis zur Formulierung der
richtigen Abfragen, um die Daten für die Visualisierung vorzubereiten.
Anschließend zeigen wir
unterschiedliche Visualisierungen. Diese Lösung zum Umgang mit großen
Datenmengen ist sehr flexibel und kann an Nutzerbedürfnisse in Echtzeit
angepasst werden. Neben allgemeinen Nachrichten zeigen wir auch eine
Visualisierung der Hacker News. Schließlich diskutieren wir Vorteile und
Einschränkungen von Word Clouds zur Visualisierung von großen Textdatenmengen.
Als
Ausblick zeigen wir weitere Anwendungsfälle und mögliche Erweiterungen (z.B. Mood
Detection) und sprechen über die Erkennung von Trends und Ausreißern.
Julian Knoll - wissenschaftlicher Mitarbeiter TH Nürnberg
Große Konzerne, vor allem die Big Player des Internets, häufen
immer größere Datenmengen über Benutzer und potentielle Kunden an. Der Zweck
dieser Datensammlung ist klar: Je mehr Informationen über einen Nutzer
vorliegen, desto zielgerichteter kann er/sie mit Angeboten oder Werbung
versorgt werden. Im Zuge dessen steigen dann auch Response-Rate und damit Absatz
und Umsatz.
Basierend auf den Informationen die über den einzelnen User
vorliegen nehmen Recommender-Algorithmen die Auswahl der Produkte vor, die dem
Nutzer angeboten werden sollen. Deshalb ist die Leistungsfähigkeit der
Recommender-Algorithmen hinsichtlich der Empfehlungsqualität
erfolgsentscheidend für den gesamten Angebotsprozess.
In dem Vortrag werden zunächst ein Baseline-Ansatz zur Auswahl von
Produkten und die zwei Standard-Recommender-Algorithmen (User-Based und Item-Based
Collaborative Filtering) erläutert. Anschließend wird der
State-of-the-Art-Algorithmus „Factorization Machine“ dargestellt.
Schlussendlich werden die verschiedenen Algorithmen mittels ROC-Kurven
vermessen sowie die Ergebnisse verglichen und bewertet.
Obwohl
Oracle einer der größten Technologieanbieter für Analytics und Big Data ist,
beschäftigt sich dieser Vortrag kritisch mit diesem Thema. Vielen ist klar, dass
Firmen wie Google, Facebook und WhatsApp Kundendaten sammeln und kommerziell
nutzen, doch verändert es das Verhalten der Nutzer wenig, solange der genutzte Dienst
nur einen Vorteil bietet. Doch wie weit die Nutzung der Daten geht, von wem sie
genutzt werden, bis hin zu Themen wie Globale Überwachung unter dem Deckmantel
von Terrorismus, Cyberkriminalität und Cyberwar werden in dieser Session
behandelt.