session3

Session 3 - Analytics & Big Data

13:00-14:30 HQ.007

Data Science und Visualisierung von Presse-Schlagzeilen

Dr. Christian Winkler, Stephanie Fischer - mgm Technology

Wir zeigen, wie man mit Open Source Tools unstrukturierte Texte erfassen, analysieren und die Ergebnisse visualisieren kann. Durch Iteration lassen sich Animationen erzeugen und die Daten besser interpretieren. Zur Visualisierung nutzen wir Word Clouds und Histogramme von D3.js. Wir erklären den gesamten Prozess von der Datenakquise über die Verarbeitung und Indizierung der Daten bis zur Formulierung der richtigen Abfragen, um die Daten für die Visualisierung vorzubereiten. Anschließend zeigen wir unterschiedliche Visualisierungen. Diese Lösung zum Umgang mit großen Datenmengen ist sehr flexibel und kann an Nutzerbedürfnisse in Echtzeit angepasst werden. Neben allgemeinen Nachrichten zeigen wir auch eine Visualisierung der Hacker News. Schließlich diskutieren wir Vorteile und Einschränkungen von Word Clouds zur Visualisierung von großen Textdatenmengen. Als Ausblick zeigen wir weitere Anwendungsfälle und mögliche Erweiterungen (z.B. Mood Detection) und sprechen über die Erkennung von Trends und Ausreißern.

Evaluation und Vergleich der Empfehlungsqualität verschiedener Recommender Algorithmen

Julian Knoll - wissenschaftlicher Mitarbeiter TH Nürnberg

Große Konzerne, vor allem die Big Player des Internets, häufen immer größere Datenmengen über Benutzer und potentielle Kunden an. Der Zweck dieser Datensammlung ist klar: Je mehr Informationen über einen Nutzer vorliegen, desto zielgerichteter kann er/sie mit Angeboten oder Werbung versorgt werden. Im Zuge dessen steigen dann auch Response-Rate und damit Absatz und Umsatz. Basierend auf den Informationen die über den einzelnen User vorliegen nehmen Recommender-Algorithmen die Auswahl der Produkte vor, die dem Nutzer angeboten werden sollen. Deshalb ist die Leistungsfähigkeit der Recommender-Algorithmen hinsichtlich der Empfehlungsqualität erfolgsentscheidend für den gesamten Angebotsprozess. In dem Vortrag werden zunächst ein Baseline-Ansatz zur Auswahl von Produkten und die zwei Standard-Recommender-Algorithmen (User-Based und Item-Based Collaborative Filtering) erläutert. Anschließend wird der State-of-the-Art-Algorithmus „Factorization Machine“ dargestellt. Schlussendlich werden die verschiedenen Algorithmen mittels ROC-Kurven vermessen sowie die Ergebnisse verglichen und bewertet.

Denn sie wissen was du tust!

Marcus Bender - Oracle

Obwohl Oracle einer der größten Technologieanbieter für Analytics und Big Data ist, beschäftigt sich dieser Vortrag kritisch mit diesem Thema. Vielen ist klar, dass Firmen wie Google, Facebook und WhatsApp Kundendaten sammeln und kommerziell nutzen, doch verändert es das Verhalten der Nutzer wenig, solange der genutzte Dienst nur einen Vorteil bietet. Doch wie weit die Nutzung der Daten geht, von wem sie genutzt werden, bis hin zu Themen wie Globale Überwachung unter dem Deckmantel von Terrorismus, Cyberkriminalität und Cyberwar werden in dieser Session behandelt.