Wrap-up of 6th Swiss Conference on Data Science 2019

Mon Jun 17 14:29:21 CEST 2019

Hallo zusammen

Wir waren an der SDS19 und möchten ein paar Eindrücke mit euch teilen.

# Intro
Links und Glossar sind am Schluss aufgeführt.
Vorsicht: Dieses Wrap-up hat einen Bias, da die Autoren
Data Science Freaks sind. Im Folgenden wird die SDS und
ausgewählte Talks vorgestellt. Die vorliegende Zusammenfassung hat
weder Anspruch auf Korrektheit noch auf Vollständigkeit.

# Background
Die Swiss Alliance for Data-Intensive Services organisierte am 14.6.19
die sechste Swiss Conference on Data Science im Kursaal Bern.
Einer der Co-Founder ist der ML-Experte Dr. Thilo Stadelmann von der
ZHAW, welcher ML Themen an verschiedensten Schweizer Institutionen
(ZHAW MAS, BSc, MSE) unterrichtet.
Die Konferenz 2019 hatte 440 Teilnehmer, vorwiegend aus der Schweiz.
Die Speaker, Organisatoren, Aussteller und Besucher kommen aus
fast allen Bereichen:
- Industriell: Swiss Re, Raiffeisen, Mobiliar, usw.
- Akademisch: ZHAW, HESO, CSEM, ETH, ausländische Universitäten

Die Konferenz 2019 lief unter IEEE und es gab etliche
Posters und Publikationen von PhD Anwärtern.
Hauptsponsoren: D-One, Migros, Microsoft, SAP, NVIDIA, Oracle, PWC,
NZZ, SBB, usw.
Unterstützer: Innosuisse
Keynote Speakers: Aleksandra Przegalinska (MIT) und Ken Hughes
(CEO Glacier Consulting)

# Summary
Trends: Contex-aware Chat-Bots, Voice, B2M

# Intro Key Note Speech von Aleksandra Przegalinska
Przegalinska versuchte aktuelle Trends von AI zu benennen. Dies sind
context-aware assistive Bots, die hauptsächlich NLP machen können aber
versuchen, gewissen Kontext (Umgebung, Charakter und Intention des Users),
bei der Interaktion miteinzubeziehen.
Ihre aktuelle Forschung hat ergeben, dass Multichannel-Bots (schriftliche,
visuelle und akustische Interaktion) den User nachweislich
(physiologisch) stressen und dadurch problematischer sein können,
als rein textuelle Bots. Ihr Kernthema ist, wie ein Bot vertrauen
schaffen kann.

# Democratizing Data at Mobiliar together with Spoud
Mobiliar lässt tief blicken und erläutert ihr Vorhaben, alle Daten
innerhalb der Firma einfach zugänglich für Data Science Projekte
zu machen. Ein DS-Engineer sein ein "Chefkoch", der unterschiedliche,
qualitativ hochwertige Zutaten (Daten) von einem einfach zugänglichen,
vertrauenswürdigen und transparenten Wochenmarkt (Datenbank) einkauft
und neue Menus (wertgenerierende DS-Projekte) erschafft.
Dabei kennt er den Produzenten/Owner der Zutat, geht mit ihm
einen Vertrag/Abmachung ein und kann selber zum Produzenten werden.
Dies sein ein horizontales Projekt, das die ganze Unternehmung vor
grosse Herausforderungen stellt, da viele Abteilungen viele Microservices
und dezentrale Daten haben.
Tools: Apache Kafka

# Swiss Re best practices and principles
Swiss Re hat viele DS Projekte, die zum Teil sehr risikoreich sind.
Andererseits sind viele DS Modelle statistischer Natur und also
schwer vorhersagbar und unsicherheitsbehaftet.
Vor diesem Hintergrund hat das DS Team von Swiss Re mehrere Prinzipien
entwickelt, um mit dieser Herausforderung adäquat umzugehen.
- Reviews durch projektferne, erfahrene DS Experten vor einem Rollout:
  - Phase 1: Entwickler dokumentieren die Methoden und insbesondere
    getroffene Annahmen. Bereits während diesem Prozess können
    Fehler und Probleme entdeckt werden.
  - Phase 2: Die Reviewer arbeiten sich während mehreren Tagen oder
    Wochen in das Projekt ein.
  - Phase 3: Review Meeting mit Go/NoGo Entscheid
Eine der grössten Stolpersteine von Swiss Re ist die sogenannte
Target Leackage.
Target Leackage heisst, dass Informationen von der direkten
Klassenzugehörigkeit in das Featureset hineinkommen.
Beispiel: Sie wollten basierend auf Kommunikationsmetadaten
herausfinden, ob ein Kunde demnächst abwandert oder nicht. Dummerweise
ist das Kündigungsformular für eine Abwanderung in den Features
aufgetaucht. Ein Algorithmus welcher Kündigungen voraussagen soll und
die Formulare im Featureset hat, wird nie das klassifizieren was man
eigentlich vorheresehen will. Hier spricht man von einer Target Leackage.

# MAS Arbeit für Midor
Midors Produktionsstrasse für Blevitas hat unerwünschte und
unerklärliche Ausfälle. Erst wenn die Ursachen bekannt sind, kann in
der Prozess verbessert werden. Hierfür wurden viele verschiedene
Datenquellen angezapft, um überhaupt ein Echtzeit-Monitoringsystem zu
haben. Nach erfolgtem Labeling durch Operateure und nach
Langzeitaufnahmen wurden ein paar wenige, kurze Produktionsunterbrüche
festgestellt. Entsprechend musste das Setsplitting die unbalancierten
Klassen berücksichtigen.
Mit den Daten wurden verschiedene, klassisch statistische Modelle
mit Cloud Lösungen trainiert, welche eine zufriedenstellende Accuracy
von 80-90% erreichten. Da klassische Methoden eingesetz wurden,
konnten die gewichtigsten Einflussfaktoren für die
Produtkionsunterbrüche benannt werden.
Offenbar sind fertige Lösungen für Neuronale Netze noch nicht erhältlich.
Die grösste Herausforderung war die Sicherstellung der Datenqualität.
Die bestehenden Operateure und Entwickler der Anlage modifizierten
laufend Schnittstellen, Inhalt und Struktur der Daten, was die
Erstellung eines kontiniuierlichen, konsistenten und reproduzierbaren
Datensatzes erheblich erschwerte. Daher ist das Monitoring der
Datenqualität ein essentieller Erfolgsfaktor.
Tools/Konzepte: Lambda-Architecture, Kapa Architecture, Apache Spark

# Data Science Infrastruktur bei Raiffeisen: Buy or Make?
Raiffeisen kann bei der Skalierung von Data Science aus regulatorischen
und/oder strategischen Gründen nicht auf Cloud-Lösungen setzen.
Somit mussten sie eine eigene Infrastruktur aufziehen. Nach Evaluation
entschieden sie sich für Open Source statt kommerzielle Lösungen,
da die kommerziellen Tools nicht alles können und deren Erweiterung
durch eigene Lösungen schwierig und oder teuer ist.
Ihr System teilt sich in eine Labor- und eine Factory Umgebung ein, wobei
die Factory Klassifikationen und Vorhersagen in Echtzeit durchführt und
führt
die Filial-Mitarbeiter zur Verfügung stellt und das Labor für die
DS Entwickler gedacht ist. Der Einsatz von Servern entlastet die
User Desktops. Die bestehenden Proxy-Services der eigenen IT konnten
genutzt werden, um die Integrität von Zusatzpacketen wie z.B. pypi.org
sicherzustellen. Auf den Servern laufen Docker Container, um sie später
auf der Factory Seite einfach zu reproduzieren. Dabei können die
Frameworks entweder mit einer eigenen Runtime innerhalb eines Containers
oder externe Runtimes (Spark Cluster) eingesetzt werden.
Diese externen Runtimes befinden sich allerdings innerhalb des
Firmennetztes.
Tools: Git, Docker, Apache Spark, Tensorflow, R, python, CI

# ZHAW Automated ML
Die Ermittlung der besten ML-Modellen kann als Optimierungsproblem
aufgefasst werden. Hierbei spricht man vom sogenannten CASH.
Combined Algorithm Selection and Hyperparameter Optimization.
Bei extensiver Modellsuche ergibt sich der Trade-Off zwischen
CPU-Time und Accuracy.
Es lohnt sich immer, sich Constraints ausserhalb der Modelle zu überlegen,
um die Modelle zu entlasten.
Tools: auto-sklearn, tpot, portfolio hyperband, openML

# Outro Key Note Speech von Ken Hughes
Hughes' steile These ist, dass Marketing in seiner jetzigen Form dem Tod
geweiht ist und bald Algorithmen von monopolartigen Unternehmen den
Konsumenten ganz wenige Brands selektiv vorschlagen, da bald nur noch
via Voice gekauft wird.
Das führt dazu, dass jedes Unternehmen sehr viel schwerer ihr Produkt
beim Kunden bewerben kann, da nicht mehr der Kunde direkt kauft und
damit nicht mehr selber aus einer grossen Produktpalette auswählt,
sondern Algorithmen aufgrund seiner bisherigen Präferenzen
automatisch Bestellungen auslösen.
Zweitens werden Interaktionen zwischen Kunde und Händler
wie Offertenanfragen, Wartungsanfragen, Beschwerden, Bestellaufträge
vermehrt mittels Sprachaufnahmen statt Emails / Telefon / Websitenbesuch
durch den Kunden erfolgen.
Als weiteren Entwicklungsschritt dazu, interagiert ein sprechender Bot
des Kundens mit dem Händler. Hughes' meint, es gebe bald weder B2B, noch
B2C sondern B2M: Business to Machine.

# DeepDIVA
DeepDIVA ist ein Zusatzpacket für PyTorch, welches z.B. hilft
Aktivierungsneuronen von NN zu visualisieren, um fertig trainierte
NN zu analysieren.
Wir waren nicht an diesem Talk und arbeiten auch nicht mit PyTorch.
Diejenigen, welche mit PyTorch arbeiten, sollten sich dieses Framework
mal etwas genauer ansehen: https://diva-dia.github.io/DeepDIVAweb/
https://github.com/bruckner/deepViz ist ein Visualisierungstool welches
zusammen mit DeepDIVA arbeitet.

# Fazit
Die Konferenz war spannend und inspirierend und hat gezeigt, dass die
Industrie in den Business Case "Data Science" investiert, aber noch
viele Startschwierigkeiten hat. Einzelne Unternehmen, zum Beispiel
Swiss Re, sind schon ziemlich weit in ihrer Entwicklung.
Wir waren überrascht wie offen die Firmen über ihre Projekte und
Probleme sprachen.
Es scheint, dass kommerzielle Lösungen wie Data-Warehousing und
klassisch statistische Frameworks etabliert sind, aber
moderne Methoden wie Deep Learning heute noch selber umgesetzt werden
müssen.

# Glossar und Links
- ML: Machine Learning
- Dr. Thilo Stadelmann: stdm.github.io
- SDS: sds2019.ch
- Abstracts zu SDS-Talks:

https://sds2019.ch/_Resources/Persistent/d8945484d8b907eb9947b51c9a5bccd3bef9399a/sds2019Brochure.pdf
- NLP: Natural Language Processing
- NN: Neural Nets
- spoud.io
- ML-Framework Trends:
  https://twitter.com/karpathy/status/972295865187512320

Liebe Grüsse
Joël Bärtschi und Matthias Schranz

-- 
Bern University of Applied Sciences
Institute for Intelligent Industrial Systems I3S
Joël Bärtschi
Scientific Assistant / Student MSE
El. Ing. BSc
______________________________________________________________

Jlcoweg 1, CH-3400 Burgdorf, Switzerland
Phone direct   +41 34 426 68 96
E-Mail direct  joel.baertschi at bfh.ch
Homepage       i3s.bfh.ch