Netflixs neuer Personalisierungsalgorythmus und die Folgen

Was sich bei Netflix durch den neuen Personalisierungsalgorythmus ändert, erfahren Sie hier

Wer Techcrunch und Co. liest hat in den vergangenen Wochen mitbekommen, dass Netflix sein Personalisierungskonzept umgestellt hat. Die bisherigen Sterne-Berwetungen sind einfachen Daumen-hoch Bewertungen gewichen, die Basis für Empfehlungen ist nun der Matchmaking Algorithmus im Tinder-Stil, zudem gibt es neu einen “%-Matching-Score” zwischen Kunde und Titel. Dass die Umstellung des Personalisierungskonzeptes bisher nicht reibungslos gelaufen ist, zeigen zahlreiche Tweets.

Im Post möchte ich das aktuelle Thema im Detail erklären und insbesondere die konzeptionelle Challenge hinter der Umstellung diskutieren.

Anhand der folgenden Leitfragen ist der Post strukturiert:

  • Um was geht es genau?
  • Warum ist das relevant?
  • Was hat das alles mit Personalisierung zu tun?
  • Was macht der Netflix-Algorithmus genau?
  • Und was hat sich daran jetzt geändert?
  • Wo liegt die Challenge?
  • Was können wir davon lernen?

Um was geht es?

Fangen wir vorne an. Jeder der Netflix regelmässig nutzt wird vor kurzem 2 Änderungen bemerkt haben, nämlich a) dass die 5-Sterne-Bewertungen durch Daumen hoch/ runter Bewertungen ersetzt wurden und b) dass man nun immer direkt einen Matching-Score zwischen Film und sich selbst angezeigt bekommt. Beides ist neu – und darum geht die Diskussion.

Und wen interessiert das?

Bzw. warum ist das relevant? Personalisierung, also bei Netflix insbesondere personalisierte Filmempfehlungen, ist ein elementares Wertversprechen von Netflix und somit im Kern von Netfix’s Geschäftsmodell. Wenn wir bei Personalisierungs-Workshops bspw. in einer Warm-up Übung fragen: Wo haben die Teilnehmer zuletzt gute Personalisierung erlebt, dann wird (respektive wurde?) Netflix neben Amazon und Spotify oft als Paradebeispiel angeführt. Netflix hat vor Jahren bereits mit einem eigenen Algorithmus Hackathlon, dem Netflix prize, die Welt aufgerufen ihren Algorithmus zu optimieren. Und wenn sich an diesem Paradebeispiel, dem man stets hinterhereifert, etwas grundsätzlich ändert sollte man ja Bescheid wissen – daher ist es relevant.

Was hat das alles mit Personalisierung zu tun?

Ähnlich Spotify geht Netflix sehr offensiv mit Personalisierung um. D.h. Personalisierung ist ein Kern-Service und wird an diversen stellen offen und direkt propagiert: Das startet auf dem Onboarding-Screen, bei dem Netflix den User bittet einzelne Titel zu bewerten um später personalisierte Empfehlungen aussprechen zu können und geht weiter in der Top-Auswahl Kategorie, mit den Beliebt auf Netflix und Derzeit Beliebt auf Netflix Kategorien, in E-Mails, mit der Ähnliche Titel Empfehlung und neu eben auch auch mit dem %-Übereinstimmungs-Wert. Das alles fassen wir unter dem Schlagwort Personalisierung (im weitesten Sinne) zusammen.

Startscreen von Netflix
Quelle: Netflix

Was passiert bei den personalisierten Empfehlungen von Netflix genau?

Im Kern basiert(e) der der Netflix Algorithmus von Anfang an auf sogenanntem collaborative filtering (also einer Recommender Engine) und wird genutzt um dem Nutzer personalisiert Vorschläge zu machen was er sich mal anschauen sollte. Im Netflix Tech Blog kann man zu den diversen Grundgedanken hinter dem Algorithmus einiges nachlesen.  Wie genau der Netflix Algorithmus funktioniert ist natürlich Betriebsgeheimnis, aber im Grunde ist es recht einfach:

"Nehmen wir mal an sie schauen sich einen Film im Kino an, im Saal sind 100 weitere Leute. Sie finden den Film super und geben ihm 5 von 5 Sternen. Die anderen 100 haben natürlich auch eine Meinung zum Film. Nehmen wir an, 60 von ihnen finden den Film auch super und geben ebenfalls 5 oder ggf. auch 4 Sterne. Jetzt fragen sie diese 60 Leute was sie sich sonst so für Filme ansehen und stellen fest, dass 50 dieser 60 vor einem Monat einen anderen Film gesehen und durchgängig mit 4 oder 5 Sternen bewertet haben. Zwischenfazit: Sie sollten diesen Film auch sehen, oder?"

Das ist das Grundprinzip des collaborative filtering, das im Kern der Empfehlungen stand. Der Unterschied zu den anderen Formen der Personalisierung ist, dass man aus Autor (also z.B. Marketeer) weniger stark in die Logik eingreift, sondern den Algorithmus eher machen lässt. Zurück zum Beispiel heisst das, dass wenn sie den Film den die anderen 50 ebenfalls super fanden nun wirklich anschauen, aber eher bescheiden finden und daher nur 1 Stern vergeben, dass dann der Algorithmus eben andere “nächste Sitznachbarn” für sie findet als genau diese 50 und dann darauf aufbauend ihnen neue Empfehlungen ausspricht. Und auf Basis der 94 Millionen Netflix-User, bzw. deren Sehgewohnheiten für 7.000 Filme und 1.600 Serien findet (bzw. fand) der Netflix Algorithmus eben immer eine Gruppe mit ähnlichen Nutzern.

Und was hat sich nun geändert?

Die 5-Sterne-Bewertung ist weg, dafür gibt es nun Daumen hoch. Personalisierte Empfehlungen gibt es trotzdem weiterhin, zudem auch noch den %-Übereinstimmungs-Wert. Netflix erklärt ihren Schritt mit einem Post, bzw. diesem Video wie folgt:

  • Sterne-Bewertungen kennt man insbesondere aus Produkt- oder Servicebewertungen, z.B. fĂĽr Restaurants auf Yelp!
  • Dort machen sie Sinn weil sie die Entscheidungsfindung unterstĂĽtzen (Man geht lieber in ein Restaurant mit Durchschnitt 4,3 als ins eines mit 2,7)
  • Auf Netflix wurde die Sterne Bewertung nicht verstanden –> daher waren die Durchschnittswerte falsch –> und daher waren sie unbrauchbar fĂĽr Personalisierung
  • Daumen hoch Bewertungen ist intuitiver, weil man kennt es ja von Matching Services a la Tinder oder dem Facebook Aktivity-Stream
  • Mit Daumen hoch kann man einfach(er) zeigen was einem persönlich gefällt und muss nicht das anschauen was andere gut finden

So what?

… könnte man meinen, aber es steckt eben noch ein wenig mehr dahinter. Der letzte Aspekt zeigt, dass der Algorithmus nun weg geht vom Collaborative Filtering und hin zu einem sogenannten Content-based Ansatz. Im Kern heisst das, dass der Algorithmus nun nicht mehr nach ähnlichen Usern sucht, sondern nur nach ähnlichen Titeln. Basis hierfür sind insb. die Metadaten (Genres, Länge, Darsteller, Altersfreigaben, Sprache, etc.). Ein einfaches Beispiel: Sie mögen Breaking Bad –> Sie sollten Narcos schauen (gleiches Genre, ähnlicher Stil, etc.) oder Sie mögen Breaking Bad aber Narcos nicht –> Sie könnten einen anderen Film mit Brian Cranston schauen (gleicher Schauspieler). Das klingt nach einfacher Wenn-dann-Logik und das ist es im Prinzip auch, nur eben sehr sehr viele Kombinationsmöglichkeiten davon und die muss der Marketeer natürlich nicht selbst pflegen, sondern der neue Algorithmus. Ein Slide dass wir oft zu Beginn von Personalisierungsprojekten nutzen fasst den Schritt zusammen. Netflix bewegt sich mit der Änderung von rechts zur Mitte.

Grafik von Namics zum thema Personalisierung von MarketingmaĂźnahmen
Quelle: Namics

Netflix Herausforderung

Einfach gesprochen: Die User sind bisher minder begeistert. Gerade nachdem Netflix die Ă„nderung grossspurig angekĂĽndigt hat hagelte es natĂĽrlich Kritik, z.B. aus der twitter Gemeinde oder auf diversen Blogs, etc.

Ob der Algorithmus technisch (für einen persönlich) nun funktioniert kann man selbst testen, z.B. indem man dem Film Hangover ein thumbs up gibt und sich gleichzeitig ansieht wie sich die %-Übereinstimmungswerte für Hangover 2 bzw. Teil 3 verändern –> Bei mir gar nicht (weder real time und auch nicht über Nacht). Woran könnte es liegen? Nun, das kann man von aussen natürlich schwer beurteilen, aber generell darf man vermuten, dass es Netflix nach der radikalen Umstellung nun mit dem bekannten Cold Start Problem zu tun hat, da nun 94 Millionen User Profile (samt Content-Präferenzen) neu gebildet bzw. angepasst werden müssen. Behoben wird das meist explizit (= lass den User nochmals selbst seine Präferenzen eingeben) oder Implizit (lerne auf Basis Sehverhalten und thumbs ups/ downs Bewertungen).

Was kann man aus dem Case fĂĽr das eigene Personalisierungsvorhaben lernen?

Obwohl bei der Umstellung viel ĂĽber Technologie gesprochen wird, finde ich die beiden Aspekte Kommunikation und Konzeption noch sehr relevant und bisher zu wenig diskutiert.

Konzeptionell hat Netlix definitiv seine Hausaufgaben gemacht. A/B- oder Multivariates testing gehören dort seit Jahren zum Produktentwicklungs-Zyklus. Man testet von der Tribüne (1 oder 3 Titel) zu den Introtexten (1-5 Sätze) bis hin zu Autoplay (an oder aus) von Trailern alles durch und lernt kontinuierlich. Das war auch bei der Umstellung der Bewertung so. Durch Thumbs up/ down wurden schlicht 200% mehr Bewertungen abgegeben als mit dem 5-Sterne System.

Aber gerade wenn Personalisierung im Kern des eigenen Geschäftsmodells steht sollte man sich bewusst sein wie man Änderungen kommuniziert. Netflix hat sich nun für einen sehr werberischen Weg entschieden. Aber ggf. hätte man dem User ehrlicher, bzw. eher auf Augenhöhe mitteilen können, dass sich etwas ändert, vielleicht sogar mit dem Hinweis dass es etwas Anlaufzeit braucht, aber man nur das Beste will. Am kritischsten sehe ich den %-Übereinstimmungswert. Den hätte man noch länger im Verborgenen lassen sollen anstatt ihn als Revolution zu anzupreisen (inkl. eigenem Video). Nun hängt sich die Kritik vor allem an diesem Wert auf. Netflix Kommunikation mit „Für die Nostalgiker unter Euch: Ihr könnt eure alten Sterne-Bewertungen weiterhin in Eurem Profil sehen – aber wir nutzen sie nicht mehr.“ bringt auch nicht wirklich etwas – man giesst hier eigentlich nur noch etwas Öl ins Feuer.

Zusammengefasst ist das für mich ein schöner Case/ ein weiteres Beispiel, dass es für gute Personalisierung konzeptionelle, kommunikative und technische Lösung braucht – selbst beim Vorreiter Netflix. Daher widmen wir dem Thema ja auch einen eigenen Bereich und sind gespannt, ob in der besagten Warm-up Übung zukünftig weiter Netflix genannt werden wird.