Spideo: Movie Recommendation Analytics with Cassandra (Français)

Analytics Spideo Cassandra Day

Mouna Damak damak@spideo.tv Paul de Monchy monchy@spideo.tv Randa Zarkik zarkik@spideo.tv / @AFCRanda

Mardi 16 juin 2015

Plan 1.  Spideo 2.  Analytics 3.  Pourquoi Cassandra ? 4.  Etude de cas

I. Compteur avec filtres II. Top 10 III. Utilisateurs actifs

5.  Conclusion

Qu’allez vous regarder ce soir ?

75% d’indécis devant leur TV

Rendez-moi mon vendeur du vidéoclub !

Service de recommandation “content centric” Toujours expliquer la recommandation pour créer un lien de confiance avec les utilisateurs

Les Avantages des algorithmes de Spideo : -  Temps réels -  Scalables -  Explicables -  A fait ses preuves

Algorithmes de recommandation innovants

Mood-Based Discovery

Related Content Profile-Based Suggestions

Semantic Search

Quelques clients actuels de nos solutions

5.  Conclusion

Content and User Metrics

Business Rules User Segmentation

Des analytics... ...pour aider nos clients à bien analyser et mieux monétiser leurs services

5.  Conclusion

Il était une fois … analytics

Must have

-  Scalabilité

-  Tolérance aux pannes

-  Haute disponibilité

-  Critères de performance : . Écriture : 2000 logs/s . Lecture : < 60 ms/requête sur une période d’1 mois

Base de données distribuée

Oui mais laquelle ?

Mature

Intuitive

Flexible

Performante

Distribuée

“ Hype ”

Le POC

●  Une requête complexe ●  Temps de réponse à ISO config hardware ●  Une semaine pour l’implémenter en Cassandra et PostreSQL

Cassandra 36 ms

PostreSQL ~ 3 s Après tuning ~ 1 s

Temps de réponse sur toute l’année et tous les segments

=> 28x plus rapide

Le CAP

23 sources: Cassandra: the Definitive Guide.

Les cerises sur le gâteau

Timeseries

Counter

Le vote

And the winner is ...

Concrètement, comment ça marche?

5.  Conclusion

Rappel dashboard

Compteurs avec filtres

[Mood]

[Theme]

[Format]

Envies (moods)

Thèmes

Quelques thèmes

Format

Définition du use case

Nombre de vues sur les films qui correspondent à l’envie rire, et au thème « en voyage »

La requête d’abord

Si on normalise :

=> Problème : toute la table sera remontée en RAM pour faire le count

Si on dénormalise:

CREATE TABLE watches( mood text, theme text, format text, day int, total counter, PRIMARY KEY ((mood,theme, format), day)

) CLUSTERING ORDER BY (day ASC)

# partition = Filtre

clustering column

Dans cette modélisation, on aura autant de partitions que de combinaison

possibles de

(mood, theme, format)

Cardinalité pour un contenu

1 + 3 1 + 8 1 + 1

= 4 x 9 x 2 = 72

Cardinalité totale

1 + 23 1 + 749 1 + 12

= 24 x 750 x 13 = 234 000

Un watch de film Rire et En voyage => On écrit 8 fois ( 2 * 2 * 2)

Avantage : Temps de réponse instantané

Inconvénient :

Nombre d’écriture important

5.  Conclusion

Classement Top 10

Exemple: Top 10 des contenus les plus regardés

Classement Top 10

CREATE TABLE watches_per_content(

day text, content_id text, nb_of_watch counter, total counter static, PRIMARY KEY ((day), content_id)

# partition clustering column

1- Table de compteur: compter le nombre de vues par contenu

Classement Top 10

Map<day, SortedMap<content_id,nb_of_watch>>

01-01-2015 52 175 id_Divergent id_The_Other_Women id_Noah

20 067 18 081 14 027

# partition total

1- Table de compteur:

Classement Top 10

Map<day, SortedMap<nbwatch,SortedMap<content,_>>

01-01-2015 20 067 18 081 14 027

Divergent The Other Women Noah

# partition

2- Table de tri:

Classement Top 10

CREATE TABLE content_ranking( day text, nb_of_watch bigint, content_id text, PRIMARY KEY ((day), nb_of_watch, content_id)

) CLUSTERING ORDER BY (nb_of_watch DESC, content_id ASC)

Ordre sur le nb de vues

2- Table de tri: trier les contenus par nombre de vues.

Classement Top 10

CREATE TABLE content_ranking( day text, nb_of_watch bigint, content_id text, PRIMARY KEY ((day), nb_of_watch, content_id)

) CLUSTERING ORDER BY (nb_of_watch DESC, content_id ASC)

CREATE TABLE watches_per_content( day text, content_id text, nb_of_watch counter, total counter static, PRIMARY KEY ((day), content_id)

Table où on écrit Table où on lit Batchs

5.  Conclusion

Utilisateurs actifs

Nombre d’utilisateurs uniques qui interagissent avec notre système

sur une période donnée (arbitraire)

Utilisateurs actifs

Exemple: Nombre de vues

Utilisateurs actifs

+  Écrire : Simple update -  Lire : SELECT count(*) WHERE day=”16-06-2015”

CREATE TABLE active_users( day text, user_id text, nb_of_watch counter, PRIMARY KEY ((day), user_id)

# partition clustering column

1ère Approche: Table de compteurs

Utilisateurs actifs

+  Écrire : Simple update -  Lire : SELECT count(*) WHERE month=”06-2015”

1ère Approche: Table de compteurs

CREATE TABLE active_users_by_week( day text, user_id text, nb_of_watch counter, PRIMARY KEY ((week), user_id)

CREATE TABLE active_users_by_month( day text, user_id text, nb_of_watch counter, PRIMARY KEY ((month), user_id)

Utilisateurs actifs

+  Lecture instantanée -  Batchs (précalculs) -  Pas de période aléatoire

2ème Approche: Mettre les count en cache

CREATE TABLE active_users_by_day_cache( day text, users bigint, PRIMARY KEY (day)

# partition

Utilisateurs actifs

+  Période quelconque -  Lent

3ème Approche: Utiliser des Sets

CREATE TABLE active_users_with_set( day text, user_ids set<text>, PRIMARY KEY (day)

# partition

Utilisateurs actifs

3ème Approche: Utiliser des Sets

Utilisateurs actifs

http://fr.slideshare.net/doanduyhai/distributed-algorithms-for-big-data-geecon

Approche Espace requis Cardinalité Marge d’erreur

Set 10M 67 801 0%

HyperLogLog 512 octets 70 002 3%

4ème Approche: HyperLogLog : cardinalité estimée d’éléments uniques

Utilisateurs actifs

4ème Approche: HyperLogLog

Utilisateurs actifs

CREATE TABLE active_users_with_hll( day text, hll blob, PRIMARY KEY (day)

hll-jour-1 ⋃ hll-jour-2 = hll sur deux jours

https://github.com/aggregateknowledge/java-hll

Utilisateurs actifs

Approche Cardinalité Temps de réponse

Set 1 666 883 7 s

HyperLogLog 1 712 563 25 ms

Marge d’erreur : 2.7%

Utilisateurs actifs

5.  Conclusion

Conclusion - Quelques chiffres

●  ~ 1 350 000 écriture / 24 h / client ●  ~ 20 log / s / client ●  objectif 2000 log / s (demande d’un client) ●  Au démarrage :

o  1 cluster : 3 machine à 160 go o  temps de réponse maxi 2s pour un an

Conclusion

●  Écrire les requêtes avant de concevoir le modèle. ●  Se permettre de répliquer les données. ●  Ne pas hésiter à chercher dans la littérature.

Conclusion

Questions ?

Remarques ?

Recommandations ?

damak@spideo.tv monchy@spideo.tv zarkik@spideo.tv / @AFCRanda

Spideo: Movie Recommendation Analytics with Cassandra (Français)

Technology

Transcript of Spideo: Movie Recommendation Analytics with Cassandra (Français)

Les lumières de Cassandra Paulet

Chatainier cassandra veille disney synthèse

La politesse à Osaka présentée par Cassandra

Cassandra 2.0

Recommendation letter Tanja (Raquel Patricio)

BPMI Recommendation-A Spagnoletti

Thuy Lieu Recommendation Letter

Cassandra Clare Printul Mecanic Vol 3

recommendation nucléaire

JPA avec Cassandra, grâce à Achilles

Cystinuria: clinical practice recommendation

Alice, Agnès et Cassandra - sergecomte.free.frsergecomte.free.fr/DP_alice_agnes_cassandra.pdf · Alice, Agnès et Cassandra une exposition de Serge Comte ... Margot extrait de la

Initiation à Movie Maker - goulien-net.wifeo.comgoulien-net.wifeo.com/documents/Movie-Maker-W.pdf · Initiation à Movie Maker Goulien.net 2014 2 / 20 2 Windows Movie Maker est le

Taller Apache Cassandra - eventos.citius.usc.eseventos.citius.usc.es/bigdata/workshops/Cassandra.pdf · Introducción Que es Apache Cassandra 3 Apache Cassandra es un motor de bases

Apache Cassandra - Concepts et fonctionnalités

Cassandra Ippevent 20 Juin 2013

Cassandra pour les développeurs java

Windows Live movie maker

Cassandra Java Driver : vers Cassandra 1.2 et au-delà

Architecture et modèle de données Cassandra