BigData Performance Indicator (BPI)

Le BPI est une collection d’indicateurs de performance orientés BigData qui a pour objectif d’aider au benchmarking de différents outils de l’écosystème BigData, dans leur implémentation en environnement Cloud Public.

Bien entendu, même si cela peut sembler une évidence, faire des traitements BigData dans un environnement en Cloud Public suppose d’avoir déjà ses données chez le même opérateur ou d’avoir une interconnexion réseau suffisamment dimensionnée pour les transferts de données …

Le BPI peut également servir de mètre-étalon pour mesurer les performances d’une implémentation de Cloud Privé.

Le premier indicateur BPI-MR que nous allons construire est destiné à mesure la performance d’un traitement Hadoop de type Hdfs/MapReduce.

  • Soit un traitement de référence MapReduce Mr de complexité Co;
  • Soit un jeu de données Jd de référence de dimension Di (exprimé en Mo);
  • Soit un cluster Cl0 de N0 noeuds homogènes dans leur nature.

Concernant le traitement Mr retenu, il devra solliciter de manière équilibré l’ensemble des composants de l’architecture sous-jacente.

Concernant le jeu de données Jd, il sera composé d’un ensemble de fichiers de dimension équivalente, en évitant un nombre de fichiers excessifs ou au contraire trop réduit.

Enfin, concernant le cluster Cl0, chaque noeud  aura une performance P0 s’appuyant sur un environnement matériel et logiciel explicitement caractérisé (processeur, mémoire, disque, bande-passante réseau, espace disque, type de disque, débit I/O, système d’exploitation invité,  environnement BigData Hadoop, produits logiciels tiers,  etc).

Toujours en ce qui concerne le cluster, celui sera d’un coût facturé de Ct0 euros HT de l’heure. Le coût Ct0 en Cloud Public est un coût margé prenant en compte la marge de l’opérateur et ses différents coûts internes, s’appuyant sur une formule à l’abonnement au mois sur une période d’un an, coût facturé qui sera ramené à l’heure. Pour une mesure BPI en Cloud Privé, on devra bien entendu prendre en compte l’ensemble des coûts CAPEX/OPEX de la solution, y compris les coûts cachés.

Si l’on considère le temps de traitement Tt0 (en secondes) du batch MapReduce Mr lancé sur le cluster Cl0, on pourra alors mesurer l’indicateur :

BPI-MR0 (en Mo/Sec/Euro) = fs x Di/Tt0/Ct0

Remarque : fs est un simple facteur multiplicateur unique de normalisation de la valeur exprimée.

La même mesure sera effectué sur des clusters Cl1… ClN de taille différente et de nature matérielle différente afin de prendre en compte les distorsions liées :

  • au temps de lancement du traitement et sa distribution sur les noeuds;
  • au gabarit de chaque noeud et à la politique commerciale qui y est associée.

On obtiendra alors une série de mesures BPI-MR0 à BPI-MRN donnant une première caractérisation de l’offre Cloud sur du BigData chez un opérateur de Cloud Public.

Nous publierons prochainement une série de caractérisations BPI-MR sur Amazon AWS, Cloudwatt, Numergy, OVH, en cours de conception.

Remarque importante : pour une même série de mesure, l’environnement logiciel devra être strictement identique.

BigData Performance Indicator (BPI)

Comparaison des offres Cloud Amazon AWS, Numergy, Cloudwatt, OVH

Quels sont les services réellement offerts aujourd’hui par les fournisseurs de solutions de Cloud, et donc quel opérateur choisir en fonction de vos besoins ?

Afin de pouvoir apporter une première réponse à cette question, SIFR Partners a étudié le sujet pour vous. Une matrice de comparaison technico-fonctionnelle (ici) des offres des fournisseurs de Cloud a été réalisée, afin de pouvoir comparer les offres. Quatre opérateurs de Cloud ont été retenus dans un premier temps :

  • Amazon AWS, soumis au FISA Amendments Act of 2008
  • Numergy, soumis à la loi renseignement*
  • Cloudwatt, soumis à la loi renseignement*
  • OVH, soumis à la loi renseignement*

* Voir ici la position de Octave Klaba, fondateur et Chairman d’OVH, sur la loi renseignement.

Cette matrice de comparaison s’appuie sur les descriptions officielles des offres que l’on retrouve sur les sites des opérateurs de Cloud à date. On tiendra compte du fait que en fonction de l’opérateur :

  • Une fonctionnalité sera identifiée en tant que service à part entière pour un opérateur tandis que pour un autre, la fonctionnalité sera intégrée dans un service;
  • Les services sont parfois identifiés mais pas forcément nommés;
  • A un service identique pourra correspondre une réalité différente d’un opérateur à l’autre, en terme de tarification, de qualité de service, de sécurisation du service, de périmètre fonctionnel et/ou technique.

Quelle synthèse peut-on faire : des offres disparates, ayant seulement en commun les fondamentaux, un service de machines virtuelles et un service de stockage de fichiers.

Offre Amazon AWS : une offre très riche, bénéficiant très certainement de la R&D des services de e-commerce Amazon.  A noter la market place applicative particulièrement bien fournie.

Offre Numergy : une offre orientée sur les fondamentaux du Cloud, avec une attention particulière au PRA hors région et à la sécurité active sous le contrôle d’un SOC. Malheureusement, pas de véritable market place applicative

Offre Cloudwatt : une offre également orientée sur les fondamentaux du Cloud, avec une attention particulière sur le BigData, la gestion des Block devices. Malheureusement, également pas de véritable market place applicative.

Offre OVH : une offre qui bénéficie de l’expérience d’OVH dans l’automatisation de services web pour le grand public. A noter deux services en particuliers : le Dedicated Cloud et le Dedicated Connect. La market place applicative est relativement fournie, mais doit encore se structurer.

Bonne lecture !

Comparaison des offres Cloud Amazon AWS, Numergy, Cloudwatt, OVH

Politique américaine en matière de collecte d’informations [Episode 2]

Dans le premier épisode (ici), nous avions parlé de SIGINT, SIGAD et du programme Boundless Informant …

Les révélations d’Edward Snowden ont permis de dévoiler d’autres programmes américains et britanniques de collecte massive d’informations travaillant d’une manière coordonnée avec Boundless Informant.

Ces systèmes permettent de récupérer des informations telles que des courriers électroniques, des conversations téléphoniques, des historiques de consultation web, des formulaires (y compris les mots de passe), et autres données numériques échangées.

Ces informations peuvent être extraites à partir de câbles sous-marins, d’Internet Exchange Point ou de portes dérobées.

Ces informations sont obtenues au travers de partenariats avec des sociétés informatiques telles que Microsoft, Yahoo!, Google, de sociétés de télécommunication telles que Vodafone, Verizon Communications, Level 3, Interoute, AT&T ou British Telecom, et des États étrangers tel que le Royaume-Uni (via le GCHQ, service de renseignements électronique du gouvernement britannique).

La NSA s’appuie sur le Foreign Intelligence Surveillance Act (FISA), loi du Congrès des États-Unis de 1978 décrivant les procédures des surveillances physiques et électronique, ainsi que la collecte d’information sur des puissances étrangères soit directement, soit par l’échange d’informations avec d’autres puissances étrangères. Le FISA a été amendé par le Congrès des États-Unis en juillet 2008 (FISA Amendments Act of 2008). Le 28 décembre 2012, le Sénat des États-Unis a voté l’extension de la loi jusqu’au 31 décembre 2017.

  • Optic Nerve (Royaume-Uni) est un programme qui collecte les images des webcam des utilisateurs de Yahoo. Les images auraient été enregistrées à raison d’une toutes les cinq secondes par utilisateur, à partir du flux de l’application Yahoo Messenger. Sur une période de six mois en 2008, le programme a ainsi collecté et enregistré dans les bases de données de l’agence les images de 1,8 million d’utilisateurs.
  • Tempora (Royaume-Uni) est un programme qui permet d’intercepter les données transitant par les câbles sous-marins en fibre optique entre l’Europe et les États-Unis. Les données interceptées seraient ainsi conservées dans une zone tampon durant trente jours, ce qui permettrait au GCHQ d’y « puiser » les données (emails, messages Facebook, historiques de recherches d’internautes, etc).
  • Bullrun (États-Unis) est un programme ayant pour but de casser des systèmes de chiffrement (VPN, SSL). L’équivalent britannique s’appelle Edgehill. Les méthodes utilisées incluent des mesures pour s’assurer le contrôle sur l’établissement de normes américaines et internationales de chiffrement (NIST, normes ISO), la collaboration avec des entreprises technologiques pour intégrer des portes dérobées dans leurs solutions de chiffrement (logiciels ou puces électroniques), la collaboration avec des fournisseurs de services Internet pour récupérer des certificats de chiffrement, l’utilisation de superordinateurs pour casser le chiffrement avec une technique de « force brute », voire des cyberattaques ou l’espionnage des sociétés pour leur voler leurs clés numériques.
  • Muscular (Royaume-Uni) est un programme du GCHQ pour collecter secrètement les données privées des utilisateurs de Google et de Yahoo! en infiltrant certaines parties de l’infrastructure interne de ces deux entreprises, via l’interception des flux de données qui transitent dans les câbles en fibre optique qui relient les différents centre de traitement de données des deux entreprises. Le Washington Post indique qu’à la fin 2013, le volume traité par le GCHQ et transmis à la NSA devait atteindre 40 gigaoctets par jour. Selon un document top secret daté du 9 janvier 2013, la NSA aurait reçu plus de 181 millions de données sur une période de 30 jours, incluant des métadonnées et le contenu de courriels (texte, audio et vidéo). Un schéma montre l’intérêt de la NSA pour le Google Cloud (ici).
  • PRISM (États-Unis) offre à la NSA un accès direct aux données hébergées par les géants américains des nouvelles technologies, parmi lesquels Google, Facebook, YouTube, Microsoft, Yahoo!, Skype, AOL et Apple, et ceci progressivement depuis 2007. Ce programme permet de collecter à peu près … tout : emails, photos, vidéos, tchats, données stockées …  Une présentation du programme PRISM est disponible ici.
  • XKeyscore (États-Unis) est un programme de collecte massive basé sur 150 sites, dans plusieurs dizaines de pays dans le monde. Il s’appuie sur un parc de 700 serveurs permettant la collecte d’appels téléphoniques, de tchats ou messages privés sur facebook. Une présentation du programme XKeyscore est disponible ici ainsi qu’un article du Guardian ici.
  • Et bien d’autres programmes …
Politique américaine en matière de collecte d’informations [Episode 2]

Hadoop User Group du 04 Juin à Paris

Retrouvez sur Youtube (ici) la vidéo du meetup HUG (“Hadoop User Group”) du 04 juin qui s’est tenu sur le campus de l’IESEG (Grande Arche de La Défense).

Au programme :

  • Modélisation du Data Lake, retour d’expérience. Orateur : Cyrille Coqueret , Directeur Technique Business Intelligence & Big Data de la société EDIS Consulting.
  • Etude de cas Mappy sur le traitement de logs avec MapReduce et Spark. Orateurs : Florent Voignier, Architecte Big Data chez Databig et Nicolas Korchia, responsable Business Intelligence chez Mappy.
  • Présentation du projet  « véhicules connectés » de PSA Peugeot Citroën. Orateur : Michael Thiriet, Architecte Technique BI et Big Data chez PSA.

1ère présentation. Les « Data Warehouse » et « Data Mart », leur modélisation en étoiles ou en flocons sont des concepts maîtrisés depuis longtemps. Ils sont la fondation des systèmes de Business Intelligence d’aujourd’hui. L’apparition d’Hadoop, sa capacité à stocker des données  non structurée sont à l’origine des  « Data Lake », réservoir où l’on stocke toutes les données de l’entreprise … avec la promesse d’en déduire de nouvelles opportunités de business. Peut-on appliquer, ou doit-on appliquer les mêmes concepts de modélisation avec Hadoop et quelles sont les best practices ?

2ème présentation. La société Mappy, service de cartographie et d’informations géolocalisées sur web et mobile, s’est lancée dans l’aventure Hadoop il y a deux ans pour gérer des centaines de giga de « logs » provenant de centaines de serveurs, contrôler leurs performances, leurs usages mais aussi identifier les nouveaux « points d’intérêt » des utilisateurs web. Les orateurs présentent leur aventure technique, de Hadoop 1 à Hadoop 2, Map Reduce vs Spark et les évaluations des différents outils SQL comme HBase/Phoenix, Impala et Tableau.

3ème présentation. Chez PSA Peugeot Citroën, on travaille sur les véhicules connectés dans l’optique d’améliorer sécurité, confort, maintenance préventive, gestion du trafic. Une architecture basée sur IBM BigInsights, et donc sur Hadoop.

Hadoop User Group du 04 Juin à Paris

15 projets BigData à suivre

L’algorithme Rank qui booste l’ajout au panier de 3Suisses.fr …
1000mercis aide Sofinco à augmenter le taux de transformation de ses campagnes de publicité ….
Square Predict, une plateforme d’analyse prédictive pour le secteur de l’assurance …
Media Connect : le Big Data des objets connectés d’Ericsson …
Docido, un moteur de recherche sémantique pour les applications Cloud …
“Sauvons les LiveBox” d’Orange France …

Quelques-uns des projets à suivre en 2015 … Plus de détails ici.

15 projets BigData à suivre

Modélisation prédictive : DSS 2.0 vient de paraître

La version 2.0 de DSS, le Data Science Studio de Dataiku, est sortie le 19 mai. La release note est accessible ici.

DSS est un logiciel disponible en mode SaaS et On-premises, facilitant la création d’applications business centrées sur la donnée et le prédictif en environnement Big Data.

  • Connexion à différents types de datasources (Hadoop, Teradata, Amazon AWS, fichiers plats en FTP, SGBDR etc);
  • Création de datasets mis à jour en temps réel;
  • Préparation des données / Data cleaning;
  • Enrichissement des datasets (références internes à l’entreprise ou données externes de type opendata par exemple);
  • Visualisation / Exploration des données;
  • Constitution de flow de données;
  • Création de modèles prédictifs.
Modélisation prédictive : DSS 2.0 vient de paraître

Politique américaine en matière de collecte d’informations [Episode 1]

Les renseignements divulgués par Edward Snowden (ancien employé de la CIA, puis sous-traitant de la NSA en tant qu’administrateur système, via la société Booz Allen Hamilton) ont permis au grand public d’être plus largement informés sur la politique américaine en terme de collecte d’informations.

Quelques termes à connaître :

SIGINTSignals Intelligence.  Le renseignement d’origine électromagnétique ou ROEM (anglais : Signals Intelligence ou SIGINT), est un renseignement, dont les sources d’information sont des signaux électromagnétiques : communications utilisant les ondes (radio, satellitaire), émissions d’ondes faites par un radar ou par des instruments de télémesure.

SIGAD – Un SIGINT Activity Designator (ou SIGAD) est un indicateur alphanumérique qui identifie une station d’écoute électronique, comme une base ou un navire, pour collecter du renseignement d’origine électromagnétique (ROEM ou en anglais : SIGINT). Cet indicateur est utilisé pour désigner les installations appartenant essentiellement aux Five Eyes (Australie – Canada – États-Unis – Nouvelle-Zélande – Royaume-Uni). Ces pays sont liés par des accords, dont le traité UKUSA, et fonctionnement de manière très coordonnée, à la fois pour mettre en œuvre un système de ROEM mondial (dit Echelon), partager les efforts en matière de cryptanalyse, partager les renseignements bruts et les analyses de renseignement qui en sont tirées.

Programme Boundless Informant : il s’agit d’un système informatique de la NSA à visée internationale permettant de connaître en temps réel, le niveau de surveillance appliqué à chaque pays. Cet outil offre un tableau de bord graphique, synthétique et généré automatiquement à partir des renseignements (SIGINT) obtenus par les différents systèmes d’écoutes de la NSA. Cet outil permet ainsi aux renseignements américains de connaître le niveau de surveillance appliqué à chaque pays. Ce système permet de consolider les métadonnées liées aux conversations téléphoniques (anglais : DNR – Dial Number Recognition) et les métadonnées liées aux communications informatiques IP (DNI – Digital Network Intelligence). Un article du Guardian (ici) révèle que Boundless Informant s’appuie sur 504 SIGAD répartis dans le monde et une collecte de 97 milliards de DNI et 125 milliards de DNR sur une période glissante de 30 jours. Le programme Boundless s’appuye sur les technologies BigData Hadoop (HDFS, MapReduce) et sur une base de données NoSQL maison appelée Cloudbase. Cloudbase s’appuye sur HDFS pour le stockage des données. L’architecture technique de Cloudbase dérive du document de recherche de Google décrivant la base de données BigTable de Google. Depuis 2011, Cloudbase a été légué à la fondation Apache pour devenir Apache Accumulo. Une présentation du programme Boundless Informant est disponible ici.

Suite au prochain épisode …

Politique américaine en matière de collecte d’informations [Episode 1]