La fête de l’écosystème Hadoop en Europe

Si je vous dis Big Data, certainement plusieurs d’entre vous penseront à Hadoop ou à un éléphant jaune. En connaisseurs, je suis sûr que vous avez remarqué qu’on ne parle plus d’Hadoop seul.

En effet Hadoop évolue dans un écosystème large, un écosystème qui évolue à une vitesse phénoménale.

Sûrement ces derniers temps vous avez commencé à entendre parler de plus en plus d’outils tels YARN, Storm, Ambari, Knox, Tez, ORC, Stinger, Falcon, Stratosphere, petite liste de quoi illustrer cet écosystème large.

 

Il est vrai que c’est un petit exemple, mais il est largement suffisant pour pousser l’enthousiasme des plus technophiles d’entre vous à son paroxysme.

Mais attendez, imaginez entendre parler de ces technologies directement de la bouche des committers de ces projets. Je pense que ça pourrait vous rendre fous.

Et si on ajoute à ça une petite dose de Data Science que tout le monde rêve maintenant de toucher, je pense que vous allez me dire c’est bon, the world is not enough.

Mais attention, si vous allez voir votre Direction pour les convaincre de se livrer au bonheur du Big Data et mettre en place un cluster Hadoop, attendez vous à une réponse sans réflexion ni hésitation du type « Mais on s’en fout d’Hadoop, on veut  un use case… »

 

Donc si je vous dis que vous aurez l’opportunité de découvrir des cas d’utilisations réels et comment les entreprises qui ont pris ce leap of faith en Big Data et l’écosystème Hadoop ont dégager une plus-value ….

 

« Mais bord%$ !!! » Vous allez me criez dessus « où pourrais-je trouver ces sujets ! »

 

Simple comme réponse, la fête de l’éléphant sera à sa deuxième édition à Amsterdam : Hadoop Summit qui se tiendra du 2 au 3 Avril. Ce sont les dates pour les conférences, lesquelles seront réparties en 5 tracks :

 

  • Le futur d’Hadoop : par exemple il y aura « Apache Hadoop YARN: Present and Future »
  • Data Science : par exemple il y aura « How to Tell Which Algorithms Really Matter » par Ted Dunning
  • Committer : par exemple il y aura « Hive + Tez: A performance deep dive »
  • Les use cases (Hadoop for Business Apps) : par exemple il y aura « Real-Time Market Basket Analysis for Retail with Hadoop »
  • Et pour la joie des sysadmins : il y aura par exemple « Hadoop-2 @ ebay »

 

Les deux jours de conférence, seront précédés par des sessions de training du 31 Mars au 1er Avril. Et 1er Avril, le soir, se tiendra le Netherlands HUG avec Doug Cutting (LE créateur d’Hadoop), Andrew Wang (un commiteur Hadoop) et Chris Wensel (le créateur de Cascading).

 

Un évènement que nous ne voulions pas manquer chez Novedia, nous serons donc au rendez-vous, partagerons notre enthousiasme et ce que nous apprendrons en live sur twitter

Strata Londres : plongeons dans le monde des données

Certainement avez vous entendu parler de Big Data. Moi, j’ai commencé à m’y intéresser lorsque j’ai vu un tweet : « Gartner prévoit, qu’en 2015, 4.4 millions de postes auront été créés dans le monde autour du Big Data. »

Mais si c’est la première fois que vous le rencontrez, laissez moi le résumer en 5 V :

  • Volume : un très grand volume de données ;
  • Vélocité : un volume qui doit être traité rapidement ;
  • Variété : un volume constitué à partir de différents types de données (structurées, semi structurées et non structurées) et sources de données ;
  • Variabilité : ces données auront différentes sémantiques dans d’autres contextes ;
  • Valeur : ces données sont susceptibles d’apporter une valeur permettant de voir en avance et au delà de ce que tout le monde est entrain de voir.

Mais je vous propose de voir le Big Data comme un écosystème. Un écosystème qui a évolué et n’a cessé d’évoluer avec une vitesse phénoménale. Un écosystème qui couvre l’analyse de données (analytique), les statistiques, l’apprentissage automatique (Machine Learning), la visualisation des données (Data Visualization), l’ouverture des données … et si on y ajoute l’expertise métier, le praticien évoluant dans cet écosystème, peut se vanter d’avoir le job le plus sexy de notre temps (selon Harvard Business Review), j’ai nommé le Data Scientist.

Lire la suite

NoSQL Matters 2013 – une conférence sur les apports des solutions NoSQL

Comme nombre d’entre vous, je vois dans le NoSQL une opportunité pour sortir du monde des architectures traditionnelles reposant sur le relationnel en matière de gestion des données. NoSQL et Big Data sont un éventail de paradigmes et de solutions traitant des problématiques pour lesquelles le relationnel seul ne semble plus en mesure d’apporter une solution.

Logo de la conférence NoSQL Matters
Ainsi NoSQL et Cie n’est plus une notion hype et on trouve un nombre croissant de conférences qui se focalisent sur ce sujet. C’est pourquoi Novedia nous a offert l’opportunité à Shien-Haur et à moi de participer aux trois jours de la conférence NoSQL Matters 2013. Cet évènement entièrement tourné autour du monde NoSQL se tient en ce moment à Cologne en Allemagne du 26 au 28 avril.

Lire la suite

Mapping en JPA 2.0 d’une table de jointure ayant des colonnes supplémentaires

Cet article est la suite d’un premier billet où j’ai présenté une première solution en JPA 1.0 à la problématique : Comment mapper, en JPA (Java Persistence API),  une table de jointure comportant des colonnes supplémentaires en plus des colonnes de clés étrangères constituant sa clé primaire ? S’il y a quelque chose à reprocher à cette première solution, c’est la contrainte de mapper deux fois les colonnes constituant la clé primaire de la table de jointure. Mais grâce l’annotation @MapsId, une nouvelle annotation propre à l’API JPA 2.0, on peut avoir une solution plus élégante. Mais avant de présenter la solution en utilisant cette annotation, je vous encourage à revenir au premier billet où j’ai bien présenté la problématique et l’exemple de modèle de données sur lequel je me suis basé.

Lire la suite

Mapping en JPA 1.0 d’une table de jointure ayant des colonnes supplémentaires

J’ai travaillé sur un prototype d’application qui gère les collaborateurs en fonction de leurs connaissances. Lorsque j’ai commencé à mapper le modèle de données, je me suis trouvé face à une problématique dont j’ignorais la solution : Comment mapper, en JPA (Java Persistence API),  une table de jointure comportant des colonnes supplémentaires en plus des colonnes de clés étrangères constituant sa clé primaire ?Lorsque j’ai posé la question autour de moi, la meilleure réponse était : c’est une belle question pour StackOverFlow. En cherchant sur internet je n’ai malheureusement trouvé que des ébauches de solutions…

Quelques heures de travail et quelques lignes de codes plus tard, voici une solution simple et élégante… Je détaillerai cette démarche dans deux billets :

  • Le premier décrit une solution basée sur la version 1.0 de l’API
  • Le second propose  de s’appuyer sur une annotation spécifique à JPA 2.0

Lire la suite

DEVOXX 2011, nous y voilà !!!

JOP est la communauté interne JAVA chez Novedia. Au sein de cette communauté,  des ateliers, des présentations et des billets pour le blog technologique de Novedia ont vu le jour.  Pour encourager et soutenir les activités de cette communauté, Novedia a offert à ses collaborateurs la possibilité de participer aux principaux événements de l’écosystème JAVA. Ainsi nous étions présents  au WHAT’S NEXT, lors des  Google I/O à San Francisco et nous voilà en pleine préparation  de nos bagages pour assister à DEVOXX 2011. Pour participer et profiter de ces  événements, une seule devise : l’enthousiasme, la passion et peu importe le niveau d’expérience. Ainsi nous serons  deux à DEVOXX cette année : un senior Jeremy LADRON et un junior, moi-même : Mehdi BEN HAJ ABBES.

Pour ceux qui ne connaissent pas encore DEVOXX : c’est L’EVENEMENT, LA CONFERENCE autour de l’écosystème Java  en Europe et même dans le monde (surtout avec le déclin de la JavaOne).

DEVOXX 2011, c’est plus que 170 speakers de grande qualité ; c’est 3200 places épuisées  un mois avant le début de la conférence ; des tracks et des thèmes différents, donc un meilleur et plus grand choix sur ce qui pourrait nous intéresser;  mais surtout une grande opportunité de rencontrer et de discuter avec des passionnées venus  de l’Europe entière.

DEVOXX 2011 se tiendra comme d’habitude à  Anvers en  Belgique, du Lundi 14 Novembre au Vendredi 18 Novembre. Les deux premiers jours c’est l’université avec des ateliers de 3H ; mais aussi des sessions courtes de 30 minutes baptisées Tools in Action où il y aura des présentations rapides d’outils et Frameworks. La deuxième partie de l’événement aura lieu les trois jours suivants. Pour la plupart, c’est la partie la plus importante de DEVOXX : ce sont les conférences avec les speakers de rêve et les sujets passionnants et d’actualité. Malheureusement je ne serai présent que pour l’université. Mais je ne manquerai pas de vous faire un retour sur ces deux jours.  J’en rêve depuis longtemps et  je vais enfin  y assister pour la première fois.

Juniors ! Plus d’excuses pour ne pas écrire des tests.

J’ai beaucoup lu sur les avantages des tests automatiques, j’ai même écrit quelques tests unitaires pendant mon « spare-time », afin de voir de quoi il s’agit. Mais, ils n’étaient pas suffisants pour répondre à cette question — que fort probablement vous vous êtes posés — : pourquoi devrais-je perdre du temps à écrire des tests et retaper certaines logiques ?!

Personnellement, « I saw the light » et j’ai trouvé ma réponse après avoir écrit des tests unitaires dans le cadre d’un projet concret.

Lire la suite