Le big data : gros coûts pour petits bénéfices ?
Tout le monde parle du big data, et les solutions logicielles envahissent le marché, Netezza d'IBM, Green Plum de EMC...marché lucratif pour les éditeurs mais est-ce uniquement cela ?
En fait sur le plan du praticien je suis content : le big data, c’est un moyen de traiter d’énormes fichiers sans se poser trop de questions sur la gestion du volume. Après, quand je vois le coût des solutions je calme un peu ma joie…..mais elles vont sûrement baisser.
Ensuite, confronté à la post rationalisation du coût, je me demande si ma bonne vieille pratique de l’échantillon pertinent et raisonné, pour mettre au point le modèle, puis du choix des variables retenues par le modèle pour le généraliser à toute la base, n’est pas finalement une « bonne vieille solution » simple et efficace.
C’est plus long, mais c’est moins cher !
Et quand pense à ce nouveau métier « Data Scientiste » et que je lis sa description sur les blogs spécialisés, je me dis que j’en suis un depuis des années sans le savoir, mais cela en jette !
Enfin quand je vois les outils d’analyse de données, qui se pluguent en front office sur les solutions de big data, je sais que tout le monde ne fera pas du big data analytique, même avec le plus puissant des serveurs, même sur internet où tout autre flux de donées avec Hadoop et autres langages évolués et logiciels intelligents.
Parce que les concepts pour analyser correctement les données ne sont pas dans les outils, ni dans la tuyauterie donc pas dans l’informatique, mais dans les statistiques, les mathématiques et les connaissances métiers.
J’ai surement un complexe avec le « big » de data. Pourtant, un serveur pour traiter toutes les données, au niveau le plus désagrégé, ce serait bien pratique quand même ; j’aimerais bien….
Qu’en pensez-vous ?