Le data scientist c'est du naming
Inventer des nouveaux noms pour mettre des vieux concepts à la mode et surtout faire parler de soi en tant qu'éditeurs de solutions c'est du naming Le data scientist ou le parfait exemple du naming
En fait le "data scientist" c'est l'ancien "data miner" qui est lui même l'ancien "statisticien" avec en plus des connaissances "métier" plutôt marketing. Cela depend de son secteur d'activité pour la fonction complémentaire : marketing, bio stat, actuariat, sociologie...
Que l'informatique rajoute à cela quelques compétences, un informaticien qui n'aurait pas fait d'abord des études statistiques ne pourrait pas prétendre à l'appelation marketing de "data scientist". Un homme d'étude ne maitrisant aucun logiciel d'analyse de données ne pourrait y prétendre non plus. Un informaticien/statisticien sans une bonne culture métier non plus voir une bonne culture générale. Le statisticien "créatif" comme évoqué il y a deux ans par Vanksen et repris dans Capital.
Le data scientist n'est pas forcément un geek (ou pas uniquement), il peut utiliser les solutions statistiques du marché, SAS EM, Modeler, SPAD et si en plus il connait un langage un peu ésotérique, le PMML, Hadoop et ou tout autre dérivé c'est un plus, mais forcément indispensable si il est d''abord un dieu sur SAS EM ou Modeler.
Enfin le data scientist doit forcément connaitre un outil open source : oui et au delà de R un tantinet "syntaxique" dans son interface, il y a en plein de sympas : Rapid Miner est très visuel et puissant par ailleurs. Merci R, de permettre aux universités de ne plus acheter les licences des éditeurs classiques mais quel dommage finalement.
Après un bon ouvrier a de bons outils disait ma grand mère, un bon data scientists aussi mais les outils d'éditeurs sont chers et les startups sans argent nombreuses donc merci R et autres langages open source http://mahout.apache.org/. Du reste comment vont réagir les grands éditeurs de solutions de data mining, IBM par exemple qui a racheté SPSS mais promeut activement Hadoop...
Pour faire de l'analyse de données le data scientist n'a pas besoin de "big data" en tout cas c'est pas une fatalité car on ne travaille jamais aussi bien les données que sur un échantillon bien choisi et manipulable pour la mise au point d'un modèle. Après dans la phase de déploiement pour appliquer la syntaxe du modèle dans le SGDB on peut se focaliser que sur les champs utiles au modèle. Donc pas forcément "big" les data dans la mise au point du modèle par le data scientist, au contraire tout prendre serait une grave erreur surtout dans les données Web où 60% de la donnée est un bruit parasite.
Que le volume de données croisse c'est un fait jubilatoire d'éditeurs de solutions de stokage hard et soft qui nous proposent déjà des solutions de stockage très puissantes que chers : Netezza, Greenplum
Je fais un travail sociologique avec un cabinet de RH sur le data scientist qui va sortir fin 2013 ma perpective est aussi une perspective d'évolution du métier en terme de coût car si le profil est cher et rare mais qu'il utlise de plus en plus des outils pas chers et disponibles pour tous n'est ce pas là une façon de le rendre accessible par une paupérisation de l'offre. Il ne faut donc par trop de data scientist enfin de "data miner expérimenté".
Vous en pensez quoi ?