Hal Varian, chief economist chez Google le disait déjà en 2009:

I keep saying the sexy job in the next ten years will be statisticians. People think I’m joking, but who would’ve guessed that computer engineers would’ve been the sexy job of the 1990s?

Ce billet vise à présenter le profil de data scientist, terme que l’on rencontre de plus en plus fréquemment au carrefour des pratiques autour de l’open data, des big data ou des digital humanities. 

Data what?

Devant les grandes masses de données présentes en ligne, le terme de data science tente de recouvrir un ensemble de compétences nécessaires à l’acquisition, au traitement et à l’analyse de données.

Comme le formule Drew Conway pour répondre à la question “what is data science” sur Quora:

(…) data science most often refers to the tools and methods used to analyze large amounts of data.  As such, the discipline is an amalgamation of many bits from other areas of research.  For tools, the influence primarily comes from computer science, where issues of algorithmic efficiency and storage scalability form the main focus.  For analysis, however, the influences are much more varied. Modern methods are borrowed from both the so-called hard sciences (physics, statistics, graph theory) and the social sciences (economics, sociology, political sciences, etc).  Specific classes of techniques that are naturally interdisciplinary are also very popular, such as machine learning.

Quelles compétences pour les data scientists?

Hal Varian détaille également sa conception du travail de data scientist :

The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it—that’s going to be a hugely important skill.

De même, le blog de l’entreprise Dataspora met en avant trois tâches constituant le travail de science des données :

  • Statistics : pouvoir analyser statistiquement un grand ensemble de données ;
  • Data munging : aka “the painful process of cleaning, parsing, and proofing one’s data before it’s suitable for analysis”;
  • Data visualization :  la restitution visuelle du travail sur les données, à travers l’utilisation de langages de programmation comme R pour les visualisations statiques, ou des outils de visualisation dynamiques tels que Processing.

On pourra objecter que le travail d’analyse se situe tout au long du processus, et non uniquement à la première étape : le travail d’acquisition-nettoyage des données (étape 2) et leur visualisation a justement pour but de faciliter l’analyse des données une fois rendues plus lisibles.

 

Enfin, DJ Patil, l’inventeur avec Jeff Hammerbacher du terme Data science, récapitule dans une interview pour le site O’reilly les étapes du travail du data scientist :

  • Finding rich data sources.
  • Working with large volumes of data despite hardware, software, and bandwidth constraints.
  • Cleaning the data and making sure that data is consistent.
  • Melding multiple datasets together.
  • Visualizing that data.
  • Building rich tooling that enables others to work with data effectively.

C’est donc à une multitude de compétences que fait appel cette pratique de science des données, généralement séparées entre statisticien, designer et programmeur, comme le remarque Nathan Yau sur flowing data:

Statisticians should know APIs, databases, and how to scrape data; designers should learn to do things programmatically; and computer scientists should know how to analyze and find meaning in data.

Ce glissement des compétences professionnelles est également remarqué malicieusement par le porteur du projet Gephi, Sébastien Heymann :

Les critiques du terme

De nombreuses réactions portent sur le terme même de data science pour désigner cette pratique. En effet, plusieurs acteurs mettent en avant l’absurdité de ce terme : les données sont un matériau de la pratique scientifique et ne peuvent devenir le point de concentration de celle-ci, comme le rappelle Drew Conway:

First, the term “data science” is a misnomer with respect to what most people consider endeavors classified as such.  Fundamentally, “science” is about formalizing a hypothesis given a reasonable set of observations and assumptions, designing an experiment around that hypothesis, testings it and analyzing the data generated through that process to either confirm or falsify the hypothesis.  Therefore, “data” is simply a natural byproduct of science.  Very (very) rarely are things labeled as data science actually scientific.

De plus, d’autres avis tendent à arrêter le terme à l’acquisition et au nettoyage des données, en excluant la pratique de visualisation de données, comme le formule Flip Kromer:

A set of tools to expose insight or make predictions by drawing on the data’structure rather than primarily its content.

Troisième, Jérôme Denis met en avant le fait que les données, quelque soit leur provenance, ne sont jamais brutes. Il développe ce point de vue à l’occasion d’un commentaire d’un billet sur le site Internet actu à propos d’un article sur l’ouverture des données publiques : toutefois, ce constat correspond aux données en issues du Web et big data. Rappelant les apports des STS, il rappelle que:

Les données sont toujours adressées, elles répondent à des questions, équipent des activités précises.

Enfin, Harlan Harris, lors d’une présentation intitulée « what is data science anyway ? », conteste également la nouveauté du terme : il cite en effet l’existence d’un journal of data science datant de 2003. Sur ce point, Gil Press propose également une archéologie des pratiques de data science.

Le programmeur Pete Warden est d’accord avec un grand nombre de critiques adressé au terme de data science : ce n’est pas une vraie science, le terme est incongru et il recouvre une diversité de pratiques et de points de vue. Toutefois, il met en avant dans O’Reilly Radar le fait que ce terme, avec tous ces défauts, constitue un « objet-frontière » permettant à un ensemble de professions disparates de communiquer et d’agir ensemble :

We need a term to describe this movement, so we can create job ads, conferences, training and books that reach the right people. Those goals might sound very mundane, but without an agreed-upon term we just can’t communicate.

PS. Un pearltree sur les ressources en ligne à propos de la science des données est disponible ici.

Share

 Leave a Reply

(required)

(required)

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

   
© 2012 Cartonomics: Space, Web and Society Suffusion theme by Sayontan Sinha