Le livre “Raw data is an oxymoron” édité par Lisa Gitelman et publié aux MIT press en 2013 vise à tordre le coup à un non-sens trop présent à l’heure des big data et open data : il existerait des données « brutes » qui n’attendraient que l’action du chercheur, de l’informaticien ou du designer graphique pour livrer tout leur sens. Au contraire, les auteurs de cet ouvrage s’appuient sur des recherches issues de l’histoire des sciences ou des STS (sciences, technologie et société) pour démontrer que la donnée n’est jamais — malgré son étymologie — « donnée » : elle résulte au contraire d’une construction qui doit être mise en lumière au travers des contextes d’émission, des acteurs intervenant dans ce processus et des usages prescrits aux données. L’intérêt principal de cet ouvrage provient du décentrement qu’il offre par rapport aux enjeux actuels concernant les données numériques, à travers l’histoire de la production, de l’utilisation et de la circulation des données au sein de plusieurs secteurs allant de la science à la citoyenneté : mathématiques, économie, astronomie, science citoyenne ou encore tactical media.

Raw data

Daniel Rosenberg nous apprend ainsi que l’usage du terme « donnée » ne date pas des révolutions statistiques et bureaucratiques du 19ème siècle, ni de l’informatique du 20ème siècle : il est présent dès le 18ème siècle, notamment à travers les travaux de Joseph Priestley.  Le codage des occurrences du terme dans les corpus de livres de Google Books et d’ECCO (Eighteenth-Century Collections Online) met également en avant le tournant qu’a pris le terme durant ce siècle : alors qu’il désignait auparavant un paramètre axiomatique de l’expérience scientifique, il désigne au fur et à mesure le résultat d’une expérience ou d’une collection. Rosenberg nous affirme ainsi que le terme de donnée est intrinsèquement rhétorique : il sert de base à l’argumentation et doit être relié au contexte et aux différentes stratégies argumentatives auxquels il sert de base.

Quel meilleur moyen de combattre le mythe de la donnée brute que de mettre en avant les multiples étapes de sa création ? Si les informaticiens actuels se plaignent souvent du douloureux travail de « nettoyage » des données au cours duquel celles-ci sont structurées et rendues prompts aux réutilisations, il n’a rien de nouveau : Kevin R. Brine et Mary Poovey nous décrivent l’étude d’Irving Fisher à la fin du 19ème siècle sur l’usage du terme « capital » dans les livres d’économie de son époque, qui lui a demandé d’« enlever les éléments incorrects ou inopportuns des données disponibles, de combler les données manquantes, et de les formater de manière à ce qu’elles s’ajustent avec les autres données » (p. 70). De même, Ellen Gruber Garvey nous présente une autre aventure de « data mining » en version Steampunk des années 1830 au cours de laquelle les militants abolitionnistes américains Angelina Grimké Weld, Theodore Weld et Sarah Grimké ont trié, catégorisé et annoté des publicités d’esclavagiste provenant de vingt-mille journaux, afin d’en faire un outil de combat contre l’esclavage.

Les différentes contributions au livre de Lisa Gitelman soulignent également les difficultés autour du traitement temporel des données, entre passé et futur. Dans le cadre des recherches sur l’« accélération séculaire », Matthew Stanley décrit les difficultés pour reconstituer le positionnement de la lune lors d’éclipses passées à partir de la consultation d’archives : les astronomes n’utilisaient guère le terme « éclipse » pour rendre compte de cet événement, mais davantage des descriptions vagues telles que « le jour s’est transformé en nuit » (p. 85). Ces multiples approximations appellent alors tout un travail de reconstruction a posteriori des données. À l’inverse, David Ribes et Steven J. Jackson se demandent comment garantir la comparabilité à long terme des données. À partir de l’analyse ethnographique d’une initiative de sciences citoyennes qui dure depuis seize ans, les auteurs décrivent les différents « trucs » utilisés pour palier aux constants changements dans les conditions de collecte des données, aussi bien au niveau des personnes les réalisant, de l’environnement mesuré que des infrastructures pour stocker ces données.

Au terme de la lecture de cet ouvrage, on peut se demander si le terme de « donnée » mérite encore d’être utilisé, ou s’il n’apporte pas davantage de confusion. Dans un autre cadre, Johanna Drucker a proposé de remplacer le terme de « data » par celui de « capta », justement pour souligner l’effort de captation et la construction inhérente à la donnée. On pourra toutefois retenir la remarque de Daniel Rosenberg sur l’utilité du terme : alors que les notions de fait, de vérité et d’évidence ont déjà été amplement déconstruites ­— la récente traduction en français de l’ouvrage de Lorraine Daston et Peter Gallison devrait accentuer les remises en question du terme d’objectivité ­— il peut s’avérer toutefois nécessaire de conserver « un ou deux irréductibles » (p. 18) : la « donnée » constitue alors le « terme frontière » minimal pour transcender les disciplines et les secteurs d’utilisation.

Si le terme est à conserver, il reste toutefois nécessaire de faire ressortir ses étapes de construction lors de son utilisation, afin d’éviter toute naturalisation. Le débat se pose actuellement de manière vive à travers les multiples infographies et visualisations d’information qui se multiplient en ligne, par exemple dans les secteurs du journalisme de données ou de la recherche en SHS, comme l’a montré la journée d’étude PRATIC du 25 février 2013, « De la “data science” à l’infovisualisation ». Accompagner une visualisation des données utilisées est une première étape nécessaire, mais insuffisante ; elle peut en outre accompagner une rhétorique de la transparence. On citera sur ces deux points le Data blog du Guardian, où les journalistes publient systématiquement les données utilisées, ce qui n’apporte toutefois pas les informations nécessaires pour comprendre toutes les étapes de transformations entre la donnée et sa mise en forme, en plus de soutenir une rhétorique de l’empowerment par les données.

Devant ce projet de mise en avant des conditions de création des données, une difficulté demeure. Si les articles regroupés par Lisa Gitelman possèdent une telle finesse dans l’analyse des données, c’est en partie parce qu’ils bénéficient du temps long de la recherche et de la place allouée pour développer une pensée. Comment faire tenir ensemble l’utilisation des données et la présentation de ses étapes de construction dans des secteurs régis par une temporalité moins généreuse, tels que le journalisme ou le design ? L’exercice peut s’avérer périlleux, notamment du fait que l’exploitation visuelle des données se base sur les propriétés synoptiques des formes choisies, où les informations seraient accessibles immédiatement, ce qui laisse peu de place aux développements paratextuels et autres notes de bas de page. Sans revenir à l’index de soixante-douze pages qui a accompagné un des premiers usages des diagrammes — A chart of biography de Joseph Priestley (1756) — il est nécessaire d’imaginer de nouvelles pratiques de publication ne se contentant pas de mettre en ligne les données utilisées, mais explicitant également la manière dont celles-ci ont été construites. S’ils ne portent pas directement sur ces enjeux et questions, les différents cas d’étude réunis par Lisa Gitelman permettent toutefois de fournir des outils pour y réfléchir.

« Raw data » is an oxymoron, Lisa Gitelman (dir.), MIT Press, Infrastructures (coll.), 2013, 182p.

Share
 

Je suis finaliste pour le Prix de thèse 2013 “Guy Deniélou” à l’UTC. On m’a demandé de faire un joli poster présentant mon parcours de thèse. J’ai pas résisté, je l’ai fait à partir de cartes.

Diapositive1

Share
 

Je vais avoir l’occasion de donner plusieurs conférences très rapprochées sur des thèmes connexes, inaugurant la mise en route de nouvelles perspectives de recherche, que j’espère développer pour plusieurs années. Voici la roadmap:

25 mars 2013: “De la diversité des humanités numériques : une exploration des pratiques“, EHESS, Paris. Cette journée au programme fort alléchant sera très certainement un très bon contexte pour obtenir des feedback sur le projet d’ethnographie de laboratoire que je mets sur pied actuellement et qui portera sur les pratiques de DH et les mutations afférentes en SHS.

2 avril 2013: ”Capta & Data - Du traitement des données en sciences humaines“, Equipe Arts : Pratiques et Poétiques, Rennes 2, organisé par Nicolas Thély: cette journée regroupe plusieurs théoriciens en esthétiques, chercheurs en SHS et informaticiens, qui présenteront différents projets en DH. Je parlerai pour ma part des enjeux qui accompagnent le passage de la donnée à la visualisation dans la pratique des SHS, le tout en écho avec la journée d’étude PRATIC intitulé “de la “data science” à la visualisation d’information”, dont Rémi Sussan vient de faire un très bon 1er compte-rendu sur InternetActu.

3-4 avril 2013: “3èmes journées d’études de l’Institut des Humanités Digitales de Bordeaux“, Maison des Suds, co-organisé par notre cher Neuromancien des SIC. La pluralité des statuts des invités permettra certainement de réfléchir à la fois sur les pratiques en de DH et sur les infrastructures nécessaires pour les soutenir. Je parlerai pour ma part des enjeux du recours à des visualisations dans le cas de projets de DH.

Une belle actualité autour des DH françaises: voilà qui va faire plaisir à Samuel L. Jackson:

saydh on more goddamn time

Share
 

Article publié sur le site d’Inaglobal, en voici l’intro:

Sept ans après sa sortie en ligne, le service Google Maps peuple le Web et les applications mobiles jusqu’à faire figure de référence en matière de fonds de carte numérique. Toutefois, de récents changements dans la stratégie de Google  pourraient remettre en cause cette position dominante. Parallèlement, la montée en puissance d’OpenStreetMap (ou OSM), service de cartographie collaborative sous licence Creative Commonssemble également bousculer le monopole de la firme de Mountain View. Quelles sont les reconfigurations actuelles du marché de la cartographie en ligne ?

Share
 

J’ai eu le plaisir d’être récemment invité à l’émission Planète Terre de Sylvain Kahn, pour parler de cartographie numérique. J’ai pu converser avec Thierry Joliveau, auteur du blog Monde Géonumérique, un incontournable pour qui veut suivre les débats sur le sujet. L’émission est toujours disponible en Podcast ou directement sur le site.

Nous avons parlé de l’émergence de la carte Web et de ses ruptures/continuités avec les précédentes formes de carte numérique, des mutations de la spatialité contemporaine à travers les applications mobiles, des possibles évolutions du Web géospatial, pour finir sur quelques pistes concernant l’usage de cartographies numériques (et particulièrement Open Street Map) pour renouveler l’enseignement de la cartographie dans le secondaire. Ce thème final à suscité de nombreux commentaires sur la page de l’émission, et quelques pistes en ce sens sont proposé par Sylvain Genevois dans un billet de blog suite à l’émission.

Share
 

La semaine précédente s’est tenue la Winter School 2013 de la Digital Methods Initiative (DMI) de l’Université d’Amsterdam. Le thème de cette session 2013 a été “Data Sprint: The New Logistics of Short-form Method”, en référence à l’exécution d’un projet de recherche à composante numérique sur une très courte période. D’une certaine manière, ce thème n’est en rien original à 2013 pour la DMI, car c’est la forme que prend la plupart de leurs événements, qui recoupent les étapes suivantes:

  1. Constitution de groupes, en général lors d’un événement comme les Winter School ou de rencontres avec d’autres chercheurs
  2. Recherche de données / réutilisation de données déjà existantes
  3. Approfondissement / émergence de questions de recherche
  4. Développement d’outils / utilisation et adaptation d’outils déjà existants
  5. Création de résultats et de visuels, et présentation au public

Lors des Winter et Summer Schools de la DMI, ces étapes sont en général réalisées en l’espace de quelques jours (2 jours pour la session 2013). Les avantages sont que la présence de différentes compétences et intérêts de recherche rend la réalisation de nombreux projets possibles, en plus de bénéficier d’un milieu prompt à faire éclore de nouvelles perspectives de recherche. Enfin, l’excitation due à l’échéance proche rend beaucoup de choses possibles, de manière parfois inattendue. Les inconvénients sont toutefois l’impossibilité de tester des hypothèses d’une très grande ampleur, de peur de ne pas avoir de résultats pour la restitution collective, et le fait de se baser très fortement sur les données, les outils et les processus déjà existants (même si de nombreux outils sont développés ad hoc, justement dans le but d’extraire de nouvelles sources de données).

L’édition 2013 a comme toujours été extrememnt prolifique: je vous laisse consulter les divers projets issus de ce “datasprint”. Pour ma part, j’ai travaillé pendant ces quelques jours avec de brillants collègues sur un très intéressant projet de métriques alternatives à la publication pour visualiser l’activité scientifique, champ émergent répondant au doux nom de “post-scientometrics”.  Suspense, un billet de blog va bientôt arriver!

Anne Helmond (PhD Candidate), Professor Jill Rettberg, Dr. David M. Berry, and Dr. Jean-Christophe Plantin. Not pictured: Erik Borra, PhD Candidate (Amsterdam January, 2013). Source

Ces rencontres ont également été l’occasion de réaliser une parallèle avec une forme similaire de création de connaissance: le booksprint. Il s’agit de rassembler pendant une courte période de temps un petit nombre de personnes qui partagent des connaissances communes sur une même sujet pour leur faire rédiger un livre, de la rédaction jusqu’à l’impression. Si l’aventure semble impossible à réaliser en un si court laps de temps, elle a toutefois fait ces preuves depuis plusieurs années dans le milieu du logiciel libre, (par exemple les FLOSS manuals) afin de rédiger les manuels techniques, tutoriaux et autres documentations que les développeurs sont en général peu enclins à réaliser. Toutefois, on trouve des exemples de booksprints appliqués à un livre d’esthétique des nouveaux médias ou un manuel de rédaction de contrats reliés à l’industrie pétrolière.

“New Aesthetics, New Anxieties”, rédigé lors d’un booksprint de 5 jours du 17 au 21 juin 2012.

David Berry, chercheur en Digital Media à l’université de Swansea – qui est récemment passé en France pour un séminaire dans le cadre du programme de recherche SACRED – nous a livré ces retours d’expériences en la matière. Les étapes du booksprint sont les suivantes:

  1. Brainstorming et rédaction du plan
  2. Structuration du livre; division des chapitres, séparation des tâches. Ces deux parties doivent dans l’absolu être achevées le 1er jour, afin de laisser le plus de temps possible à la rédaction
  3. Écriture en tant que telle. Il est possible de passer par des logiciels qui visent à faciliter le travail à plusieurs
  4. Mise en page et éventuels retours sur le contenu: lorsqu’un niveau important de contenu a été atteint, un retour sur la structuration finale du livre est en général à effectuer, du fait que le plan a en général bougé depuis le premier jour.. Cette étape se termine par une relecture globale, en général collaborative, puis la correction et la mise en page
  5. Publication du livre (en général un PDF, mais c’est apparemment plus facile de motiver les troupes en proposant de rédiger un livre en 5 jours plutôt qu’un fichier numérique)
David Berry replaçant le booksprint dans les évolutions contemporaines de la production universitaire – crédit: Anne Helmond

Les retours d’expérience de David Berry ont été agrémentés par un entretien vidéo avec Adam Hyde, “facilitateur” de book sprint, qui en a déjà plus d’une cinquantaine à son actif (il détaille sa méthodologie ici et dans une vidéo ici). Il a livré plusieurs éléments sur le rôle clé que doit avoir le facilitateur durant le booksprint: celui-ci sert avant tout à susciter la collaboration de chacun, à gérer les situations de stress des participants, les possibles désaccords entre auteurs sur le contenu ou la forme du travail collaboratif, et à réduire au maximum toute forme d’intrusions du monde extérieur.  Il a également décrit le travail nécessaire sur les conditions extérieures: nécessité d’avoir un endroit calme et sans trop de tentations (par exemple un château, une maison de campagne), un grand stock de café, de la nourriture attirante (il a évoqué un booksprint qui s’était doté d’un cuisinier privé).

Un point particulièrement difficile est de susciter chez les auteurs la prise de risque et d’oser la discussion et la réflexion collective pour faire éclore de nouvelles idées. Ces deux choses sont particulièrement difficiles à gérer devant une échéance aussi pressente, où le réflexe de chacun peut être de remplir sa partie au plus vite. La production collaborative et dans un temps réduit peut en effet se heurter à une absence de culture de collaboration, mais également à la difficulté de s’engager dans une production dont on ne pense pas maîtriser tout le processus, ce qui tend notamment à effrayer les universitaires.

Share
 

Après trois ans de travail, ma thèse de doctorat en sciences de l’information et de la communication intitulée « les pratiques de cartographie numérique en ligne : expression, remédiation, circulation » a été soutenue le 6 décembre 2012 à l’Institut du Management de l’Information (Université de Technologie de Compiègne), Paris. Voici la page de description de l’événement.

La thèse en quelques chiffres :

  • inscription en thèse à l’UTC en septembre 2009;
  • début de la rédaction le 8 février 2012, la V1 rendue le 15 juillet 2012, dépôt de la version finale à l’Ecole Doctorale le 15 octobre 2012;
  • 37 cartes mashups analysées dans 2 corpus ;
  • 413 pages, 124 347 mots, 650 633 signes (sans espaces), 3 420 paragraphes, 10 511 lignes
  • 38 pages d’annexe
  • 137 figures
  • 259 références bibliographiques
  • 6 membres du jury
  • une quarantaine de personnes dans la salle pour la soutenance
  • 6 bouteilles de champagne
  • Une quantité inquantifiable d’encouragements reçues tout au long de la thèse et lors de la soutenance. Encore merci à toutes celles et ceux qui m’ont accompagné et soutenu dans l’aventure !

Suivant l’usage, la thèse sera découpée en articles et billets de blog, qui seront publiées sur ce site. Stay tuned ! En attendant, une fois passé le soulagement post-soutenance, voici quelques réflexions sur les avantages et inconvénients de la thèse en trois ans.

Thèse en trois ans, mon amour

  • Offrir la possibilité de sortir encore jeune de la thèse et donc d’être encore plein d’énergie pour partir vers de nouvelles aventures de recherche – et affronter les épreuves post-thèse ;
  • passer pour un bon élève auprès de ses directeurs/Ecole doctorale/agences de financement. A contrario, à défaut d’attirer l’estime, on attire la compassion et l’indulgence des personnels universitaires devant la rigueur des nouveaux formats de la thèse (et les désagréments afférents, cf. plus bas)
  • garder la thèse en trois ans permet de davantage la considérer comme un travail (on signe un CDD de trois ans) et ainsi d’enlever le “folklore” qu’elle revêt parfois et d’alléger la charge idiosyncrasique qu’elle peut prendre. Pour le dire simplement, en trois ans, vous avez moins le temps de bassiner votre entourage avec votre thèse qu’en cinq, et vous gardez des sujets de conversation quand vous êtes en société.

Une relation amour-haine

  • trois ans de travail sur une thèse représentent une charge de travail qui ne peut pas, de toute évidence, être accomplie avec une semaine de travail « normale », et il ne faut pas trop être trop regardant sur les « working holidays » et les weekends qui ressemblent à des jours de semaine. On pourra toutefois objecter que c’est loin d’être exceptionnel dans la profession d’universitaire, et en rien spécifique aux doctorants.
  • La charge de travail pour rester dans la limite des trois ans diminue les occasions de se créer un réseau très étendu avant la soutenance : il est parfois difficile de se dégager du temps pour assister à des conférences, rencontres et ateliers de sa communauté scientifique. Or, les contacts que l’on peut mobiliser dès la sortie de la thèse sont des ressources majeures pour la suite de la carrière.
  • Il est très difficile de jouer simultanément sur le front de la thèse et sur celui des publications, c’est-à-dire à la fois finir sa thèse dans ce temps imparti et de produire des articles de qualité publiée dans des revues de rang A.
  • Le temps imparti empêche de se plonger dans un cadre théorique massif, ou de faire se confronter des cadres théoriques importants. En clair, pas le temps d’interroger les fondements de philosophie habermassienne en trois ans, il faudra davantage se contenter de l’« utiliser ». L’avantage va alors à ceux qui ont pu réaliser une mémoire de Master 2 sur le même thème que la thèse. Mais dans tous les cas, on peut craindre que les thèses actuelles et à venir perdent une certaine profondeur théorique qu’elles avaient naguère.

Au final, le résultat reste le même : le nombre d’année de fortification de son CV avant ou après la réforme de la thèse en trois est identique. Soit on fait une thèse en 4 ou 5 ans, tout en pouvant – en théorie – produire de bons articles durant cette période ; soit on finit rapidement sa thèse, puis on passe un ou deux ans à faire les publications que l’on a pas eu le temps de faire.

Or, pour un résultat similaire, la deuxième formule a toutefois les avantages susmentionnés, avec un net avantage en terme de qualité de vie.

La suite

La suite de mes recherches portera sur les mutations contemporaines de la pratique des SHS à travers l’arrivée des outils numériques et du Web. Plusieurs courants proposent chacun un croisement entre recherche en SHS et numérique : Digital methods (Rogers, 2004, 2009), Cultural Analytics (Manovich 2007) ou Computational Humanities (Manovich 2012) ou encore Digital Humanities.

Ce sujet n’est pas si éloigné qu’il en a l’air de la thèse : alors que cette dernière portait sur la cartographie numérique, le travail de terrain a également mis en avant l’importance du traitement des données, préalable à leur cartographie. C’est la connexion entre cette étape des données et celle de leur médiation que j’aimerai traiter. Mais au lieu de porter uniquement sur les pratiques de remédiation dans le cadre de controverses, elles porteraient sur les pratiques de recherche en SHS. Au lieu de se concentrer uniquement sur la carte géographique, il s’agirait d’analyser d’autres médiations, celles mobilisées dans la pratique scientifique.

Plusieurs questions sont en émergence :

  • Quels sont les enjeux qui accompagnent la place grandissante des données dans la recherche en SHS ?
  • Quelles sont les médiations que les chercheurs en SHS se donnent, quelles sont les conditions de véridicité qu’elles apportent ?
  • A l’instar de la carte, voit-on s’opérer des glissements professionnels devant la montée des digital Humanities, et particulièrement dans la coopération entre informaticiens et chercheurs ?

Ce projet de recherche post-doctoral prendra la forme d’une enquête ethnographique de laboratoire, avec la prise en compte des outils, méthodes et outils numériques. En plus d’approfondir mes connaissances des STS et de l’enquête ethnographique, il sera l’occasion de tenter des connexions avec les software studies et les code studies. Le tout fera l’objet d’une présentation lors de la Digital Methods Initiative Winter School 2013 le 22 janvier, et les terrains sont en cours de négociation, plus de nouvelles très prochainement !

Share
 

Hal Varian, chief economist chez Google le disait déjà en 2009:

I keep saying the sexy job in the next ten years will be statisticians. People think I’m joking, but who would’ve guessed that computer engineers would’ve been the sexy job of the 1990s?

Ce billet vise à présenter le profil de data scientist, terme que l’on rencontre de plus en plus fréquemment au carrefour des pratiques autour de l’open data, des big data ou des digital humanities. 

Data what?

Devant les grandes masses de données présentes en ligne, le terme de data science tente de recouvrir un ensemble de compétences nécessaires à l’acquisition, au traitement et à l’analyse de données.

Comme le formule Drew Conway pour répondre à la question “what is data science” sur Quora:

(…) data science most often refers to the tools and methods used to analyze large amounts of data.  As such, the discipline is an amalgamation of many bits from other areas of research.  For tools, the influence primarily comes from computer science, where issues of algorithmic efficiency and storage scalability form the main focus.  For analysis, however, the influences are much more varied. Modern methods are borrowed from both the so-called hard sciences (physics, statistics, graph theory) and the social sciences (economics, sociology, political sciences, etc).  Specific classes of techniques that are naturally interdisciplinary are also very popular, such as machine learning.

Quelles compétences pour les data scientists?

Hal Varian détaille également sa conception du travail de data scientist :

The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it—that’s going to be a hugely important skill.

De même, le blog de l’entreprise Dataspora met en avant trois tâches constituant le travail de science des données :

  • Statistics : pouvoir analyser statistiquement un grand ensemble de données ;
  • Data munging : aka “the painful process of cleaning, parsing, and proofing one’s data before it’s suitable for analysis”;
  • Data visualization :  la restitution visuelle du travail sur les données, à travers l’utilisation de langages de programmation comme R pour les visualisations statiques, ou des outils de visualisation dynamiques tels que Processing.

On pourra objecter que le travail d’analyse se situe tout au long du processus, et non uniquement à la première étape : le travail d’acquisition-nettoyage des données (étape 2) et leur visualisation a justement pour but de faciliter l’analyse des données une fois rendues plus lisibles.

 

Enfin, DJ Patil, l’inventeur avec Jeff Hammerbacher du terme Data science, récapitule dans une interview pour le site O’reilly les étapes du travail du data scientist :

  • Finding rich data sources.
  • Working with large volumes of data despite hardware, software, and bandwidth constraints.
  • Cleaning the data and making sure that data is consistent.
  • Melding multiple datasets together.
  • Visualizing that data.
  • Building rich tooling that enables others to work with data effectively.

C’est donc à une multitude de compétences que fait appel cette pratique de science des données, généralement séparées entre statisticien, designer et programmeur, comme le remarque Nathan Yau sur flowing data:

Statisticians should know APIs, databases, and how to scrape data; designers should learn to do things programmatically; and computer scientists should know how to analyze and find meaning in data.

Ce glissement des compétences professionnelles est également remarqué malicieusement par le porteur du projet Gephi, Sébastien Heymann :

Les critiques du terme

De nombreuses réactions portent sur le terme même de data science pour désigner cette pratique. En effet, plusieurs acteurs mettent en avant l’absurdité de ce terme : les données sont un matériau de la pratique scientifique et ne peuvent devenir le point de concentration de celle-ci, comme le rappelle Drew Conway:

First, the term “data science” is a misnomer with respect to what most people consider endeavors classified as such.  Fundamentally, “science” is about formalizing a hypothesis given a reasonable set of observations and assumptions, designing an experiment around that hypothesis, testings it and analyzing the data generated through that process to either confirm or falsify the hypothesis.  Therefore, “data” is simply a natural byproduct of science.  Very (very) rarely are things labeled as data science actually scientific.

De plus, d’autres avis tendent à arrêter le terme à l’acquisition et au nettoyage des données, en excluant la pratique de visualisation de données, comme le formule Flip Kromer:

A set of tools to expose insight or make predictions by drawing on the data’structure rather than primarily its content.

Troisième, Jérôme Denis met en avant le fait que les données, quelque soit leur provenance, ne sont jamais brutes. Il développe ce point de vue à l’occasion d’un commentaire d’un billet sur le site Internet actu à propos d’un article sur l’ouverture des données publiques : toutefois, ce constat correspond aux données en issues du Web et big data. Rappelant les apports des STS, il rappelle que:

Les données sont toujours adressées, elles répondent à des questions, équipent des activités précises.

Enfin, Harlan Harris, lors d’une présentation intitulée « what is data science anyway ? », conteste également la nouveauté du terme : il cite en effet l’existence d’un journal of data science datant de 2003. Sur ce point, Gil Press propose également une archéologie des pratiques de data science.

Le programmeur Pete Warden est d’accord avec un grand nombre de critiques adressé au terme de data science : ce n’est pas une vraie science, le terme est incongru et il recouvre une diversité de pratiques et de points de vue. Toutefois, il met en avant dans O’Reilly Radar le fait que ce terme, avec tous ces défauts, constitue un « objet-frontière » permettant à un ensemble de professions disparates de communiquer et d’agir ensemble :

We need a term to describe this movement, so we can create job ads, conferences, training and books that reach the right people. Those goals might sound very mundane, but without an agreed-upon term we just can’t communicate.

PS. Un pearltree sur les ressources en ligne à propos de la science des données est disponible ici.

Share
 

Lors du colloque Homeland Connections: E-Diasporas Atlas / A century of transnationalism clôturant le projet de recherche TIC et Migration, plusieurs points concernant la constitution et la visualisation de corpus de sites web en ligne ont été évoqués, plaçant la réplicabilité des corpus au centre des interrogations. Ce thème a été judicieusement traité à la fois au niveau du crawl constituant le corpus de sites Web, mais également au niveau des questions de recherche inhérentes à chaque chercheur.  Les propos échangés ici concernent l’analyse de réseaux de diaspora en ligne: toutefois, les commentaires et considérations méthodologiques dépassent cette application pour s’appliquer à un ensemble de thèmes de recherche ayant recours à des cartographies du Web.

« Différents crawlers sur un même corpus produisent-ils des résultats différents ? »

Mathieu Jacomy (Médialab Sciences-po) livre une expérimentation qu’il a réalisé avec Erik Borra (Digital Methods Initiative, l’Université d’Amsterdam) visant à savoir si différents crawlers sur un même corpus produisent des résultats similaires. Les trois crawlers testés étaient le navicrawler de Webtlas, l’issuecrawler de la Digital Methods Initiative et le crawler de Linkfluence. Les sites étaient également au nombre de trois: un site statique, un site dynamique et un site “entre les deux”.

Différentes itérations du crawl ont été lancées, à plusieurs temps d’intervalle, d’un jour à deux semaines. Les 54 crawls réalisés ont mis en avant un fait important: différents crawlers ne produiront pas les mêmes résultats avec les réglages par défaut; à l’inverse, des crawlers configurés en fonction de la nature des sites du corpus produisent des résultats similaires. Mathieu et Erik se sont en effet rendu compte que les crawls obtenus sont encore plus différents entre les différentes itérations d’un même crawler non configuré qu’entre des crawlers différents: pour le dire autrement, un crawler non configuré fournit des résultats encore plus différents avec lui-même qu’avec un autre crawler. Ces différences proviennent des caractéristiques des sites crawlés:  par exemple, un corpus possédant beaucoup de portails devra régler son crawler (distance et profondeur) afin de dépasser cette “barrière”.

Cette petite expérience sur les caractéristiques des différents crawlers met en avant la nécessité pour le chercheur d’adapter les fonctionnalités de son crawler aux sites constituant son corpus, réduisant ainsi les risques de biaiser les résultats;

« Différents chercheurs avec une même méthode produisent-ils différents corpus ? »

La question de la replicabilité à également été abordée par Anat Ben David (Bar-Ilan University) et Priya Kumar (University of London), sous l’angle cette fois de l’influence de la question de recherche sur le corpus. Les deux chercheuses ont en effet travaillé chacune de leur côté sur la diaspora palestinienne en ligne: apprenant l’existence l’une de l’autre à la fin de leurs travaux respectifs, elles ont ainsi pu comparer leur corpus respectifs -non sans l’appréhension de voir son travail invalidé, comme le revèle Anat Ben David.

Les deux corpus présentent un nombre conséquent d’URL communes, ce qui constitue un moyen de vérifier la validité des corpus, dans les deux cas réalisés par exploration manuelle. Toutefois, chaque corpus tend à privilégier des catégories d’acteurs en particulier au sein des corpus, du fait de la spécificité des questions de recherche : Anat Ben David s’est ainsi intéressé à l’émergence d’une sphère Web palestinienne, et plus précisément à la  géographie de cette diaspora ayant pour spécificité d’être sans Etat de référence. En parallèle, Priya Kumar, s’est davantage concentré sur les types d’activités en ligne des membres de cette diaspora.

On retrouve alors la spécificité des questions de recherche dans les variables choisies pour analyser les corpus: en premier celles d’Anat Ben David:

Les catégories de Priya Kumar: 

Cette adaptation du corpus en fonction des questions de recherche du chercheur se retrouve également dans le découpage des acteurs constituant le corpus, d’abord Anat Ben David:

Les catégorisations d’acteurs de Priya Kumar: 

L’adaptation des corpus en fonction des questions de recherche respectives aux chercheurs tend à rendre difficile une comparaison entre les différents corpus de sites web de diaspora. L’événement e-diaspora a en effet été accompagné de la sortie d’un atlas papier regroupant tous les corpus de sites des différentes diaporas, invitant presque intuitivement à les comparer. Toutefois, les critères de sélection des sites Web des corpus peuvent changer fortement entre chercheurs: le chercheur Emmanuel Ma Mung Kuang (CNRS) a par exemple restreint son corpus au sites web par et pour des Chinois d’outre-mer, excluant ainsi les sites officiels, les sites en Chine ou Taïwan, les sites pour les Chinois d’outre-mer mais pas réalisés par eux, et les sites sinophones; une autre manière de sélectionner les sites peut être de choisir un nombre de liens pointant vers le site, désignant son importance et permettant ainsi de sélectionner les sites constituant le corpus (par exemple, exclure tous les sites qui ont moins de cinq liens entrants). Ces deux modalités de constitution du corpus diffèrent entre les chercheurs, rendant ainsi difficile une comparaison entre les différentes diasporas en ligne. On notera toutefois que des critères communs ont été mis en avant dans l’atlas, par “régional components”, “activism”, “incipient diapora”.

Dans tous les cas, les cartes de sites web se basent, à l’instar des cartes géographiques (comme j’ai tenté de le démontrer dans cet article), sur un principe d’exclusion d’éléments dans un souci de réalisation, de visibilité et d’analyse. Comme l’a rappelé Franck Ghitalla (qui modérait ce panel et qui a développé ce point ici) la carte ne représente pas la réalité, mais le découpage qu’un chercheur effectue dans un matériau afin de réaliser son travail d’analyse, même si, paradoxalement, la carte tend à suggérer une exhaustivité du phénomène représenté.

Share
 

Ce billet fait suite à une présentation lors de la conférence “Enseigner l’écriture numérique” organisée dans le cadre du projet PRECIP à l’Université de Technologie de Compiègne, 4 et 5 avril 2012 (Livetweet ici).

Cette communication vise à présenter l’intérêt de la cartographie numérique pour appréhender et comprendre le régime actuel de l’écriture numérique en ligne. À travers le modèle du mashup, la carte Web  est en effet partie intégrante de ce web de plateforme, où il s’agit de soumettre des requêtes à une ou plusieurs interfaces de programmation afin d’afficher une carte et potentiellement de croiser d’autres sources de données. La carte permet en outre de caractériser et d’illustrer la textualité en couche de l’écriture numérique: elle fournit en cela une analogie heuristique pour illustrer l’écriture numérique. Enfin, la carte est révélatrice de l’industrialisation de l’écriture numérique à travers des architextes en ligne potentiellement rigides et fermés du Web de plateforme.

1. La carte en ligne: un acteur du Web de plateforme

Qu’est-ce le web de plateforme? C’est un web qui ne se définit plus seulement par ses liens hypertextuels, mais par des librairies de données accessibles à travers l’API du service concerné. Cette tendance du Web accompagne un déclin de l’hyperlien, déjà annoncé par l’article célèbre de Chris Anderson annonçant en 2010 « la mort du Web » : il tentait de décrire par cette formule provocante la montée du paradigme des « applications » ne passant plus par le Web mais par des « jardins fermés ». Ce paradigme est également accompagné par le changement de statut de l’hyperlien: Olivier Ertzscheid a montré cette industrialisation de l’hyperlien, à travers le déclin de l’hyperlien manuel en face de la montée des applications pousse-boutons (like et autres +1).

Mais surtout, la connexion entre pages, entre sites, entre services ne passe plus seulement par des hyperliens, mais par des librairies de données, ou interfaces de programmation. Ces API facilitent l’interopérabilité entre applications en ligne, mais elles formatent également de manière plus stricte l’échange entre données, beaucoup plus stricte que par les hyperliens. Une bonne introduction à une critique des API a été amorcée par la digital methods initiative d’Amsterdam lors de sa dernière Winter School, brillamment résumé ici par Anne Helmond.

A travers les modalités contemporaines de sa création en ligne, la carte numérique prend part à ce web de plateforme. Elle participe alors à  une nouvelle dynamique d’écriture qui se joue à travers les interfaces de programmation ; c’est une écriture par liste, vous allez interroger une librairie de données bien plus que de commencer à se lancer dans le code pour créer une application ex-nihilo. Ce type d’écriture suscite un ensemble de problèmes que nous décrirons en troisième partie.

2. La carte: un outil pédagogique pour l’écriture numérique

La carte numérique peut donc constituer un exemple pour illustrer le web contemporain. Elle  permet également de comprendre ou du moins d’illustrer l’écriture numérique en tant que telle. En écho avec le projet PRECIP, qui vise à développer des modalités originales d’enseignements de l’écriture numérique (notamment à travers l’illustration des propriétés de l’écriture numérique par des oeuvres de poésie numérique), la cartographie sous sa forme numérique est un emboitement de texte qu’elle organise suivant un modèle en couche : ces mêmes couches qui président à l’organisation de l’écriture numérique, entre couche du code et couche de l’écran. Comme l’explique Eric Guichard:

La cartographie numérique (…) n’est qu’emboîtement de textes les uns dans les autres, signalant le mode paratextuel de l’écriture électronique: intitulés et coordonnées sont enchâssés en des balises explicites ou implicites, souvent regroupés en sous-ensembles (les calques) et au final regroupés en des fichiers (les fonds de carte). Ces derniers sont articulés à d’autres (fichiers de données, avec des étagements analogues) via d’autres textes structurés (les programmes) qui opèrent sur les uns et les autres pour produire des cartes: combinaisons des objets précédents complétées de nouveaux qui en dérivent et qui en permettent l’interprétation: symboles, couleurs, textes (fixes ou dynamiques), légendes, etc. Enfin la visualisation (en ligne ou non) suppose d’ultimes enchâssements (balises html ou XML, titres, explications…) et des logiciels eux aussi emboîtés les uns dans les autres (le navigateur, le système d’exploitation de l’ordinateur).

Cet emboitement de textes les uns dans les autres et nécessaires à la réalisation et la visualisation d’une carte numérique, illustre la nature même du numérique: le fait qu’il y ait écriture en deçà de l’écriture, et le fait que cette écriture soit à la base d’une multiplicité de manipulations (Bachimont, 2010), qui créent le résultat que l’on voit à l’écran.

La carte fournit ainsi une analogie heuristique pour comprendre le numérique: on trouvera une illustration de ce modèle de l’écriture en couche avec le plugin TILT de Firefox : cette application pour programmeur permet bien de mettre en avant le fait que la page comme architexte est basée sur un modèle en couche : entrelacement de feuille de style et d’HTML.

3. La carte, entre ouverture et fermeture des possibles de l’écriture numérique

Donc la cartographie numérique permet d’illustrer le régime contemporain du Web, en plus de fournir une analogie illustrant la textualité en couche de l’écriture  numérique. Toutefois, la carte numérique révèle une ambiguïté de l’écriture numérique contemporaine : la carte numérique présente, d’un côté, une ouverture des champs des possibles de l’écriture numérique, en proposant de nouvelles modalités d’écrire sur le Web ; mais, d’un autre côté, elle participe également à la fermeture de ces mêmes possibles du numérique : dans sa manifestation en ligne, les modalités nouvelles de l’écriture numérique peuvent être enfermés dans des applications closes et propriétaires, et surtout l’écriture peut servir à des stratégies de captation des immatériaux dans le cadre d’un capitalisme cognitif, pour reprendre des termes de Yann Moulier-Boutang.

Cette évolution de l’écriture sur le Web n’est pas exempt d’inconvénients: ce nouveau type d’écriture, non plus hypertextuel mais par librairies de données, permet facilement de fermer ces interfaces de programmation : la plateforme qui fournit une API gère en effet les conditions d’accès à cette librairie. De la même manière que l’hyperlien manuel est en voie de remplacement par sa variante industrielles les like et +1, les interfaces de programmation apportent une industrialisation de l’écriture : les API, peuvent être des boites noires, avec les dangers d’enfermement des données dans des formats propriétaires. De même, les applications se basant sur ces API connaissent une variabilité plus grande, et doivent sans cesse être reprogrammées pour s’adapter aux versions successives des API, comme le décrit Nick Bradbury dans son article “the long terme failure of Web APIs“.

Pour revenir à l’exemple de la carte, et ici Googlemaps : ce service applique tout d’abord une licence restrictive envers ces fonds de carte ; de plus, les cartes Google opèrent par captation de la participation des internautes, suite à l’ouverture de la plateforme cartographique au crowdsourcing à travers son service Google map makers, lancé en mars dernier en France. Mais surtout, c’est une nouvelle asymétrie dans en octobre 2011 lors Google décida de changer la tarification de l’accès à l’API de GoogleMaps.  Ces applications peuvent également décider de tout simplement fermer, comme c’est le cas de l’API Yahoomaps.

Mais surtout, la carte pour Google est au coeur d’une stratégie de captation de l’écriture afin d’augmenter la quantité d’information disponible en ligne. Le fond de commerce originel de Google est le classement de l’information présente sur le Web par son algorithme Pagerank pour fournir aux utilisateurs une liste à travers le portail du moteur de recherche. Afin d’augmenter la pertinence de ses résultats, Google est donc en permanence en quête d’une extension des domaines d’informations disponibles, pour pouvoir indexer et améliorer ces résultats, processus bien décrit pas S. Lévy dans son ouvrage in the Plex. Or, toute l’information du monde n’est pas sous forme de contenu HTML permettant aux robots de Google de l’indexer : telle est le cas de l’information géographique, qui nécessite d’être « traduite » pour être indexée par Google. Faire rentrer l’information géographique sur des fonds de carte, c’est augmenter le domaine de l’information traitable par le moteur de recherche de Google, livrant ainsi une parfaite illustration à la thèse d’un capitalisme linguistique présentée par Frédéric Kaplan. Et ce domaine de l’information géographique ne constitue pas une bagatelle : alors qu’en 2007, « au moins vingt pour cent des pages sur le Web possèdent un identifiant géographique reconnaissable et sans équivoque » [Scharl, Tochtermann, 2007, p.6], on imagine bien que Google ne veut pas laisser passer une telle manne de données.

La carte peut ainsi décrite suivant une ambivalence: elle permet d’un côté d’illustrer le numérique et le Web contemporain, mais elle participe également à la fermeture et à la captation des écritures pour alimenter des applications Web ; pour le dire autrement, la carte numérique révèle en même temps qu’elle participe à l’industrialisation de l’écriture numérique en ligne.

Le document de présentation est disponible ici.

Share
© 2012 Cartonomics: Space, Web and Society Suffusion theme by Sayontan Sinha