admin

 

A la renaissance, la technique de représentation en perspective insère la subjectivité de l’auteur dans l’œuvre : un tableau, c’est d’abord le produit de quelqu’un qui voit, et qui ne tente pas uniquement de reproduire objectivement la réalité. La photographie Earthrise, prise en 1968 par les astronautes d’Apollo 8, est la première photo de la Terre depuis la lune. Elle permet à l’être humain d’adopter une posture d’altérité radicale sur son milieu de vie, ce que Heidegger appellera the uprooting of man. Toutefois, la présence de la lune en bas de la photographie et le cadrage de côté font ressortir la présence du photographe, empêchant ainsi de considérer cette image comme une description objective de la planète Terre.

images

Figure 1. Earthrise, 1968

L’ouvrage intitulé Close up at a distance – Mapping, technology and politics de Laura Kurgan, professeure d’architecture à l’Université Columbia de New York, interroge les représentations spatiales que les humains se donnent à l’aune des enjeux politiques qui accompagnent leurs multiples interprétations. Elle décrit ainsi avec finesse et pédagogie l’infrastructure de représentation du monde, en passant outre une séparation facile entre représentation objective et interprétation subjective et en liant une réflexion théorique à une pratique artistique. C’est la raison pour laquelle ce livre possède un format atypique, sur le fond et sur la forme. Il relève en effet à fois de l’essai (révélé par l’absence de bibliographie dans les textes), du catalogue d’exposition et de la rétrospective d’artiste. Après un court essai sur la nécessité de la représentation des images satellitaires, Kurgan nous livre un lexique historique des trois technologies constituant l’infrastructure de représentation du monde (GPS, satellites de télédétection et SIG) à travers leur passage du domaine militaire et scientifique au public. Ces textes et ce lexique confèrent au lecteur des outils intellectuels pour aborder la majeure partie de l’ouvrage, à savoir neuf projets artistiques menés par Laura Kurgan depuis une vingtaine d’années. Les enjeux que l’auteur aborde à travers ses œuvres peuvent être concentrés autour de deux axes. Elle propose d’un côté d’explorer les rapports de force qui émergent lors de la réalisation, de l’ouverture et de l’utilisation des images satellitaires ; d’un autre côté, sa réflexion porte sur la mise en forme des données dans ces représentations : loin de s’arrêter à la dimension plastique des images analysées, Kurgan interroge les données constituant ces images, à partir de leurs modalités de captation et de représentation.

La représentation, l’accès aux données et les rapports de pouvoir

Plusieurs projets artistiques de Laura Kurgan sont traversés par une opposition entre les images satellitaires rendues disponibles et celles qui ne le sont pas, avec un regard sur les actions mises en œuvre à partir du moment où cela n’est pas le cas. C’est donc autant ce qui est représenté, mais également, en creux, les raisons de l’absence de représentation, qui sont interrogés. On connaît le rôle primordial qu’ont joué pour la première fois les technologies de géolocalisation et de télédétection dans la 1ère guerre du Golfe. Le projet n°2 intitulé « Kuwait : Image Mapping » interroge le cynisme qui accompagne la réalisation et l’utilisation de la « base de données nationale du Koweït » visualisant les sols et les infrastructures du pays. Celle-ci a servi tour à tour à asseoir un régime de surveillance, aux troupes militaires américaines à planifier l’intervention contre les troupes irakiennes, puis enfin à attirer des entreprises de reconstructions étrangères pour reconstruire le pays. Le projet n°3, intitulé « Cape Town, South Africa, 1968 : Search or Surveillance ? » explore des archives du réseau satellitaire Corona des années 60 et 70 pour se concentrer sur l’évolution de la représentation des bidonvilles sud-africains : s’agissait-il avant tout de permettre des recherches à partir de ces informations géospatiales, ou de surveiller les populations ainsi visualisées ? Kurgan pousse cette logique archéologique plus en avant dans le projet suivant, intitulé « Kosovo 1999 : SPOT 083-264 ». Celui-ci évoque la naissance d’un satellite imagery activism, où les images ont permis de mettre en lumière des crimes de guerre et un nettoyage ethnique en train d’avoir lieu, participant ainsi à la formation d’une opinion publique sur la conduite de la guerre. Les projets n°5 : « New York, September 11, 2001 » et n°6 : « Around Ground Zero » amènent Kurgan à réaliser une analyse de notre rapport à la représentation des événements catastrophiques. Alors que les tours jumelles du World Trade Center en ruine étaient encore visibles dans les images satellitaires quatre jours après le 11 septembre 2001, Kurgan a été frappé par la volonté des autorités de fermer l’accès au site de Ground Zero au public. Prenant la mesure du paradoxe entre la transparence des images satellitaires et l’absence d’images au sol, elle a réalisé avec plusieurs bénévoles une carte du site et de ces différents accès, pour permettre au public de s’y rendre. Enfin, Kurgan prolonge cette utilisation « tactique » de la carte dans le projet n°9 « Million-Dollar Blocks » (cf. figure 2). Ce travail, fruit d’une collaboration entre le Spatial Information Design Lab de l’Université de Columbia, d’associations et à partir d’une étude réalisée par des prisonniers incarcérés dans la prison de Green Haven à Stormville, a eu pour but de réaliser une cartographie des coûts de l’incarcération des prisonniers pour la ville de NYC. Les cartographes veulent montrer que 75% des prisonniers de cet établissement proviennent de seulement sept quartiers de la ville de New York. La carte affiche donc les Million-dollar blocks, ces immeubles sur lesquels sont additionnés tous les coûts que représente l’incarcération de ces anciens habitants.

p186_people_dollars copy

Figure 2. « Around Ground Zero »

Des données à la sémiotique des images géospatiales

Une autre série de projets de Laura Kurgan interroge la sémiotique des données géospatiales. Ainsi, le premier projet « You are here » de 1994 offre les premières expérimentations artistiques de qui allait devenir le GPS art, en réalisant au sol des formes qui sont ensuite visualisées par le tracé du GPS. De même, elle joue avec la grammaire visuelle des données GPS en s’inspirant des points, lignes, et plans de Kandinsky. Suivant cette perspective expérimentale, le projet n° 7 « Monochrome landscapes »  (cf. figure 3) représente quatre territoires contestés à travers quatre zooms sous la forme de tableaux monochromes : l’Alaska (tableau blanc) où une prospection pour des forages pétroliers étaient en cours, l’océan (tableau bleu) pour montrer le passage du méridien, le sable de la guerre en Irak (tableau jaune) en enfin la forêt (tableau vert) visant à alerter contre les attaques envers la forêt amazonienne. Le projet 8, intitulé « Global clock » est davantage proche de la visualisation d’information que de représentations géospatiales et propose quant à lui une réflexion sur la modélisation des échanges financiers.

mono_02_0

Figure 3. « Monochrome landscapes »

  L’ouvrage de Laura Kurgan ne s’arrête pas à la dimension visuelle des images satellitaires et interroge également les données qui sous-tendent ces représentations. Suivant cette finalité, elle propose de définir les données comme « para-empiriques » (p. 35) : celles-ci sont « toujours déjà » une visualisation, un regard situé et porté par un/e chercheur/euse sur un objet, qui vient se superposer au monde comme conditions d’appréhension du monde. Comme elle l’affirme :

« The word ‘data’, in this book, means nothing more or less than representation, delegates or emissaries of reality, to be sure, but only that : not representations of the things themselves, but representations, figures, mediations — subject, then, to all the conventions and  aesthetics and rhetorics that we have come to expect of our images and narratives. » (p. 35)

Elle fait ainsi un appel du pied direct à des travaux récents croisant le champ des sciences et technologies en société (STS) sur le statut de la donnée en affirmant que « les données brutes n’existent pas », même s’il s’agit d’une photographie de la Terre. Ces ressources théoriques lui permettent ainsi de proposer une réflexion critique portant à la fois sur les données et les images. Si une tradition iconoclaste en science invite à se méfier des images, tel que le relève Latour (2009), Kurgan nous invite à faire de même avec les données. Et quoi de mieux que de prendre les images satellitaires, à qui que l’on impute instinctivement une garantie d’objectivité ? Le regard systémique de Kurgan nous permet ainsi de voir toutes les étapes qui vont de la prise des images, à leur mise en forme, les multiples conditions qui réglementent leur accès, vers la circulation de ces images.

Avec l’ouverture de l’accès aux images géospatiales, ce sont également la multiplicité des interprétations et des points de vue qui sont suscités. La levée du contrôle par les instances de médiation traditionnelle dans l’accès aux images satellitaires permet ainsi à une multitude d’acteurs de les mobiliser pour accompagner un ensemble de points de vue, potentiellement contradictoires. Comme Kurgan le rappelle en citant Latour (2005, p. 19), les images satellitaires ne participent pas à la création de fait (« matter of fact »), mais à des « matters of concern » : ce n’est donc pas tant la possibilité d’atteindre toujours plus de vérité qui est rendue possible à travers l’ouverture de ces données, c’est davantage la multiplication des points de vue qui est encouragée, chacun mobilisant les données pour les insérer dans une certaine argumentation. En filigrane, c’est donc bien la question de l’expertise qui est posée à travers l’accès aux données géospatiales : la multiplicité des images appelle-t-elle à un recours accru aux experts, ou voit-on au contraire se développer de nouvelles formes d’expertise outillées par les images satellitaires ?

Le livre de Laura Kurgan dépasse ainsi la séparation entre théorie et pratique artistique pour proposer un ensemble de pistes de réflexion sur la multiplicité des interprétations des images satellitaires, sur le processus de libération des images et sur les usages qui sont faits de ces représentations. Toutefois, cette entreprise souffre de plusieurs lacunes. Tout d’abord, c’est une certaine hétérogénéité des projets rassemblés qui pourra désorienter le lecteur : le choix d’un ordre chronologique pour présenter les projets amène à penser que certains ont été insérés afin de faire un compte-rendu exhaustif des travaux de l’auteur, bien plus que pour suivre une cohérence interne aux œuvres. Alors que les cas d’étude du Koweït, de l’Afrique du Sud, du Kosovo et de New York gagnent à être présentés à la suite, le projet « Global Clock » peine par exemple à trouver sa place. De plus, les projets ne présentent pas tous la même profondeur dans l’analyse : le projet sur Cape Town se contente par exemple d’être une interrogation plutôt vague et guère argumentée sur les buts de la télédétection. Enfin, on pourra également regretter l’absence de prise en compte de projets de recherche actuels visant à approfondir la démarche d’accès aux données géospatiales : on pensera instinctivement aux travaux du groupe Grassroots mapping, dont les membres utilisent des ballons et cerfs-volants pour réaliser des relevés du sol en l’absence de satellite. De même, les récents travaux sur la construction do it yourself de satellites auraient pu constituer un contrepoint intéressant aux grands réseaux de télédétection cités. Malgré ces quelques écueils, Laura Kurgan a le grand mérite de dépasser le manque de travaux sur les rapports de pouvoir qui accompagne les technologies de représentation satellitaires, thème par ailleurs abondement traité depuis Harley (1989) par le courant de la géographie critique, mais portant uniquement sur les SIG et les cartographies. A travers ce livre, elle combine un regard constructiviste hérité des STS avec une pratique artistique sur son objet de recherche : un mélange des genres pertinent que l’on aimerait rencontrer plus souvent.

Laura Kurgan, Close up at a distance – Mapping, technology and politics, 2013, Zone Books, New York.

Bibliographie

Gitelman, Lisa, (dir). 2013. “Raw Data” Is an Oxymoron. Cambridge, London : MIT Press. Recension sur cartonomics

Harley, John B. 1989. « Deconstructing the Map ». Cartographica: The International Journal for Geographic Information and Geovisualization, vol. 26, n° 2, pp. 1–20.

Latour, Bruno. 2005. « From Realpolitik to Dingpolitik, or How to Make Things Public ». In Making Things Public: Atmospheres of Democracy, Cambridge, London : MIT Press, pp. 14–41. Latour, Bruno. 2009. Sur Le Culte Moderne Des Dieux Faitiches Suivi de Iconoclash. Paris : La Découverte.


Share
 

Certain.e.s d’entre vous le savent déjà, mais c’est officiel, je passerai l’année scolaire 2013-2014 en tant que postdoctoral fellow à l’université du Michigan, Ann Arbor . Il s’agit d’un poste à la croisée de la school of information et du department of communication studies de cette université, au cours duquel j’aurai l’occasion de faire avancer le champ émergent de l’étude des infrastructures (“infrastructure studies”). Ce cadre me semble idéal pour développer un projet de recherche à la croisée de l’ethnographie de base de données et le travail collaboratif entre ingénieur et chercheurs en SHS dans les projets de digital humanities.AA

Share
 

Le livre “Raw data is an oxymoron” édité par Lisa Gitelman et publié aux MIT press en 2013 vise à tordre le coup à un non-sens trop présent à l’heure des big data et open data : il existerait des données « brutes » qui n’attendraient que l’action du chercheur, de l’informaticien ou du designer graphique pour livrer tout leur sens. Au contraire, les auteurs de cet ouvrage s’appuient sur des recherches issues de l’histoire des sciences ou des STS (sciences, technologie et société) pour démontrer que la donnée n’est jamais — malgré son étymologie — « donnée » : elle résulte au contraire d’une construction qui doit être mise en lumière au travers des contextes d’émission, des acteurs intervenant dans ce processus et des usages prescrits aux données. L’intérêt principal de cet ouvrage provient du décentrement qu’il offre par rapport aux enjeux actuels concernant les données numériques, à travers l’histoire de la production, de l’utilisation et de la circulation des données au sein de plusieurs secteurs allant de la science à la citoyenneté : mathématiques, économie, astronomie, science citoyenne ou encore tactical media.

Raw data

Daniel Rosenberg nous apprend ainsi que l’usage du terme « donnée » ne date pas des révolutions statistiques et bureaucratiques du 19ème siècle, ni de l’informatique du 20ème siècle : il est présent dès le 18ème siècle, notamment à travers les travaux de Joseph Priestley.  Le codage des occurrences du terme dans les corpus de livres de Google Books et d’ECCO (Eighteenth-Century Collections Online) met également en avant le tournant qu’a pris le terme durant ce siècle : alors qu’il désignait auparavant un paramètre axiomatique de l’expérience scientifique, il désigne au fur et à mesure le résultat d’une expérience ou d’une collection. Rosenberg nous affirme ainsi que le terme de donnée est intrinsèquement rhétorique : il sert de base à l’argumentation et doit être relié au contexte et aux différentes stratégies argumentatives auxquels il sert de base.

Quel meilleur moyen de combattre le mythe de la donnée brute que de mettre en avant les multiples étapes de sa création ? Si les informaticiens actuels se plaignent souvent du douloureux travail de « nettoyage » des données au cours duquel celles-ci sont structurées et rendues prompts aux réutilisations, il n’a rien de nouveau : Kevin R. Brine et Mary Poovey nous décrivent l’étude d’Irving Fisher à la fin du 19ème siècle sur l’usage du terme « capital » dans les livres d’économie de son époque, qui lui a demandé d’« enlever les éléments incorrects ou inopportuns des données disponibles, de combler les données manquantes, et de les formater de manière à ce qu’elles s’ajustent avec les autres données » (p. 70). De même, Ellen Gruber Garvey nous présente une autre aventure de « data mining » en version Steampunk des années 1830 au cours de laquelle les militants abolitionnistes américains Angelina Grimké Weld, Theodore Weld et Sarah Grimké ont trié, catégorisé et annoté des publicités d’esclavagiste provenant de vingt-mille journaux, afin d’en faire un outil de combat contre l’esclavage.

Les différentes contributions au livre de Lisa Gitelman soulignent également les difficultés autour du traitement temporel des données, entre passé et futur. Dans le cadre des recherches sur l’« accélération séculaire », Matthew Stanley décrit les difficultés pour reconstituer le positionnement de la lune lors d’éclipses passées à partir de la consultation d’archives : les astronomes n’utilisaient guère le terme « éclipse » pour rendre compte de cet événement, mais davantage des descriptions vagues telles que « le jour s’est transformé en nuit » (p. 85). Ces multiples approximations appellent alors tout un travail de reconstruction a posteriori des données. À l’inverse, David Ribes et Steven J. Jackson se demandent comment garantir la comparabilité à long terme des données. À partir de l’analyse ethnographique d’une initiative de sciences citoyennes qui dure depuis seize ans, les auteurs décrivent les différents « trucs » utilisés pour palier aux constants changements dans les conditions de collecte des données, aussi bien au niveau des personnes les réalisant, de l’environnement mesuré que des infrastructures pour stocker ces données.

Au terme de la lecture de cet ouvrage, on peut se demander si le terme de « donnée » mérite encore d’être utilisé, ou s’il n’apporte pas davantage de confusion. Dans un autre cadre, Johanna Drucker a proposé de remplacer le terme de « data » par celui de « capta », justement pour souligner l’effort de captation et la construction inhérente à la donnée. On pourra toutefois retenir la remarque de Daniel Rosenberg sur l’utilité du terme : alors que les notions de fait, de vérité et d’évidence ont déjà été amplement déconstruites ­— la récente traduction en français de l’ouvrage de Lorraine Daston et Peter Gallison devrait accentuer les remises en question du terme d’objectivité ­— il peut s’avérer toutefois nécessaire de conserver « un ou deux irréductibles » (p. 18) : la « donnée » constitue alors le « terme frontière » minimal pour transcender les disciplines et les secteurs d’utilisation.

Si le terme est à conserver, il reste toutefois nécessaire de faire ressortir ses étapes de construction lors de son utilisation, afin d’éviter toute naturalisation. Le débat se pose actuellement de manière vive à travers les multiples infographies et visualisations d’information qui se multiplient en ligne, par exemple dans les secteurs du journalisme de données ou de la recherche en SHS, comme l’a montré la journée d’étude PRATIC du 25 février 2013, « De la “data science” à l’infovisualisation ». Accompagner une visualisation des données utilisées est une première étape nécessaire, mais insuffisante ; elle peut en outre accompagner une rhétorique de la transparence. On citera sur ces deux points le Data blog du Guardian, où les journalistes publient systématiquement les données utilisées, ce qui n’apporte toutefois pas les informations nécessaires pour comprendre toutes les étapes de transformations entre la donnée et sa mise en forme, en plus de soutenir une rhétorique de l’empowerment par les données.

Devant ce projet de mise en avant des conditions de création des données, une difficulté demeure. Si les articles regroupés par Lisa Gitelman possèdent une telle finesse dans l’analyse des données, c’est en partie parce qu’ils bénéficient du temps long de la recherche et de la place allouée pour développer une pensée. Comment faire tenir ensemble l’utilisation des données et la présentation de ses étapes de construction dans des secteurs régis par une temporalité moins généreuse, tels que le journalisme ou le design ? L’exercice peut s’avérer périlleux, notamment du fait que l’exploitation visuelle des données se base sur les propriétés synoptiques des formes choisies, où les informations seraient accessibles immédiatement, ce qui laisse peu de place aux développements paratextuels et autres notes de bas de page. Sans revenir à l’index de soixante-douze pages qui a accompagné un des premiers usages des diagrammes — A chart of biography de Joseph Priestley (1756) — il est nécessaire d’imaginer de nouvelles pratiques de publication ne se contentant pas de mettre en ligne les données utilisées, mais explicitant également la manière dont celles-ci ont été construites. S’ils ne portent pas directement sur ces enjeux et questions, les différents cas d’étude réunis par Lisa Gitelman permettent toutefois de fournir des outils pour y réfléchir.

« Raw data » is an oxymoron, Lisa Gitelman (dir.), MIT Press, Infrastructures (coll.), 2013, 182p.

Share
 

Je suis finaliste pour le Prix de thèse 2013 “Guy Deniélou” à l’UTC. On m’a demandé de faire un joli poster présentant mon parcours de thèse. J’ai pas résisté, je l’ai fait à partir de cartes.

Diapositive1

Share
 

Je vais avoir l’occasion de donner plusieurs conférences très rapprochées sur des thèmes connexes, inaugurant la mise en route de nouvelles perspectives de recherche, que j’espère développer pour plusieurs années. Voici la roadmap:

25 mars 2013: “De la diversité des humanités numériques : une exploration des pratiques“, EHESS, Paris. Cette journée au programme fort alléchant sera très certainement un très bon contexte pour obtenir des feedback sur le projet d’ethnographie de laboratoire que je mets sur pied actuellement et qui portera sur les pratiques de DH et les mutations afférentes en SHS.

2 avril 2013: ”Capta & Data - Du traitement des données en sciences humaines“, Equipe Arts : Pratiques et Poétiques, Rennes 2, organisé par Nicolas Thély: cette journée regroupe plusieurs théoriciens en esthétiques, chercheurs en SHS et informaticiens, qui présenteront différents projets en DH. Je parlerai pour ma part des enjeux qui accompagnent le passage de la donnée à la visualisation dans la pratique des SHS, le tout en écho avec la journée d’étude PRATIC intitulé “de la “data science” à la visualisation d’information”, dont Rémi Sussan vient de faire un très bon 1er compte-rendu sur InternetActu.

3-4 avril 2013: “3èmes journées d’études de l’Institut des Humanités Digitales de Bordeaux“, Maison des Suds, co-organisé par notre cher Neuromancien des SIC. La pluralité des statuts des invités permettra certainement de réfléchir à la fois sur les pratiques en de DH et sur les infrastructures nécessaires pour les soutenir. Je parlerai pour ma part des enjeux du recours à des visualisations dans le cas de projets de DH.

Une belle actualité autour des DH françaises: voilà qui va faire plaisir à Samuel L. Jackson:

saydh on more goddamn time

Share
 

Article publié sur le site d’Inaglobal, en voici l’intro:

Sept ans après sa sortie en ligne, le service Google Maps peuple le Web et les applications mobiles jusqu’à faire figure de référence en matière de fonds de carte numérique. Toutefois, de récents changements dans la stratégie de Google  pourraient remettre en cause cette position dominante. Parallèlement, la montée en puissance d’OpenStreetMap (ou OSM), service de cartographie collaborative sous licence Creative Commonssemble également bousculer le monopole de la firme de Mountain View. Quelles sont les reconfigurations actuelles du marché de la cartographie en ligne ?

Share
 

J’ai eu le plaisir d’être récemment invité à l’émission Planète Terre de Sylvain Kahn, pour parler de cartographie numérique. J’ai pu converser avec Thierry Joliveau, auteur du blog Monde Géonumérique, un incontournable pour qui veut suivre les débats sur le sujet. L’émission est toujours disponible en Podcast ou directement sur le site.

Nous avons parlé de l’émergence de la carte Web et de ses ruptures/continuités avec les précédentes formes de carte numérique, des mutations de la spatialité contemporaine à travers les applications mobiles, des possibles évolutions du Web géospatial, pour finir sur quelques pistes concernant l’usage de cartographies numériques (et particulièrement Open Street Map) pour renouveler l’enseignement de la cartographie dans le secondaire. Ce thème final à suscité de nombreux commentaires sur la page de l’émission, et quelques pistes en ce sens sont proposé par Sylvain Genevois dans un billet de blog suite à l’émission.

Share
 

La semaine précédente s’est tenue la Winter School 2013 de la Digital Methods Initiative (DMI) de l’Université d’Amsterdam. Le thème de cette session 2013 a été “Data Sprint: The New Logistics of Short-form Method”, en référence à l’exécution d’un projet de recherche à composante numérique sur une très courte période. D’une certaine manière, ce thème n’est en rien original à 2013 pour la DMI, car c’est la forme que prend la plupart de leurs événements, qui recoupent les étapes suivantes:

  1. Constitution de groupes, en général lors d’un événement comme les Winter School ou de rencontres avec d’autres chercheurs
  2. Recherche de données / réutilisation de données déjà existantes
  3. Approfondissement / émergence de questions de recherche
  4. Développement d’outils / utilisation et adaptation d’outils déjà existants
  5. Création de résultats et de visuels, et présentation au public

Lors des Winter et Summer Schools de la DMI, ces étapes sont en général réalisées en l’espace de quelques jours (2 jours pour la session 2013). Les avantages sont que la présence de différentes compétences et intérêts de recherche rend la réalisation de nombreux projets possibles, en plus de bénéficier d’un milieu prompt à faire éclore de nouvelles perspectives de recherche. Enfin, l’excitation due à l’échéance proche rend beaucoup de choses possibles, de manière parfois inattendue. Les inconvénients sont toutefois l’impossibilité de tester des hypothèses d’une très grande ampleur, de peur de ne pas avoir de résultats pour la restitution collective, et le fait de se baser très fortement sur les données, les outils et les processus déjà existants (même si de nombreux outils sont développés ad hoc, justement dans le but d’extraire de nouvelles sources de données).

L’édition 2013 a comme toujours été extrememnt prolifique: je vous laisse consulter les divers projets issus de ce “datasprint”. Pour ma part, j’ai travaillé pendant ces quelques jours avec de brillants collègues sur un très intéressant projet de métriques alternatives à la publication pour visualiser l’activité scientifique, champ émergent répondant au doux nom de “post-scientometrics”.  Suspense, un billet de blog va bientôt arriver!

Anne Helmond (PhD Candidate), Professor Jill Rettberg, Dr. David M. Berry, and Dr. Jean-Christophe Plantin. Not pictured: Erik Borra, PhD Candidate (Amsterdam January, 2013). Source

Ces rencontres ont également été l’occasion de réaliser une parallèle avec une forme similaire de création de connaissance: le booksprint. Il s’agit de rassembler pendant une courte période de temps un petit nombre de personnes qui partagent des connaissances communes sur une même sujet pour leur faire rédiger un livre, de la rédaction jusqu’à l’impression. Si l’aventure semble impossible à réaliser en un si court laps de temps, elle a toutefois fait ces preuves depuis plusieurs années dans le milieu du logiciel libre, (par exemple les FLOSS manuals) afin de rédiger les manuels techniques, tutoriaux et autres documentations que les développeurs sont en général peu enclins à réaliser. Toutefois, on trouve des exemples de booksprints appliqués à un livre d’esthétique des nouveaux médias ou un manuel de rédaction de contrats reliés à l’industrie pétrolière.

“New Aesthetics, New Anxieties”, rédigé lors d’un booksprint de 5 jours du 17 au 21 juin 2012.

David Berry, chercheur en Digital Media à l’université de Swansea – qui est récemment passé en France pour un séminaire dans le cadre du programme de recherche SACRED – nous a livré ces retours d’expériences en la matière. Les étapes du booksprint sont les suivantes:

  1. Brainstorming et rédaction du plan
  2. Structuration du livre; division des chapitres, séparation des tâches. Ces deux parties doivent dans l’absolu être achevées le 1er jour, afin de laisser le plus de temps possible à la rédaction
  3. Écriture en tant que telle. Il est possible de passer par des logiciels qui visent à faciliter le travail à plusieurs
  4. Mise en page et éventuels retours sur le contenu: lorsqu’un niveau important de contenu a été atteint, un retour sur la structuration finale du livre est en général à effectuer, du fait que le plan a en général bougé depuis le premier jour.. Cette étape se termine par une relecture globale, en général collaborative, puis la correction et la mise en page
  5. Publication du livre (en général un PDF, mais c’est apparemment plus facile de motiver les troupes en proposant de rédiger un livre en 5 jours plutôt qu’un fichier numérique)
David Berry replaçant le booksprint dans les évolutions contemporaines de la production universitaire – crédit: Anne Helmond

Les retours d’expérience de David Berry ont été agrémentés par un entretien vidéo avec Adam Hyde, “facilitateur” de book sprint, qui en a déjà plus d’une cinquantaine à son actif (il détaille sa méthodologie ici et dans une vidéo ici). Il a livré plusieurs éléments sur le rôle clé que doit avoir le facilitateur durant le booksprint: celui-ci sert avant tout à susciter la collaboration de chacun, à gérer les situations de stress des participants, les possibles désaccords entre auteurs sur le contenu ou la forme du travail collaboratif, et à réduire au maximum toute forme d’intrusions du monde extérieur.  Il a également décrit le travail nécessaire sur les conditions extérieures: nécessité d’avoir un endroit calme et sans trop de tentations (par exemple un château, une maison de campagne), un grand stock de café, de la nourriture attirante (il a évoqué un booksprint qui s’était doté d’un cuisinier privé).

Un point particulièrement difficile est de susciter chez les auteurs la prise de risque et d’oser la discussion et la réflexion collective pour faire éclore de nouvelles idées. Ces deux choses sont particulièrement difficiles à gérer devant une échéance aussi pressente, où le réflexe de chacun peut être de remplir sa partie au plus vite. La production collaborative et dans un temps réduit peut en effet se heurter à une absence de culture de collaboration, mais également à la difficulté de s’engager dans une production dont on ne pense pas maîtriser tout le processus, ce qui tend notamment à effrayer les universitaires.

Share
 

Après trois ans de travail, ma thèse de doctorat en sciences de l’information et de la communication intitulée « les pratiques de cartographie numérique en ligne : expression, remédiation, circulation » a été soutenue le 6 décembre 2012 à l’Institut du Management de l’Information (Université de Technologie de Compiègne), Paris. Voici la page de description de l’événement.

La thèse en quelques chiffres :

  • inscription en thèse à l’UTC en septembre 2009;
  • début de la rédaction le 8 février 2012, la V1 rendue le 15 juillet 2012, dépôt de la version finale à l’Ecole Doctorale le 15 octobre 2012;
  • 37 cartes mashups analysées dans 2 corpus ;
  • 413 pages, 124 347 mots, 650 633 signes (sans espaces), 3 420 paragraphes, 10 511 lignes
  • 38 pages d’annexe
  • 137 figures
  • 259 références bibliographiques
  • 6 membres du jury
  • une quarantaine de personnes dans la salle pour la soutenance
  • 6 bouteilles de champagne
  • Une quantité inquantifiable d’encouragements reçues tout au long de la thèse et lors de la soutenance. Encore merci à toutes celles et ceux qui m’ont accompagné et soutenu dans l’aventure !

Suivant l’usage, la thèse sera découpée en articles et billets de blog, qui seront publiées sur ce site. Stay tuned ! En attendant, une fois passé le soulagement post-soutenance, voici quelques réflexions sur les avantages et inconvénients de la thèse en trois ans.

Thèse en trois ans, mon amour

  • Offrir la possibilité de sortir encore jeune de la thèse et donc d’être encore plein d’énergie pour partir vers de nouvelles aventures de recherche – et affronter les épreuves post-thèse ;
  • passer pour un bon élève auprès de ses directeurs/Ecole doctorale/agences de financement. A contrario, à défaut d’attirer l’estime, on attire la compassion et l’indulgence des personnels universitaires devant la rigueur des nouveaux formats de la thèse (et les désagréments afférents, cf. plus bas)
  • garder la thèse en trois ans permet de davantage la considérer comme un travail (on signe un CDD de trois ans) et ainsi d’enlever le “folklore” qu’elle revêt parfois et d’alléger la charge idiosyncrasique qu’elle peut prendre. Pour le dire simplement, en trois ans, vous avez moins le temps de bassiner votre entourage avec votre thèse qu’en cinq, et vous gardez des sujets de conversation quand vous êtes en société.

Une relation amour-haine

  • trois ans de travail sur une thèse représentent une charge de travail qui ne peut pas, de toute évidence, être accomplie avec une semaine de travail « normale », et il ne faut pas trop être trop regardant sur les « working holidays » et les weekends qui ressemblent à des jours de semaine. On pourra toutefois objecter que c’est loin d’être exceptionnel dans la profession d’universitaire, et en rien spécifique aux doctorants.
  • La charge de travail pour rester dans la limite des trois ans diminue les occasions de se créer un réseau très étendu avant la soutenance : il est parfois difficile de se dégager du temps pour assister à des conférences, rencontres et ateliers de sa communauté scientifique. Or, les contacts que l’on peut mobiliser dès la sortie de la thèse sont des ressources majeures pour la suite de la carrière.
  • Il est très difficile de jouer simultanément sur le front de la thèse et sur celui des publications, c’est-à-dire à la fois finir sa thèse dans ce temps imparti et de produire des articles de qualité publiée dans des revues de rang A.
  • Le temps imparti empêche de se plonger dans un cadre théorique massif, ou de faire se confronter des cadres théoriques importants. En clair, pas le temps d’interroger les fondements de philosophie habermassienne en trois ans, il faudra davantage se contenter de l’« utiliser ». L’avantage va alors à ceux qui ont pu réaliser une mémoire de Master 2 sur le même thème que la thèse. Mais dans tous les cas, on peut craindre que les thèses actuelles et à venir perdent une certaine profondeur théorique qu’elles avaient naguère.

Au final, le résultat reste le même : le nombre d’année de fortification de son CV avant ou après la réforme de la thèse en trois est identique. Soit on fait une thèse en 4 ou 5 ans, tout en pouvant – en théorie – produire de bons articles durant cette période ; soit on finit rapidement sa thèse, puis on passe un ou deux ans à faire les publications que l’on a pas eu le temps de faire.

Or, pour un résultat similaire, la deuxième formule a toutefois les avantages susmentionnés, avec un net avantage en terme de qualité de vie.

La suite

La suite de mes recherches portera sur les mutations contemporaines de la pratique des SHS à travers l’arrivée des outils numériques et du Web. Plusieurs courants proposent chacun un croisement entre recherche en SHS et numérique : Digital methods (Rogers, 2004, 2009), Cultural Analytics (Manovich 2007) ou Computational Humanities (Manovich 2012) ou encore Digital Humanities.

Ce sujet n’est pas si éloigné qu’il en a l’air de la thèse : alors que cette dernière portait sur la cartographie numérique, le travail de terrain a également mis en avant l’importance du traitement des données, préalable à leur cartographie. C’est la connexion entre cette étape des données et celle de leur médiation que j’aimerai traiter. Mais au lieu de porter uniquement sur les pratiques de remédiation dans le cadre de controverses, elles porteraient sur les pratiques de recherche en SHS. Au lieu de se concentrer uniquement sur la carte géographique, il s’agirait d’analyser d’autres médiations, celles mobilisées dans la pratique scientifique.

Plusieurs questions sont en émergence :

  • Quels sont les enjeux qui accompagnent la place grandissante des données dans la recherche en SHS ?
  • Quelles sont les médiations que les chercheurs en SHS se donnent, quelles sont les conditions de véridicité qu’elles apportent ?
  • A l’instar de la carte, voit-on s’opérer des glissements professionnels devant la montée des digital Humanities, et particulièrement dans la coopération entre informaticiens et chercheurs ?

Ce projet de recherche post-doctoral prendra la forme d’une enquête ethnographique de laboratoire, avec la prise en compte des outils, méthodes et outils numériques. En plus d’approfondir mes connaissances des STS et de l’enquête ethnographique, il sera l’occasion de tenter des connexions avec les software studies et les code studies. Le tout fera l’objet d’une présentation lors de la Digital Methods Initiative Winter School 2013 le 22 janvier, et les terrains sont en cours de négociation, plus de nouvelles très prochainement !

Share
 

Hal Varian, chief economist chez Google le disait déjà en 2009:

I keep saying the sexy job in the next ten years will be statisticians. People think I’m joking, but who would’ve guessed that computer engineers would’ve been the sexy job of the 1990s?

Ce billet vise à présenter le profil de data scientist, terme que l’on rencontre de plus en plus fréquemment au carrefour des pratiques autour de l’open data, des big data ou des digital humanities. 

Data what?

Devant les grandes masses de données présentes en ligne, le terme de data science tente de recouvrir un ensemble de compétences nécessaires à l’acquisition, au traitement et à l’analyse de données.

Comme le formule Drew Conway pour répondre à la question “what is data science” sur Quora:

(…) data science most often refers to the tools and methods used to analyze large amounts of data.  As such, the discipline is an amalgamation of many bits from other areas of research.  For tools, the influence primarily comes from computer science, where issues of algorithmic efficiency and storage scalability form the main focus.  For analysis, however, the influences are much more varied. Modern methods are borrowed from both the so-called hard sciences (physics, statistics, graph theory) and the social sciences (economics, sociology, political sciences, etc).  Specific classes of techniques that are naturally interdisciplinary are also very popular, such as machine learning.

Quelles compétences pour les data scientists?

Hal Varian détaille également sa conception du travail de data scientist :

The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it—that’s going to be a hugely important skill.

De même, le blog de l’entreprise Dataspora met en avant trois tâches constituant le travail de science des données :

  • Statistics : pouvoir analyser statistiquement un grand ensemble de données ;
  • Data munging : aka “the painful process of cleaning, parsing, and proofing one’s data before it’s suitable for analysis”;
  • Data visualization :  la restitution visuelle du travail sur les données, à travers l’utilisation de langages de programmation comme R pour les visualisations statiques, ou des outils de visualisation dynamiques tels que Processing.

On pourra objecter que le travail d’analyse se situe tout au long du processus, et non uniquement à la première étape : le travail d’acquisition-nettoyage des données (étape 2) et leur visualisation a justement pour but de faciliter l’analyse des données une fois rendues plus lisibles.

 

Enfin, DJ Patil, l’inventeur avec Jeff Hammerbacher du terme Data science, récapitule dans une interview pour le site O’reilly les étapes du travail du data scientist :

  • Finding rich data sources.
  • Working with large volumes of data despite hardware, software, and bandwidth constraints.
  • Cleaning the data and making sure that data is consistent.
  • Melding multiple datasets together.
  • Visualizing that data.
  • Building rich tooling that enables others to work with data effectively.

C’est donc à une multitude de compétences que fait appel cette pratique de science des données, généralement séparées entre statisticien, designer et programmeur, comme le remarque Nathan Yau sur flowing data:

Statisticians should know APIs, databases, and how to scrape data; designers should learn to do things programmatically; and computer scientists should know how to analyze and find meaning in data.

Ce glissement des compétences professionnelles est également remarqué malicieusement par le porteur du projet Gephi, Sébastien Heymann :

Les critiques du terme

De nombreuses réactions portent sur le terme même de data science pour désigner cette pratique. En effet, plusieurs acteurs mettent en avant l’absurdité de ce terme : les données sont un matériau de la pratique scientifique et ne peuvent devenir le point de concentration de celle-ci, comme le rappelle Drew Conway:

First, the term “data science” is a misnomer with respect to what most people consider endeavors classified as such.  Fundamentally, “science” is about formalizing a hypothesis given a reasonable set of observations and assumptions, designing an experiment around that hypothesis, testings it and analyzing the data generated through that process to either confirm or falsify the hypothesis.  Therefore, “data” is simply a natural byproduct of science.  Very (very) rarely are things labeled as data science actually scientific.

De plus, d’autres avis tendent à arrêter le terme à l’acquisition et au nettoyage des données, en excluant la pratique de visualisation de données, comme le formule Flip Kromer:

A set of tools to expose insight or make predictions by drawing on the data’structure rather than primarily its content.

Troisième, Jérôme Denis met en avant le fait que les données, quelque soit leur provenance, ne sont jamais brutes. Il développe ce point de vue à l’occasion d’un commentaire d’un billet sur le site Internet actu à propos d’un article sur l’ouverture des données publiques : toutefois, ce constat correspond aux données en issues du Web et big data. Rappelant les apports des STS, il rappelle que:

Les données sont toujours adressées, elles répondent à des questions, équipent des activités précises.

Enfin, Harlan Harris, lors d’une présentation intitulée « what is data science anyway ? », conteste également la nouveauté du terme : il cite en effet l’existence d’un journal of data science datant de 2003. Sur ce point, Gil Press propose également une archéologie des pratiques de data science.

Le programmeur Pete Warden est d’accord avec un grand nombre de critiques adressé au terme de data science : ce n’est pas une vraie science, le terme est incongru et il recouvre une diversité de pratiques et de points de vue. Toutefois, il met en avant dans O’Reilly Radar le fait que ce terme, avec tous ces défauts, constitue un « objet-frontière » permettant à un ensemble de professions disparates de communiquer et d’agir ensemble :

We need a term to describe this movement, so we can create job ads, conferences, training and books that reach the right people. Those goals might sound very mundane, but without an agreed-upon term we just can’t communicate.

PS. Un pearltree sur les ressources en ligne à propos de la science des données est disponible ici.

Share
© 2012 Cartonomics: Space, Web and Society Suffusion theme by Sayontan Sinha