Amaël Cattaruzza : « La géographie ne peut plus faire l’économie de l’étude des données numériques et de leurs conséquences socio-spatiales »

Posted on 30 mars 2019 by societegeo in Les géographes lisent le monde // 0 Comments

Elles sont désormais omniprésentes dans nos vies. Des applications de nos smartphones à nos cartes bancaires, de notre supermarché habituel aux feux de circulation, nos manières de vivre, d’habiter ou de se déplacer produisent une quantité gigantesques de données numériques. Géographe et maître de conférences au Centre de Recherche des écoles de Saint-Cyr Coëtquidan, Amaël Cattaruzza consacre depuis plusieurs années ses recherches à la dimension géographique et géopolitique de ces données. A l’occasion de la parution de son dernier ouvrage Géopolitique des données numériques. Pouvoir et conflits à l’heure du Big Data (Le Cavalier Bleu), il nous explique en quoi celles-ci sont devenues un enjeu actuel et futur pour nos sociétés.

Le titre de votre dernier ouvrage Géopolitique des données numériques. Pouvoir et conflits à l’heure du Big Data (Le Cavalier Bleu) a de quoi surprendre. En quoi des données numériques se rapportant à première vue à un monde virtuel instable peuvent-elles être considérées comme des éléments dessinant une géopolitique bien concrète ?

Mon objectif dans cet essai est d’essayer de dessiner les contours de ce que pourrait être, à mon sens, une géopolitique des données numériques. Mais cette question m’amène d’abord à préciser ce qu’on peut entendre par géopolitique. Qu’on la définisse en France comme « l’étude des rivalités de pouvoir sur des territoires » (Lacoste) ou « l’étude de l’espace en tant qu’enjeu » (Rosière), on centre de toute manière nos recherches sur les acteurs, en s’intéressant à la manière dont ils investissent et envisagent l’espace. Cela nous informe sur les relations qu’ils entretiennent entre eux dans différents contextes socio-spatiaux, que ces relations soient basées sur des rapports de force, des négociations, des coopérations, des échanges, ou même de l’indifférence.

Les données numériques ne font pas exception en ce sens qu’elles sont devenues un vecteur de relations entre des acteurs, dont certains sont nouveaux (les entreprises du numériques comme les Gafam – Google, Amazon, Facebook, Apple, Microsoft – ou encore ceux que l’on appelle les data workers dans les firmes qui travaillent avec les données, et qui sont devenus des personnes-clefs quel que soit le secteur d’activité) et d’autres plus anciens (Etats, acteurs privés, société civile, citoyens, etc.).

Ensuite, la question postule que les données numériques relèveraient d’un « monde virtuel ». Ce n’est pas vraiment le cas. L’ensemble des machines numériques et des infrastructures qui leur permettent d’exister est bien réel avec une inscription dans l’espace très prégnante (datacenters, câble sous-marins, etc.). En réalité, on a l’habitude aujourd’hui de considérer cette question des données numériques à travers une approche par « couches », un peu comme en géologie. Selon l’approche la plus simple, on décrit l’espace numérique au travers de trois couches distinctes et interdépendantes :

la couche matérielle (l’ensemble des infrastructures physiques allant de l’ordinateur au datacenter, en passant aujourd’hui par les objets connectés) ;
la couche logique (l’ensemble des protocoles et des applications qui permettent aux données numériques d’être produites, échangées et traitées) ;
la couche informationnelle (l’ensemble des contenus informationnels, qui permettent aux usagers d’attribuer aux données de la valeur et du sens).

Au travers de cette approche, on peut du coup entrevoir des relations géographiques et géopolitiques entre les acteurs. Pensez par exemple à la domination américaine sur les infrastructures numériques aujourd’hui (couche matérielle). Ou encore à la compétition qui s’exerce sur la scène internationale pour acquérir de nouvelles compétences sur l’Intelligence Artificielle par exemple (couche logique). Ou, enfin, aux luttes d’influences qui se jouent via l’espace numérique, dont une partie est aujourd’hui très médiatisée (influence russe, lutte contre la propagande islamique, diffusion des fake news, etc.).

La conjonction de ces différents éléments a ainsi amené le politiste Joseph Nye, inventeur de la notion de Soft Power, à définir en 2010 celle de Cyber Power, qui repose sur « l’ensemble des ressources liées à la création, au contrôle et à la communication de l’information électronique et informatique – infrastructures, réseaux, logiciels et compétences humaines ».

Les données numériques sont souvent présentées comme la chasse gardée du data scientist qu’il soit statisticien, informaticien ou mathématicien. Vous invitez toutefois à les considérer sous un angle sociopolitique. Selon vous, qu’est-ce que les sciences sociales peuvent apporter à leur compréhension ?

Je précise d’emblée qu’il ne s’agît pas pour moi, qui ne suis pas ingénieur, de nier l’importance de la dimension technique pour travailler sur les données numériques. Celle-ci est fondamentale et il faudrait que tout le monde aujourd’hui puisse la comprendre, à défaut de la maîtriser. Mais on ne peut pas saisir l’ensemble des enjeux liés au numérique aujourd’hui en ne s’intéressant qu’à la question technique. Prenons un exemple célèbre pour illustrer cela, celui d’Halford Mackinder, grand géographe britannique du début du XX^ème siècle. A cette époque, il invitait à considérer la dimension stratégique que revêtaient les espaces continentaux par rapport aux espaces maritimes du fait de l’invention et de la diffusion du chemin de fer. Il ne s’agissait pas ici d’étudier la technique du train en tant que telle, comme seul un ingénieur pouvait le faire, mais d’entrevoir ses conséquences aux niveaux géographique et géopolitique.

C’est un peu la même chose qu’il faudrait faire aujourd’hui avec les données numériques. Autrement dit, ne pas se focaliser sur leur dimension strictement technique, mais les considérer de manière plus globale au travers des modifications sociales et politiques qu’elles induisent. Sur cette question, je me contente d’ailleurs de faire l’écho de différents travaux comme ceux du géographe irlandais Rob Kitchin, du sociologue français Dominique Cardon, ou plus généralement des approches développées entre autres par Bruno Latour en sociologie des sciences. Les données numériques ne sont en aucun cas des objets neutres, qui existeraient indépendamment de nous, et qui seraient un reflet fidèle du monde qui nous entoure. Pour exister, ces données doivent avoir été captées. Et cette captation est en amont le fruit d’une décision humaine. Cette décision dépend d’un contexte social et technique, qui, lui-même, impacte fortement la forme que prennent ces données.

Prenons quelques exemples pour illustrer tout ça. D’abord, regardons le cas des données personnelles, et plus particulièrement celui des données sur la santé des individus. Nous voyons bien que cette question ne suscite pas les mêmes préoccupations en Europe et Outre-Atlantique. Le contexte social, politique, culturel peut en partie expliquer le fait que ce qui fait l’objet d’un gigantesque marché aux Etats-Unis soit considéré de manière beaucoup plus confidentielle en Europe.

Autre exemple, assez médiatisé, celui des outils dit de « police prédictive ». Aujourd’hui, certaines villes américaines, comme Oakland, qui avaient été parmi les premières à utiliser ce type d’outils, ont fini par abandonner cette pratique, et par résilier les contrats qui les liaient à ces firmes. Les retours d’expérience sur cette question étaient, pour le coup, intéressants. La « prédiction » statistique opérée par ces outils était basée sur de gigantesques corpus de données géolocalisées concernant la criminalité dans la ville. Du coup, les « prédictions » avaient tendance à se concentrer sur des quartiers que les agents de sécurité considéraient déjà comme sensibles – ce que les retours d’expérience qualifiaient de « prédictions de banalités ». Par ailleurs, plusieurs associations dénonçaient également les biais de cet outil, ciblant plus particulièrement des quartiers « de couleurs ».

Ce qui est intéressant dans ces constats est qu’il ne s’agît pas de dénoncer l’outil de prédiction statistique en tant que tel, mais plutôt les biais initiaux du corpus de données que l’outil ne fait que renforcer. Ici, on le voit bien, les données ne sont pas neutres. D’où l’importance d’étudier la dimension sociopolitique qui entoure la production et l’usage des données numériques pour mieux anticiper les biais et les écueils que cette utilisation peut engendrer dans notre analyse et notre appréhension des situations.

Pour le chercheur, cette masse considérable de données peut autant être une mine d’informations qu’un véritable casse-tête dans la manière de les analyser. Quels sont aujourd’hui les principaux outils/méthodes pour les traiter ?

Soyons clairs, avec l’émergence d’un modèle dit de Big Data [1], il ne s’agît plus simplement d’un casse-tête, mais tout simplement d’une impossibilité physique pour un être humain d’appréhender l’ensemble du corpus, et même d’en circonscrire les contours. Alors que nos techniques d’analyse de données étaient auparavant basées sur des échantillons que l’on pouvait décrire et critiquer, cela n’est plus le cas dans ce type de traitement. Les corrélations entre les données sont établies par des techniques algorithmiques. Cet essai n’a évidemment pas la prétention de faire le tour de la question. Mon but était plutôt de proposer une explication la plus simple possible des principes induits par ce type d’analyse. Qu’est-ce qu’un algorithme ? Qu’est-ce qu’une corrélation statistique et en quoi cette approche des données diffère d’une interprétation causale ? Quels sont les différents types d’algorithmes et qu’est-ce que cette diversité nous dit des processus à l’œuvre dans le traitement des données ?

En tant que géographe, ce qui m’intéresse est d’étudier ces techniques au travers des usages qui en sont fait dans différents contextes, comme dans le contrôle des frontières, les pratiques de surveillance, ou encore la gestion du champ de bataille. Mais on pourrait décliner aujourd’hui les exemples et les cas d’études à l’infini tant cette dimension numérique est devenue caractéristique de notre époque. J’aborde en particulier dans l’ouvrage la notion de code/espace, formulée par Rob Kitchin et Martin Dodge en 2011. Pensez pour illustrer ce concept à tous ces espaces qui n’existent aujourd’hui que grâce aux codes numériques qui leur donnent leur fonction et déterminent en partie leurs conditions d’existence. Que serait un aéroport, un supermarché, ou encore les routes et les feux de circulations, sans les codes qui les constituent ? Le constat est simple. La géographie, et je rajoute la géopolitique, ne peuvent plus faire l’économie de l’étude des données numériques et de leurs conséquences socio-spatiales.

Une part importante de votre ouvrage traite des lieux et réseaux physiques (datacenters, câbles, etc.) qui permettent la production de ces données. Est-il possible d’en dresser une géographie ? Si oui, laquelle ?

Bien sûr. On peut en particulier utiliser pour les données numériques des notions aussi triviales pour les géographes que celles de stock et de flux : les stocks via une géographie des datacenters par exemple, et les flux via une étude des câbles ou des techniques de routage des données, qui peuvent avoir des incidences à la fois géographique et géopolitique. Cette géographie existe d’ailleurs en France depuis déjà pas mal d’années grâce aux travaux de géographes comme Henry Bakis, qui a été pionnier en la matière. Il a en particulier montré les enjeux géographiques sous-tendus par la localisation d’un datacenter – qui doit répondre à des préoccupations énergétiques (les dépenses de ces infrastructures sont considérables), environnementales, mais aussi stratégiques (niveau de connectivité, proximité d’une dorsale internet, etc.). Plus récemment, les travaux de Frédérick Douzet et de l’équipe du centre GEODE (Géopolitique de la datasphère) ont montré différentes facettes de la dimension géopolitique de la couche physique du cyberespace. Kevin Limonier a, par exemple, étudié la construction de gigantesques datacenters en Sibérie, et la manière dont la Russie investit depuis plus d’une décennie dans le champ cybernétique pour des raisons clairement stratégiques. Plusieurs thèses sont aujourd’hui en cours sur ces questions, et fourniront bientôt des éléments nouveaux sur cette géographie des lieux et des réseaux physiques.

Dans l’ouvrage, j’interroge également une forme de territorialisation par le droit, qui me semble aujourd’hui à l’œuvre sur la scène internationale. La multiplication par les Etats de lois dites de data localisation, qui tentent de contraindre ou de restreindre les flux de données entrant et sortant du territoire national, en est une illustration. De même, le fameux Règlement Général sur la Protection des Données (RGPD) qui renforce la protection des données personnelles au sein de l’Union Européenne, est l’un des premiers exemples aboutis d’harmonisation régionale des textes réglementaires en la matière. Ces dispositifs juridiques sont assez récents – l’entrée en vigueur du RGPD date de mai 2018 – et il est encore trop tôt pour savoir s’ils auront un impact sur l’architecture physique de l’espace numérique, mais cela mérite, il me semble, d’être suivi.

La dernière partie de votre ouvrage traite des applications concrètes de cette nouvelle tendance à la datafication, notamment dans le domaine militaire. En quoi ce nouveau paradigme influence-t-il aujourd’hui la pensée stratégique ?

L’une des questions que j’aborde est celle de la numérisation du champ de bataille, en parallèle d’autres cas d’études comme le cas des smart borders (usage de technologies numériques dans le contrôle aux frontières) ou de l’évolution des techniques de surveillance. C’est une question centrale dans les armées aujourd’hui, et la manière dont cette numérisation est abordée dans les doctrines militaires aujourd’hui fait grandement écho à ce qu’on a appelé dans les années 90 la « révolution dans les affaires militaires » – expression qui nous vient directement des Etats-Unis. En clair, il s’agissait à l’époque de réagir à l’émergence de nouvelles technologies militaires – qui avaient été déployées lors de la Première Guerre du Golfe. Cela s’était traduit par une circulation inédite de l’information entre les différents niveaux de commandements (tactique, stratégique), et par une domination sans partage sur le terrain de la coalition sous leadership américain. Un grand nombre d’analystes avaient à l’époque formulé l’idée que l’acquisition de technologies militaires fournissait un avantage stratégique décisif pour prendre l’ascendant sur son adversaire. Ce type de raisonnement systématique s’est retrouvé en porte-à-faux lors des combats de la fin du XX^ème et du début du XXI^ème siècle, en particulier en Irak et en Afghanistan. On a vu alors des combats asymétriques se prolonger et mettre en difficulté des armées technologiquement avancées, face à des combattants beaucoup moins équipés, mais qui savaient faire feu de tout bois – et improviser des armements (les fameux IED – Improvised Explosive Device).

Il me semble qu’on traverse aujourd’hui une période similaire pour ce qui est de la question des données numériques sur le champ de bataille, souvent considérées de manière systématique par les doctrines comme des atouts stratégiques. Cela entraîne une multiplication des capteurs dans les équipements militaires, sans que soient prises en considération les potentielles vulnérabilités que ces technologies peuvent induire à différents niveaux.

L’apport des sciences sociales sur ces questions me semble donc nécessaire, pour sortir d’une étude simplement fonctionnelle, qui ne s’appuierait que sur les dimensions techniques, ou sur les doctrines. Il faut étudier l’usage de ces technologies de manière globale, en interrogeant la façon dont elles peuvent influer sur l’organisation militaire en tant que telle, les différentes formes de commandements, les réactions des soldats sur le terrain (stress induit par ces nouveaux outils, effet d’isolement, biais potentiels, etc.). Et il faut prendre en considération les vulnérabilités induites par la création illimitées de données, par exemple en cas de captation de l’adversaire. Enfin, il faut aussi prendre en compte les effets plus larges que la numérisation généralisée de nos sociétés engendre sur les guerres et les combats contemporains.

Ainsi, nos soldats sont souvent identifiables individuellement, comme chacun d’entre nous, via Facebook et l’utilisation qu’ils peuvent faire des réseaux sociaux. Cela est loin d’être anodin comme je l’explique dans l’ouvrage. Autre exemple particulièrement parlant, le cas de l’application Strava. Strava est une application sportive qui permet de mesurer ses performances sur la base de données géolocalisées, et de les comparer avec celles d’autres utilisateurs. Or, en janvier 2018, un étudiant australien avait réussi, en utilisant les données en open source générée par l’application, à localiser des bases militaires sur des théâtres d’opération. Les agents utilisaient l’application sur leur « lieu de travail » sans que personne ne soit conscient des vulnérabilités engendrées. Cet exemple risque malheureusement de se reproduire à l’avenir avec la généralisation des objets connectés. Les sciences humaines en général et la géographie en particulier, en questionnant les usages et les pratiques de façon globale, peuvent nous permettre d’apporter sur ces questions un angle à la fois critique et utile pour les organisations militaires.

[1] Ndr : Pour aller plus loin sur le lien entre Big Data et géographie : « Les big data bouleversent l’observation, pas la compréhension du monde ».