« Les big data bouleversent l’observation, pas la compréhension du monde »
La thématique des Big Data est devenue omniprésente ces dernières années. Décideurs publics et privés, société civile et chercheurs les considèrent aujourd’hui comme une évolution majeure de nos sociétés ultra-connectées. Evolution paradigmatique majeure pour les uns, gadget numérique pour les autres, les big data ne laissent personne indifférent. Frédéric Audard, Samuel Carpentier et Sébastien Oliveau, tous trois enseignants-chercheurs en Géographie à l’université Aix-Marseille et membres de l’UMR ESPACE, nous aident à mieux comprendre ce que d’aucuns n’hésitent pas à qualifier de Révolution. Et de nous expliquer ce que ces big data peuvent apporter à la géographie et, pourquoi pas, à une meilleure compréhension du monde.
L’expression « big data » est désormais omniprésente dans le monde de la recherche et, plus généralement, au sein de la société. Que désigne réellement ce terme ?
L’expression big data – généralement traduite en français par « données massives » – désigne de très grands jeux de données. D’abord élaborée au sein de la société civile et plus particulièrement de l’« intelligence économique », elle gagne progressivement le monde de la recherche.
La réalité que ce terme souhaite saisir est variée. Malgré le fait que les big data revêtent des sens différents selon leurs champs d’application (société civile, recherche, applications militaires, …) ou les champs disciplinaires qui y ont recours, il est néanmoins possible de les résumer à travers ce que l’on appelle communément les trois V [1] :
- Volume: La généralisation des outils des NTIC (Nouvelles Technologies de l’Information et de la Communication) et des différents capteurs qui les accompagnent a permis d’accroître le nombre de data disponibles ;
- La Vitessedésigne tout autant la vitesse de création de ces données que l’exigence de vitesse de leur traitement ;
- La Variété décrit les types d’informations très divers qui constituent les big data (chiffres, texte, images, sons, coordonnées géographiques, etc.).
Du fait de ces trois dimensions, les big data sont des données qui dépassent ce que l’on a connu jusqu’à présent. Le tableau se complexifie encore plus si l’on intègre deux autres « V » :
- La question de la Véracité est particulièrement épineuse car elle interroge la fiabilité de ces données massives souvent produites par des entités difficiles à caractériser (les comptes des réseaux sociaux par exemple) et donnant lieu à des corpus hétérogènes ;
- Valeur: dans cet océan de données numériques, certaines seulement ont un réel potentiel (commercial ou scientifique).
Pour les géographes, comment ces gigantesques masses de données peuvent-elles faire évoluer la compréhension des phénomènes spatiaux ?
La géographie a déjà fait sa révolution théorique et quantitative dans les années 70. Sans parler pour le moment de révolution des big data, l’accès à des données nouvelles et surtout à de nouvelles formes de données, plus interconnectées, relevant de mises à jour presque continues, ouvre indéniablement des potentialités nouvelles. Mais pour le moment, l’enthousiasme que suscitent les big data est confronté à la connaissance très incomplète que nous avons de leurs domaines d’application. Nous n’en sommes qu’au début.
Ceci étant, certains sujets prometteurs ont d’ores et déjà été identifiés en géographie. La géographie de la population, les mobilités, la géographie de la santé, sont autant de thèmes pour lesquels l’accès à des données fines, tant spatialement que temporellement, constitue une plus-value certaine. À cet égard, les big data arrivent à point nommé pour développer certaines approches méthodologiques se basant sur les comportements individuels (les approches individus-centrés, les modèles de choix discrets, les systèmes multi-agents…). Dans le domaine de l’environnement aussi, la multiplication des capteurs permet de mieux observer les flux d’air, d’eau, d’énergie, à des échelles temporelles et spatiales plus fines.
Ces « données massives » offrent une nouvelle prise sur le monde. Les big data ne remplacent ni l’observation, ni l’enquête, ni le traitement de données. Elles s’ajoutent aux autres possibilités (aussi bien qualitatives que quantitatives) d’observer nos sociétés en offrant par exemple une information localisée plus finement et en pseudo temps réel. Comme toute nouvelle origine d’information, elles amènent les sciences sociales à reconsidérer leurs sources et méthodes.
La géographie quantitative possède déjà de nombreux outils pour traiter et analyser des données complexes. La révolution des big data va-t-elle amener les géographes à repenser leurs méthodes de recherche ? Si oui, comment ?
Il est sans doute trop tôt pour dire si les big data constituent une révolution. C’est a minima un outil supplémentaire d’observation, qui possède ses propres avantages et inconvénients.
La véritable évolution induite par les big data ne réside pas simplement dans le traitement de données numériques, mais surtout dans l’échelle de ces données. Au-delà du fait de permettre de documenter certains sujets jusque-là hors de portée, les données massives permettent aussi, grâce à leur volume, d’identifier des tendances émergentes, encore minoritaires, mais identifiables dans ces grands nombres. Les enquêtes plus classiques, traitant des échantillons restreints, ne fournissent sur ces phénomènes de marges que des données souvent insuffisantes pour les traiter de manière représentative.
Ces grandes quantités de données sont parfois produites sans objectifs précis, mais permettent un suivi longitudinal de phénomènes sociaux. De fait, elles sont souvent inadaptées à une utilisation directe pour répondre à un questionnement scientifique. Il a donc fallu apporter des solutions méthodologiques et techniques à leur traitement. De plus, du point de vue technique, les méthodes quantitatives usuelles se trouvent confrontées à des difficultés relatives aux capacités de calculs des ordinateurs. Les algorithmes doivent être repensés pour limiter les étapes où la lecture de l’ensemble de la base de données est requise. À cet égard la plupart des outils de traitement de données dont les géographes ont désormais l’habitude ne sont pas encore prêts pour traiter les big data au sens propre.
Plus largement, du point de vue de la démarche scientifique l’approche classique part de théories (implicites ou explicites), pour formuler des hypothèses, amenant à une recherche de données, conduisant à une généralisation (ou une typologie), succession parfois appelée « roue de la recherche ». De même que, dans les années 80, les nouvelles possibilités techniques ont amené les chercheurs à penser de nouvelles méthodes, l’arrivée de données en très grande quantité a poussé certains chercheurs à inverser cette « roue de la recherche » pour initier leur réflexion à partir des données disponibles, et reconstruire des acquis théoriques a posteriori. L’émergence des big data pourrait à cet égard s’accompagner d’un certain engouement pour les méthodes inductives qui, à partir des données, produisent des connaissances sans formuler d’hypothèses, telles qu’on peut les concevoir dans une démarche expérimentale.
Un risque existe alors concernant le développement d’une forme d’opportunisme où la construction ou l’accès à des données n’apparaissent plus comme un moyen mais comme une finalité. Des données étant disponibles, il deviendrait essentiel de les traiter. Cette nouvelle approche ne relève ni d’une approche déductive ni inductive, elle est déconnectée d’un questionnement fondamental et risque de conduire à des recherches soumises aux effets de mode et, de fait, particulièrement périssables.
Une des problématiques inhérentes à la question des big data et à leur analyse est celle de leur production, souvent par des entreprises privées. Le fait d’utiliser des données créées à des fins commerciales ne représente-t-il pas un biais pour le chercheur ?
Cette question renvoie au quatrième V des big data : la Validité, terme que nous préférons à celui de Véracité, dans lequel on pourrait voir une connotation positiviste. En tant que chercheurs, nous ne devons pas être aveuglés par ces données immenses dont nous n’aurions pas osé rêver il y a ne serait-ce que dix ans de cela. La prudence reste de mise.
Les géographes, à l’instar des autres universitaires, aiment avoir le contrôle de la production des données… mais c’est de moins en moins souvent le cas. Les données que nous utilisons au jour le jour ont souvent été créées par d’autres et à d’autres fins que la recherche scientifique. À cet égard, il faut noter que les big data ne proviennent pas uniquement du secteur privé marchand. La génération d’informations par des acteurs privés volontaires (OpenStreetMap, Wikipedia, etc.) constitue aussi une source de données massives, de même qu’un certain nombre d’infrastructures publiques d’observation : l’ouverture de l’accès aux données publiques constitue de ce point de vue une opportunité pour la recherche. L’abondance de ces données issues de sources éminemment variées génère un contexte dans lequel nous devons rester très vigilants sur les conditions de création des données et surtout la qualité de leur documentation (i.e. les métadonnées) pour savoir ce que nous pouvons réellement en attendre. Il n’existe pas de données sans biais, ceux inhérents aux données issues du secteur privé marchand sont d’ores et déjà assez bien connus (qualité, représentativité, par exemple).
Ce n’est donc pas forcément la qualité des données qui doit être remise en cause en tant que telle, mais bien leur validité, dans un contexte scientifique précis. Les données créées par le secteur privé marchand ne le sont pas forcément au départ dans un but commercial. C’est l’opportunité (réelle ou envisagée) de pouvoir vendre une information qu’elle possède, qui amène les sociétés à vendre ces informations. La plupart du temps, l’information était préexistante et devient un produit commercial lorsque l’on réalise qu’il y a un marché possible, c’est l’idée du cinquième V, la Valeur. L’exemple le plus évident est certainement celui des données issues de la téléphonie mobile. Les opérateurs téléphoniques n’ont pas créé les données sur leurs clients pour les vendre. Néanmoins, voyant que ces données pouvaient avoir une valeur, ils ont organisé leur marchandisation. C’est d’ailleurs de là que vient leur principale limite. Ces données constituent des « produits dérivés ».
La révolution des big data semble pouvoir donner aux chercheurs un outil capable de résoudre ce qui n’était alors qu’une chimère, à savoir la question de l’exhaustivité et du temps réel. A la suite de Chris Anderson, peut-on dire qu’elle signe, à terme, la fin de la théorie ?
Chris Anderson est un journaliste, spécialiste de l’internet et physicien de formation. Son point de vue sur la fin de la théorie est intéressant mais repose sur une erreur fondamentale : penser que la description exhaustive d’un phénomène est possible. L’apport principal de la théorie de la complexité est de nous rappeler que nous vivons dans un monde que l’on ne peut entièrement saisir. De plus, le monde social a comme particularité de réagir aux observations qui en sont faites. La théorie constitue le filtre (conscient ou non) nécessaire à la compréhension des phénomènes. Même si la nouveauté donne souvent l’illusion de la valeur, il ne faut pas oublier que la donnée, quelle qu’elle soit, n’est qu’un moyen et pas un but. Les big data bouleversent l’observation, pas la compréhension, du monde. La communauté scientifique, et particulièrement les sciences humaines et sociales, ne sont pas prêtes à renoncer à la construction de théories pour subir le dictat des données. La théorie continuera à nourrir la réflexion pour remettre en perspective l’utilisation raisonnée de données.
Vous terminiez votre communication « Les ‘big data’ sont-elles l’avenir de la géographie ? » en vous demandant si cette révolution numérique n’allait pas permettre de « transcender le clivage entre géographie quantitative et qualitative ». En quoi peut-elle être une passerelle entre deux champs de recherche qui peinent encore à collaborer ?
C’est une question ouverte. Certains travaux restent à juste titre tournés vers des approches qualitatives. Pour autant, les big data permettent de descendre à des niveaux de finesse spatiale (l’individu) qui n’étaient accessibles jusqu’à présent que par des enquêtes fines et coûteuses. Les « quantitativistes » vont donc explorer de nouveaux terrains, traditionnellement occupés par des « qualitativistes ».
En retour, ces derniers pourront difficilement ignorer ces nouvelles sources d’information. Les données – big ou pas – sont désormais partout et leur diffusion s’accompagne bien souvent de celle d’outils d’analyses automatisées simples et accessibles. Dans le même temps, le développement d’outils de traitement quantitatif de données qualitatives (enregistrements d’entretiens et autres corpus sémantiques par exemple) a également explosé : cela va probablement amener certaines branches de la géographie à repenser leurs approches et travailler sur une forme de quantification de leurs informations. La modification des pratiques vient alors certainement autant des capacités de traitement des informations que des informations elles-mêmes. Autrement dit, les « qualitativistes » disposent désormais d’outils et de données facilement accessibles qui les amènent à faire un pas vers la quantification, tandis que les « quantitativistes » restent de leur côté toujours plus ouverts au traitement de données qualitatives (ce qui fait ici écho au V de « variété » des big data). La distinction fondée sur la place des données peut s’atténuer, sans pour autant converger vers une pensée géographique unique !
[1] Cf. META Group, 2001 http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
Laisser un commentaire