Pourquoi le Big Data est un big bluff

Déconstruction d’un fantasme

Paul Vacca
11 min readOct 9, 2017

Avec l’avènement du big data, la pensée magique a fait un retour en force. Clef d’un monde utopique pour certains, pour d’autres, c’est la promesse d’un futur digne de 1984 de George Orwell. Deux camps opposés qui pourtant se rejoignent sur un même dogme : le big data va prendre possession du réel. Pourtant le réel fait de la résistance.

1. Le retour de la pensée magique

A u commencement était la donnée. Pendant des siècles elle se développa à la surface de la terre de façon progressive et continue sur un mode analogique. Puis advint le numérique et Internet. La puissance des ordinateurs doublant tous les deux ans depuis cinquante ans — selon la fameuse loi de Moore — le nombre de données explosa lui aussi de façon exponentielle. Avec le smartphone, l’Internet des objets les choses et les êtres connectés — hyperconnectés — se mirent à diffuser leurs propres données. Et le moindre mouvement, acte ou état d’âme constitua une data. La multiplication se transforma en big bang. Une masse de données en totale expansion dans laquelle 90% des données produites depuis le début de l’histoire de l’humanité l’ont été dans les deux dernières années.

C’est ainsi que la data devint big data.

Pensée magique, le retour

Que la production de plus de données puisse nous offrir une meilleure connaissance de monde, qu’elle soit une bonne chose pour l’avancée de la science et de la médecine, qu’elle alimente le développement de l’intelligence artificielle cela ne fait aucun doute. La connaissance et la science ont toujours progressé grâce à l’apparition de nouvelles données et de nouveaux croisements.

Mais, avec le big data, comme enivrés par le déluge de données, on est rapidement passés de la science à la science-fiction. Pensée magique, le retour. Guidés par un animisme numérique, certains se sont empressés de prêter à cette production infinie de données des pouvoirs infinis. À leurs yeux, la masse de données est devenue une toute-puissance agissante. Certains — les propriétaires des clouds, les start-up, les géants d’Internet, la NSA etc. — pour la vénérer se répandant en colloques, conférences ou sur les réseaux sociaux vantant le futur radieux et prospère que le big data nous promet ; d’autres — les hackers, les libertaires, les Luddites etc. — pour la craindre et la combattre en l’érigeant en menace absolue pour l’humanité. Car le big data réussit le tour de force de réunir deux camps à la doxa totalement opposée autour d’un même dogme : la croyance en sa toute-puissance.

S a toute-puissance supposée, c’est d’abord l’omniscience. Puisque aujourd’hui on est capable d’avoir accès à l’ensemble des données à tout instant, on peut donc tout savoir. C’est ce que l’on appelle le data-panoptisme cette capacité de tout voir et tout connaître grâce au recueil des données. Cette « omniscience » du big data fut même théorisée en 2008 par le magazine Wired en 2008 dans un article intitulé… la Fin de la Théorie (« The End of Theory: The Data Deluge Makes the Scientific Method Obsolete»). Dans cet article-manifeste, Chris Anderson proclamait que le déluge des données allait frapper d’obsolescence la méthode scientifique. En effet, pourquoi chercher à comprendre le réel à coup d’hypothèses forcément hasardeuses puisque désormais le réel pouvait nous être livré dans sa totalité par les data ? Selon lui, le déluge de données nous permet d’accéder à une connaissance complète du réel sans avoir à s’embarrasser de la science. Le big data, c’est donc l’omniscience sans la science.

Il est aussi censé nous ouvrir les portes de la prescience. Entre tout savoir et prévoir, il n’y a qu’un pas que franchissent allègrement les tenants du big data prédictif, cette discipline qui prétend que tout connaître d’une personne permet de prévoir ses agissements futurs sur la base de modèles statistiques ou de signatures.

Et enfin dernier pan cette présumée toute-puissante du big data : le pouvoir. Car aussi vrai que « gouverner c’est prévoir », tout prévoir offre les tous pouvoirs. Et le bras armé de ce pouvoir c’est l’algorithme, cette clef qui permet de résoudre tous les problèmes.

Utopie et dystopie sont dans un bateau

Ainsi le big data serait cette trinité toute puissante de l’Omniscience, de la Prescience et du Pouvoir. Pour le meilleur ou pour le pire. Dessinant, d’un côté, un futur au visage utopique : un monde où l’on pourra anticiper toutes les maladies, balayer la lutte des classes et les inégalités, éradiquer la pauvreté et la famine, un monde où même l’immortalité devient envisageable (comme on sait, on travaille d’arrache-pied à son lancement à la Silicon Valley). Ou dressant, de l’autre côté, pour d’autres, un avenir aux menaces dystopiques : un monde sous cybersurveillance généralisée, le totalitarisme des data, le déterminisme… Les deux faces d’un même fantasme.

Car, pour l’instant, face à la toute-puissance supposée du big data le réel semble faire encore de la résistance…

2. Réel contre big data : 1–0

Pour l’heure, dans ses rêves d’omniscience le big data rencontre un obstacle : le réel. L’exemple de la NSA constitue un véritable cas d’école. Comme on ne le sait que trop désormais, l’Agence du renseignement américain collecte en masse des données via ses écoutes et ses systèmes de surveillance qu’elle sonde (la technique du datamining) avec des outils d’analyse des données (des algorithmes) dans l’espoir de détecter des suites statistiques suspectes (les signatures) à même de signaler des comportements terroristes. Pour quel résultat ? Keith Alexander, le directeur de la NSA, affirma en 2013 que le programme de surveillance de son Agence — après plus de dix ans de récoltes massives de données — avait permis de déjouer des douzaines de complots. Quelques mois plus tard, il évoquait treize événements, avant d’admettre que les menaces déjouées s’élevaient en réalité à une voire deux…

La NSA, l’illusion panoptique

Pour Grégoire Chamayou, chercheur au CNRS, ce bilan catastrophique s’explique parfaitement. Dans un article paru en juin 2015 dans la Revue du Crieur[1], il démonte point par point l’illusion panoptique dans laquelle baigne la NSA. Il rappelle la phrase d’un chercheur américain qui a souligné que « la seule chose prévisible au sujet du datamining terroriste, c’est son échec permanent ». Un échec programmé qui repose sur deux illusions majeures. La première étant la foi aveugle en la récolte de données massive, (« Collect it all ») qui plutôt que « de chercher une aiguille dans une botte de foin consiste à collecter toute la botte de foin ». Et ce, en multipliant d’autant les difficultés d’analyses. La deuxième étant la croyance qu’il existerait une « signature terroriste » — i.e. une succession d’actes qui mènerait à un attentat — que l’on pourrait déceler est fausse. Avec un double désavantage. D’une part, celui de laisser échapper de « vrais » actes terroristes. Car le principe des actes terroristes consiste précisément à déjouer les schémas préétablis en développant des modes opératoires inédits. D’autre part, celui d’en voir partout. Car si le schéma « personne possédant un camion, se rendant sur un lieu sensible et ayant acheté du nitrate d’ammonium » peut permettre d’identifier un potentiel acte terroriste, il convient tout aussi bien à la quasi totalité des agriculteurs du Nebraska qui possèdent un camion et achètent du nitrate d’ammonium (substance qui entre aussi dans la composition de l’engrais). Bref, soit la NSA ne repère pas l’acte terroriste, soit elle en repère trop.

« La prédiction est difficilesurtout quand elle concerne l’avenir »

Google a connu le même type d’échec avec son « Google Flu Trends ». Cette application « révolutionnaire » lancée en 2008 permettait de suivre les épidémies de grippe en temps réel simplement grâce aux requêtes des internautes tapant « paracétamol », « grippe », « mal de tête » dans leur barre de recherche… Au départ tout le monde — dont très prestigieux magazine scientifique américain Nature — croit légitimement au miracle : les résultats sont fiables, proches de ceux donnés par le CDC, l’organisme officiel de contrôle des maladies américain. Mais plus rapidement et sans impliquer une armada de chercheurs… Sauf que très vite l’application se grippe. En 2013, les médias annoncent un risque d’épidémie et les requêtes des internautes s’affolent faussant les résultats, surestimant fortement les risques d’épidémie. L’application devient alors le reflet de l’hypocondrie des internautes plus que de la réalité. Victime d’une épidémie de requêtes, elle se dérègle totalement. Google en tire le constat et décide en aout dernier de fermer le service.

Oui, pour le big data aussi « prévoir est difficile surtout lorsqu’il concerne l’avenir » comme le remarquait Mark Twain. Car pour l’heure le marketing prédictif à partir de nos données semées sur Internet excelle surtout dans la rétrologie, cet art de deviner le passé, en nous proposant par exemple de découvrir l’hôtel que l’on a déjà réservé deux semaines auparavant ou en nous soumettant un livre dont nous avons déjà fait l’acquisition et même lu parfois.

Smart data ou big data: Auguste Dupin contre le Quai des Orfèvres

Donc, à mesure que le big data devient toujours plus « big » — via l’hyperconnection, l’Internet des objets, l’open data et les clouds — plutôt que d’aider à révéler le réel à coup de milliards de données et de rêve d’exhaustivité, il semble plutôt l’ensevelir. À la manière d’une botte de foin qui recouvrirait l’aiguille que l’on cherche. Cette idée que l’exhaustivité rendrait maître du réel, le dupliquerait en quelque sorte, incarne une idée comptable de la réalité. Un déni de réalité, un contresens. Comme une carte à l’échelle 1/1 qui se confondrait avec le territoire qui possèderait toutes les garanties de la précision comptable mais se révèlerait inapte à nous guider.

De fait — et c’est l’apport décisif des philosophes de Descartes aux phénoménologistes en passant par Kant — le réel n’est pas une compilation de données si exhaustive soit-elle, il est une hypothèse. Il n’est pas donné, livré tel quel, il est une construction de notre intelligence. Voilà pourquoi certains préconisent de replacer de l’intelligence et du facteur humain au cœur des clouds et du déluge de données. Et d’opter pour le smart data préférant la pertinence et le discernement dans le recueil des données et l’intelligence dans leur analyse.

La parfaite illustration de la différence de démarche entre smart et big data — et de leur efficacité respective — nous est apportée par la nouvelle d’Edgar Poe, « La Lettre Volée »[2]. Alors que les équipes — scientifiques dirait-on aujourd’hui, l’équivalent des CSI — de la Police Judiciaire du Quai des Orfèvres « big data » s’escriment à passer au peigne fin le moindre millimètre carré de l’appartement à la recherche de la lettre compromettante, le détective Auguste « smart data » Dupin s’appuyant sur quelques données pertinentes découvre avant même de se rendre à l’appartement où se trouve précisément la lettre… Mais nous ne révèlerons pas la solution pour ne pas spoiler ceux qui n’auraient pas encore lu ce bijou d’intelligence.

3. Big data : des dollars et des mythes

Reste une énigme. Comment se fait-il que malgré les résultats décevants — et même les fiascos — la frénésie autour du big data continue de s’exercer crescendo ? L’on peut douter des effets concrets obtenus par le big data, mais force est de constater que son engouement sur le marché lui est bien réel. Géants de l’Internet, start-up, acteurs du cloud, marques, régies publicitaires tous s’engouffrent dans ce business aux taux de rentabilité effarants. AWS (Amazon Web Service), la division cloud computing d’Amazon est la seule du groupe à dégager des profits — ce qui permet à Jeff Bezos d’éponger une partie de ses dettes et de financer ses appétits de croissance externe. Sans compter l’omniprésence de conférences, colloques et autres keynotes aux parfums d’évangélisme messianique et de big business qui affichent complet. C’est indéniable, le big data c’est un big business qui se vend et fait vendre.

L e paradoxe n’est qu’apparent. Le lien entre résultats hypothétiques et monétisation immédiate est devenu l’équation de base de l’époque. Nous vivons dans une société du virtuel, non seulement au sens de « numérique », mais aussi parce que tout ce qui n’est pas encore — qui est donc à l’état de virtualité — possède plus de valeur que ce qui existe déjà. Toute entreprise vaut plus par l’ombre qu’elle projette sur le futur que par sa stature présente. Seuls comptent la désirabilité qu’elle est à même de provoquer à la fois sur les investisseurs, les consommateurs, la presse, les réseaux sociaux et le café du commerce…

Et le désir est plus affaire de fantasmes que de preuves tangibles. Et à ce titre le big data développe une puissante aura fantasmatique qu’elle puise à la source de trois grands mythes contemporains.

Trois mythes structurants

Le big data c’est d’abord, un Eldorado. Le vecteur programmatique parfait pour aiguiser les convoitises et lancer une ruée vers l’or. Il y a le « big » évidemment qui autorise tous les superlatifs et ouvre des horizons d’immensités comme pour un butin de hold-up. Mais il y a aussi la « data », qui constitue une forme d’or numérisé. Comme le métal jaune, elle possède un caractère double. Une dimension physique, chiffrable — on la chiffre en Teraoctets à savoir en milliards de milliards d’octets — compilable, stockable dans les clouds. Et une aura symbolique et un brin occulte de pouvoir, de contrôle et de puissance car la data c’est également une information.

Ensuite, le big data, renvoie inévitablement à Big Brother, ce mythe façonné par George Orwell dans 1984. Une référence constante pour évoquer le data-panoptisme, cette capacité qu’aurait les acteurs du big data — et au premier chef les GAFA (Google, Apple, Facebook et Amazon) — de pouvoir tout savoir et tout contrôler via la géolocalisation, la multiplication des traces numériques laissées par chacun sur le Net, via les applications et les réseaux sociaux…

Et enfin, le big data se vit comme un écho de Minority Report la nouvelle d’anticipation de Philip K. Dick — largement popularisée par le film homonyme de Steven Spielberg avec Tom Cruise. Une nouvelle qui met en scène dans le futur, une police qui grâce à des mutants aux pouvoirs divinatoires — les Précogs abréviation de précognition — serait en mesure d’arrêter des suspects avant qu’ils ne passent à l’acte. Une illustration parfaite du fantasme qui soutend l’hypothèse du big data prédictif : être en mesure grâce au profilage des utilisateurs d’anticiper ce qu’ils sont en état de vouloir. Dans les années 70, c’est le mythe du message subliminal qui effrayait les consciences éclairées. La croyance en l’existence d’une injonction cachée dans les messages publicitaires, comme un motif indécelable dans un tapis d’autant plus efficace qu’elle était censée s’adresser directement à l’inconscient sans aucun filtre. Aujourd’hui c’est une autre force occulte que l’on soupçonne d’être à l’œuvre. Puisque l’on connaît tout de nous à travers nos traces numériques — le profilage — on peut être capable de prédire ce que nous désirons.

Spirale spéculative

O n pourrait penser que ces deux derniers mythes — 1984 et Minority Report — brandis généralement par les détracteurs, nuisent aux acteurs du big data. Or, c’est bien le contraire qui se passe : ces « mythes totalitaires » ne font qu’entretenir et alimenter le fantasme de toute-puissance du big data. Plus on traite ses acteurs de Big Brother ou de Sphinx, plus on accrédite finalement l’efficacité de leur pouvoir. Cela accroît d’autant leur attractivité auprès de leurs clients et par voie de conséquence leur monétisation. Et plus celle-ci augmente, plus elle devient en retour la preuve de leur pouvoir. Et ainsi de suite… Une logique de spirale ascendante où tout concourt à renforcer la puissance du big data. Une dynamique de cercle vertueux, en somme. Celle-là même qui est aussi parfois — est-il nécessaire de le rappeler ? — à l’origine des bulles spéculatives.

--

--

Paul Vacca

Auteur. Chroniqueur pour Les Échos Week-end. Intervenant à l'Institut Français de la Mode (IFM Paris), à l’ISG Luxury Geneva (Suisse).