mardi 16 août 2011

Un nouveau défi pour le data-journalisme face à l'opendata ?

Le mot est de plus en plus à la mode sur l'internet. Data-journalisme ou comment faire un nouveau type de journalisme en croisant des données et informations publiques. Il est difficile de trouver une définition commune et acceptée par tous de ce que l'on appelle le journalisme de données.

Who'd Live in Stratford, Eh?
Source : DG Jones sur flickr (CC)

Caroline Goulard écrivait ainsi en 2010 que cette nouvelle forme de traitement de l'information avait 4 dimensions :
1- Compréhension : le data-journalisme permet de mieux comprendre le monde
2 - Personnalisation : le data-journalisme permet de personnaliser la vue sur le monde
3 - Investigation : le data-journalisme permet d'éclairer autrement le monde
4 - Participation : le data-journalisme permet de participer à la description du monde

Et elle concluait par une sentence selon laquelle "pas de datajournalism sans travail d’éditorialisation", en sachant que par éditorialisation, Caroline Goulard évoquait la "problématisation, inscription dans le débat public, storytelling, hiérarchisation, définition d’un angle de traitement de l’actualité et d’un message à délivrer. Vous remarquerez que l’esquive volontairement la référence au journalisme".

De son côté, sur le blog de l'Express, Eric Mettout annonçait même que le "data journalisme, c'est l'avenir en marche" avant de rappeler les diverses contraintes qui pouvaient apparaître au rédacteur en chef d'un journal classique. Une phrase de Nicolas Kayzer-Bril, citée par Nicolas Mettout, permet sans doute d'entrevoir ces nouveaux défis : "A terme, à mon avis, un journaliste va devoir un peu se transformer en chef de projet, pour savoir trouver les données et les mettre en forme".

Et finalement, c'est à l'étranger que ce journalisme de données a commencé à prendre ses lettres de noblesses. Notamment un média britannique s'est fait un spécialiste de ce travail à savoir le Guardian avec son site dédié au Data Journalism à la baseline ravageuse : facts are sacred.

Faisant récemment un bilan de ses deux années d'expérience, Simon Rogers du Guardian indiquait que "Le data journalisme ne se résume pas à des graphiques et à des visualisations. Le but est de raconter des histoires, de la meilleure façon possible. Parfois ce sera une visualisation ou une carte". Avant de conclure par "Faire du datajournalisme n’est plus exceptionnel, c’est désormais juste du journalisme".

En France, en janvier 2010, un article titrait que le data-journalisme peinait à se développer. Aujourd'hui, et après la mise en ligne par Wikileaks de nombreux câbles diplomatiques, la traitement de masse de ce type de données permet de plus en plus d'enrichir le travail des journalistes.

Mieux, de nombreuses voix notamment dans les sphères publiques s'élèvent en faveur d'une libéralisation de plus en plus forte des données, des fameuses données publiques - encore communément appelées opendata - afin de permettre la création de ces statistiques et autres cartographies.

L'obtention de ces données publiques pour le développement de la transparence et du journalisme est fort. L'un des besoins des spécialistes du data-journalisme est d'obtenir des "données pertinentes et incontestables" pour reprendre les termes de Nicolas Vanbremeersch.

En ouvrant encore plus l'accès à ces données collectées ou produites par l'Etat, les collectivités territoriales voire les établissements publics, on permettrait ainsi de donner de plus en plus de matière au traitement journalistique. Après, le périmètre devra être débattu. Inclura-t-il également les notes de frais des élus (comme cela a pu être le cas au Royaume-Uni entraînant une vague de démission ou comme cela est le cas dans certains pays nordiques comme la Suède) ou les versions complètes des déclarations publiques d'intérêts que doivent, d'ores et déjà, remplir certains experts (et qui sont appelés à se développer avec le nouveau projet de loi en faveur de la déontologie et la prévention des conflits d'intérêts).

Mais au delà du développement du data-journalisme parallèlement à une ouverture de plus en plus forte des données, une nouvelle question se pose. La même que celle régulièrement évoquée : le data-journalisme est-il du journalisme ?

Deux exemples pourraient être pris. L'un français, l'autre britannique.

Premier cas : la numérisation des lobbyistes

Prenons l'exemple français. Il s'agit de l'étude réalisée par le collectif Regards Citoyens à propos du lobbying auprès de l'Assemblée nationale. A partir d'une analyse des rapports parlementaires, le collectif a pu indexer et répertorier l'ensemble des acteurs ou représentants d'intérêts auditionnés par les parlementaires. Le résultat est réellement intéressant. Il permet de visualiser par thématique, quels sont les principaux types d'acteurs auditionnés, etc.

House of Commons Chamber
Source : UK Parliament sur flickr (cc)

Sur la base de ces données, le collectif a ensuite réalisé un certain nombre de conclusions.

Connaissant un peu le sujet, j'ai décidé de regarder attentivement ces conclusions. Le premier élément est d'ordre purement statistique. Lors de la remise du rapport, il apparaît que j'avais eu l'occasion de faire une apparition dans des auditions à l'Assemblée nationale moins d'une dizaine de fois en l'espace de trois années. Je tiens à rassurer mon employeur à ce sujet, ce n'est pas le cas.

En effet, les rapports parlementaires n'indexent que les auditions officielles, menées au nom d'une des commissions saisies pour examiner un projet ou une proposition de loi ou pour rédiger un rapport. Ces rapports sont un peu l'arbre qui cachent la forêt et notamment les rendez-vous, entretiens, discussions formelles ou informelles qui peuvent avoir lieu dans les couloirs du Parlement avec les députés ou leurs assistants parlementaires.

Deuxième exemple, l'analyse pointe une "quasi-absence des lobbyistes professionnels" puisque la "La présence des conseils privés en auditions ne représente que 1,03% des citations connues". Effectivement, on pourrait se dire que l'on est rassuré ou .. qu'au contraire, ces cabinets font bien leur travail. C'est à dire en avançant masqué.

Quel est le rôle de tels conseils privés ? Ils sont multiples. D'une part, ils peuvent servir à ouvrir les portes pour accéder à un parlementaire (ou à un cabinet ministériel). Usant de leurs réseaux, ils en font profiter leur client et décrochent un rendez-vous, un entretien ou une audition. Ensuite, ils peuvent également servir d'outil de veille en informant leurs clients de tel ou tel texte, de l'avancée de tel ou tel amendement voire des rumeurs circulant dans les couloirs du Parlement. Dernier rôle, celui plus proactif de jouer de leur réseau pour convaincre tel ou tel parlementaire ou groupe politique à soutenir un projet ou un amendement qui serait favorable à leur client.

Clairement ce rôle important des conseils privés ne peut apparaître au travers d'une simple analyse de la liste des participants aux auditions menées par les commissions de l'Assemblée nationale. Et ceci sans compter sur le fait que bien souvent présents lorsqu'ils accompagnent leurs clients en audition, leur nom n'est pas systématiquement repris dans la liste des personnes auditionnées.

Ici, la donnée a une limite. La donnée ne permet de dire que ce qu'elle répertorie. La donnée n'est pas universelle ou omnisciente. Et se focaliser sur cette information, sur la face visible de l'iceberg a pour effet bien souvent de masquer la réalité et donc l'information, à savoir ce qui n'est pas dans la donnée elle-même.

Deuxième cas : le traitement des émeutes britanniques

Le deuxième exemple sera lui britannique et notamment provient du Guardian. Comme indiqué plus haut, ce média est l'un des précurseurs dans le data-journalisme et pour lui les "faits sont sacrés".

poundland_peckham
Source : acute_tomato sur Flickr (cc)

A l'occasion des émeutes (ou violences) qui ont touché Londres et plusieurs villes britanniques, le Guardian a réalisé de nombreuses cartographies toutes aussi intéressantes les unes que les autres mêlant données statistiques de diverses natures.

Tout d'abord au lendemain des évènements, une première carte est publiée le 10 août 2011 qui mélange deux données : les lieux où se sont déroulés les violences et le niveau de pauvreté de ces quartiers.

L'analyse semble évidente : les violences ont eu lieu dans les quartiers où le niveau de pauvreté est le plus élevé. L'auteur de la carte est moins catégorique, il pose uniquement la question d'une éventuelle corrélation, mais dont la réponse devient positive dans les commentaires des internautes.

Quelques jours plus tard, les autorités de police britannique procèdent à de très nombreuses interpellations. Et débute alors un réel marathon judiciaire, les juridictions fonctionnant 24h/24h afin de juger les auteurs des violences et autres vols. Les journalistes suivent ces condamnations et notamment obtiennent une nouvelle source de données : l'identité des auteurs.

Quand on parle d'identité, on vise ici le nom, le prénom, la date de naissance et le lieu de résidence. Ces informations sont même diffusées - accompagnées de la condamnation- sur le fil twitter de la police.

Sur la base de ces éléments, une nouvelle cartographie est alors réalisée par le Guardian. Il s'agit ici de coupler le lieu des violences commises (identifié notamment à l'aide de la vidéo surveillance) et le lieu de résidence des auteurs des violences. Si la BBC annonçait ainsi que 70% des émeutiers n'avaient pas agi dans leur quartier, le Guardian démontre qu'il y a eu effectivement des déplacements de nombreux auteurs de violences mais sans doute dans une proportion moindre.

Et donc, à partir de là, que penser de la première cartographie du Guardian ? S'il est vrai qu'une partie des auteurs de violence se sont déplacés dans d'autres quartiers, quelle corrélation est-il encore possible de faire entre le niveau de pauvreté dudit quartier et la présence de violences ?

Cet exemple est révélateur d'un autre élément. La donnée est froide et impersonnelle. La donnée en elle-même ne donne pas d'analyse. Elle n'a pas de recul. La donnée n'est pas vivante ou animée d'une âme quelconque.

C'est alors qu'entre en scène le travail du journalisme qui va donner à cette donnée l'analyse, la profondeur nécessaire permettant de la comprendre, de la mettre en perspective par rapport aux lacunes qu'elle peut présenter. Car effectivement, mettre en lien le lieu des évènements avec le niveau de pauvreté est compréhensible. Mais sans l'information complémentaire, à savoir "qui est l'auteur des évènements", la cartographie finale, l'information finale se trouve alors viciée et détournée de son origine première.

D'autres exemples pourraient être pris. Notamment comme ce travail d'analyse sémantique des mots les plus fréquemment utilisés dans des câbles de Wikileaks. Mais derrière, et l'auteur l'indiquait clairement, ce n'était qu'un bref aperçu de ce qu'il était possible de faire.

Car au delà de l'analyse sémantique pure des données, une seconde analyse est alors nécessaire. Celle qui mettra en perspective la donnée et qui lui donnera une vie, dépassant sa nature première.

Ce travail autour du data-journalisme pourrait reprendre une des formules des fondateurs de Google utilisée pour définir le moteur de recherche : "Être le relai de toute l'information du monde".

Ici, le journalisme de données se fait le relai de cette information. Mais l'un des enjeux dorénavant du data-journalisme est de dépasser la simple mise en forme des données. Le réel enjeu et qui participera également au soutien à l'opendata, sera la manière dont les résultats d'une mise en forme de ces données seront exploités sur le plan du traitement de l'information.

Le plus difficile sera alors pour le data-journaliste de ne pas raconter ce que dit la donnée, mais bien de lui faire avouer ce qu'elle ne dit pas.

1 commentaire:

LBDPVP a dit…

Très interesant ce post, comme d'hab ...