Open Science : A qui les données de la science appartiennent-elles ?
Tronche en Live #95
Enregistré le 9 décembre 2020
Invité : Nicolas Fressengeas, professeur de Physique et chargé de mission « Science Ouverte » de l’Université de Lorraine.
Editorial
La science, ça coûte cher. C’est probablement l’activité humaine qui présente le plus petit ratio résultats sur efforts. Il faut des quantités phénoménales de travail pour produire, le plus souvent, une toute petite incrémentation de notre connaissance sur le monde.
En travaillant dur, des années durant, chacun peut espérer devenir spécialiste d’un tout petit domaine, sauf évidemment ceux qui font profession de tout savoir sur les plateaux télé, sur YouTube ou sur Twitter. (J’ouvre une parenthèse pour rappeler qu’il y a une nuance entre prétendre apporter une parole d’expert et s’adonner à la vulgarisation des savoirs et des méthodes. Fin de la parenthèse.)
Le coût de la connaissance est si lourd qu’une société comme la nôtre ne peut, somme toute, s’offrir qu’un nombre assez réduit de professionnels qui se consacrent à elle : les chercheurs et les chercheuses. Nous investissons collectivement dans l’éducation et la recherche pour qu’un petit nombre d’entre nous s’attaquent aux questions que nous nous posons sur le monde et qui ont une chance de recevoir au moins un début de réponse.
On pourrait juger que tout ça nous revient trop cher, mais rappelons cette phrase attribuée à tout un tas de gens et qui pourrait bien rester anonyme sans que cela soit gênant : « Si vous trouvez que la connaissance coûte cher, essayez l’ignorance »[1].
L’ignorance, on la croise tous les jours, décomplexée, voire fière d’elle-même dans les propos de comptoir, dans les théories du complot, dans les croyances qui persistent en dépit des preuves, dans des comportements qui défient le ridicule, et qui nous mettent tous en danger quand le contexte est, par exemple, une pandémie mondiale, un changement climatique rapide, une crise de la biodiversité et autres joyeusetés.
Ce préambule me permet d’insister sur l’importance de la circulation des connaissances que la société réussit à produire. L’essentiel des recherches est financé par des fonds publics, et ce bien commun, ce patrimoine de l’humanité est capté par un système hérité du 19e siècle qui bloque l’accès des publications aux citoyens qui les financent, et même aux chercheurs qui les écrivent ou qui en ont besoin pour faire avancer leurs travaux, à moins qu’ils ne s’acquittent d’une rançon envers les éditeurs qui capitalisent sur l’accès à des connaissances sur lesquelles ils n’ont, en réalité, aucun droit.
L’un des principes fondamentaux de la science, à côté du « scepticisme a priori sur les faits », est le libre accès aux résultats et aux protocoles. On en est loin. Le monde de la recherche doit se hisser à la hauteur des exigences de son éthique. Bien des obstacles se dressent entre le citoyen lambda et la compréhension pleine et entière des connaissances contemporaines. Lever ces obstacles est l’objet d’une démarche appelée Science Ouverte, et nous allons voir pourquoi elle est importante avec notre invité, enseignant chercheur en physique, directeur du Laboratoire Matériaux Optiques, Photonique & Systèmes, et surtout chargé de mission « Science Ouverte » de l’Université de Lorraine : Nicolas Fressengeas.
[1] Une phrase quasi-identique « Si vous trouvez que l’éducation coûte cher, essayer l’ignorance » est attribuée à… Abraham Lincoln ou à Derek Bok ou à Ann Landers ou à Char Meyers ou à Robert Orben ou à John Lubbock ou à P. B. de La Bruère ou au Rev. S. C. Morris ou à Charles Duncan Mclver ou à Albert Einstein ou à Robert Orben ou à Barack Obama…
Le CERN annonce une nouvelle politique de données ouvertes à l’appui de la science ouverte
Genève, le 11 décembre 2020. Les quatre grandes collaborations du LHC (ALICE, ATLAS, CMS et LHCb) ont approuvé à l’unanimité la nouvelle politique de données ouvertes pour les expériences scientifiques menées auprès du Grand collisionneur de hadrons (LHC), présentée au Conseil du CERN aujourd’hui. Cette politique consiste en un engagement de publier, parmi les données recueillies aux expériences du LHC, les données scientifiques dites de niveau 3, c’est-à-dire celles qui sont requises pour produire les études scientifiques. Les données commenceront à être publiées cinq ans environ après l’acquisition, le but étant que l’ensemble complet de données soit public au moment de la clôture de l’expérience concernée. Cette politique s’inscrit dans un mouvement de plus en plus soutenu de promotion de la science ouverte, dont le but est de rendre la recherche scientifique plus reproductible, plus accessible et plus collaborative.
Les données de niveau 3 publiées peuvent contribuer à la recherche scientifique en physique des particules, ainsi qu’à la recherche dans le domaine du calcul scientifique, par exemple pour améliorer les méthodes de reconstitution ou d’analyse fondées sur les techniques d’apprentissage automatique, approche qui requiert des ensembles de données volumineux pour l’entraînement et la validation.
« Cette politique de données ouvertes reflète l’engagement du CERN à l’égard de la science ouverte, déjà affirmée dans la Convention du CERN il y a plus de 60 ans, explique Eckhard Elsen, directeur de la recherche et de l’informatique au CERN. Elle définit les étapes concrètes sur la voie d’une mise en œuvre au CERN de cette approche, qui mettra les données à la disposition de la communauté scientifique élargie ainsi que du grand public. »
Les données scientifiques sont considérées comme relevant de différents niveaux de complexité. Les données scientifiques de niveau 3 sont celles qui sont utilisées pour la plupart des études de physique. Elles seront publiées conjointement avec les logiciels et la documentation permettant de les exploiter. Cette publication permettra une analyse de grande qualité par des groupes divers : scientifiques non liés au CERN, scientifiques d’autres disciplines, participants à des projets pédagogiques et de vulgarisation, grand public.
Cette politique prévoit également la publication d’ensembles de données de niveau 1 et de niveau 2, dont des échantillons sont déjà disponibles. Le niveau 1 correspond aux éléments à l’appui des résultats publiés dans des articles scientifiques, et le niveau 2 à des ensembles de données conçus à des fins pédagogiques et de vulgarisation.
En pratique, cette information scientifique sera publiée par le canal du Portail des données ouvertes du CERN, où se trouve déjà un ensemble de données étendu résultant des expériences du LHC et d’autres expériences. Les données seront mises à disposition conformément aux normes FAIR, ce qui garantira qu’elles seront facilement trouvables, accessibles, interopérables et réutilisables.
« Cette politique constitue un cadre évolutif qui doit permettre de conserver les données expérimentales et de préserver leur caractère ouvert » , explique Jamie Boyd, coordinateur du groupe de travail ayant formulé la politique. Cette stratégie vient compléter la politique existante de libre accès du CERN, qui prévoit que tous les résultats de recherche du CERN sont publiés en libre accès. Elle est également conforme à la stratégie européenne pour la physique des particules mise à jour en juin 2020. Cette nouvelle politique pourrait servir de modèle pour d’autres expériences au CERN et dans d’autres organisations scientifiques.
Le CERN a précédemment été à la pointe sur la question du libre accès aux articles scientifiques par le biais du consortium SCOAP3, partenariat mondial réunissant des bibliothèques, des organismes de financement et des institutions de recherche de 46 pays et organisations intergouvernementales, qui est à présent la plus large initiative de libre accès au monde. De plus, le CERN collabore avec de nombreuses organisations, en particulier la Commission européenne et l’UNESCO, dans leurs efforts pour promouvoir des pratiques de science ouverte au-delà de la physique des particules.
Pour en savoir plus :
Politique du CERN relative aux données ouvertes