Synthèse et présentations du colloque « Une plateforme de recherche et d’expérimentation pour l’édition ouverte »

Le 25 mai 2015 s’est tenu le colloque « Une plateforme de recherche et d’expérimentation pour l’édition ouverte » organisé par Vincent Larivière, professeur à l’École de bibliothéconomie et des sciences de l’information de l’Université de Montréal (EBSI) et directeur scientifique de la plateforme Érudit, dans le cadre du 83ième congrès de l’ACFAS.

photo du groupe

Une partie des présentateurs et présentatrices du colloque.

Consacré aux usages et perspectives de recherche rendues possibles par la masse croissante de corpus numérisés, le colloque visait plus spécifiquement à aborder, à partir de l’exemple d’Érudit, les questions inédites que le traitement automatisé de collections numériques permet de poser ainsi que les modalités de structuration, traitement et d’enrichissement qui peuvent accroitre ces possibilités de recherche. La journée d’étude s’est déroulée en trois temps : plateformes, usages et pratiques, traitement et outils.

Plateformes
Les séances de ce premier segment ont porté sur les services, développements technologiques et défis des plateformes de recherche. Après une brève introduction de Vincent Larivière—qui a rappelé les grandes étapes du développement d’Érudit—Daniel Verlade et Julienne Pascoe de Canadiana.org ont présenté les possibilités qu’offrent les données liées pour la description et l’exploration de ressources patrimoniales ainsi que les projets en cours de réalisation chez Canadiana.org. Stéphane Pouyllau, directeur technique d’Huma-Num, a dressé un portrait de l’organisation, de la grille de services et du dispositif technologique qui permet le traitement, la conservation, l’accès et l’interopérabilité des données de la recherche en SHS. Suzanne Talon et Félix-Antoine Fortin, respectivement coordinatrice et chargé de recherche à Calcul Québec, ont quant à eux décrit l’infrastructure de Calcul Québec, qui regroupe les universités québécoises autour du calcul informatique de pointe, qui travaille à développer des services liés aux humanités numériques.

Usages et pratiques
Le segment « Usages et pratiques » a permis à des chercheurs de champs disciplinaires divers de présenter travaux et réflexions portant sur le traitement automatisé de collections de documents numérisés. Jean-Pierre Couture, professeur à l’École de sciences politiques de l’Université d’Ottawa, a fait état de l’important potentiel de recherche offert par le traitement automatisé de revues culturelles québécoises pour l’analyse de réseaux intellectuels. Stefanie Haustein, post-doctorante à l’Université de Montréal, a fait un tour d’horizon des opportunités et des défis associés à l’utilisation des médias sociaux dans la communication savante et, plus particulièrement, pour la mesure de l’impact scientifique des articles de revues. Jérôme Valluy, professeur de sociologie politique de l’action publique à l’Université Panthéon-Sorbonne (Paris 1), a fait un retour sur les contraintes actuelles des plateformes francophones de diffusion de la recherche, et avancé une alternative : un système accessible aux collectifs sans un contrôle a priori. Enfin, Iana Atanassova, enseignante-chercheuse à l’Université de Franche-Comté, a présenté les étapes de traitement d’un corpus de revues culturelles qui a permis de développer un outil de fouille textuelle dédié à l’étude de l’évolution du discours politique au Canada français de l’entre-deux guerre.

Traitement et outils
Le dernier volet du colloque, a été consacré à différentes approches de traitement de collections numériques, parmi lesquelles le traitement automatique de la langue, la linguistique informatique ou encore l’usage du schéma RDF pour la sémantisation de vastes collections. Marc Bertin, post-doctorant à l’Université du Québec à Montréal, a présenté comment les métadonnées peuvent être enrichies, les textes annotés, les formes désambiguïsées et les index optimisés grâce aux méthodes et outils du traitement automatique de la langue. Lyne Da Sylva, directrice par intérim de l’EBSI, a procédé à une analyse des atouts du corpus d’Érudit ainsi que des contraintes qu’ils imposent d’un point de vue du traitement automatique de la langue. Dominic Forest, professeur à l’EBSI, a exposé comment certaines techniques de fouille de textes peuvent être exploitées afin d’assister l’extraction, l’organisation et la visualisation d’informations présentes dans des corpus de documents scientifiques en sciences humaines. Philippe Langlais, professeur au département d’informatique (DIRO) de l’Université de Montréal, s’est intéressé à l’extraction automatique de connaissances à partir de données textuelles en partie structurées, qui trouve un nombre croissant d’applications comme l’aide interactive au furetage de grandes collections de documents, le recensement d’informations implicites dans les textes ou encore la réponse à des questions complexes. Finalement, Bruno Malenfant, doctorant au DIRO, a présenté un projet de recherche en cours visant à identifier le rôle attribuable à une citance : hypothèse, discussion, méthode, résultat ou implication, à partir du balisage automatique d’un article et la construction d’une base de données RDF contenant la méta-information des articles.

La journée s’est conclue par une présentation des grandes orientations de la plateforme Érudit ainsi que de ses projets par Tanja Niemann, directrice générale. Fondée en 1998, alors que le web en était à ses débuts, Érudit est une plateforme créée pour et par la communauté de recherche en sciences humaines et sociales. Tanja Niemann a rappelé l’importance d’accroître les liens avec les chercheurs, en contexte de concurrence croissante des éditeurs commerciaux. Elle en a appelé à une poursuite des échanges et des réflexions afin de faire d’Érudit un outil aussi essentiel pour la diffusion des résultats de la recherche qu’ouvert aux nouvelles pratiques émergeant de l’importance que prennent rapidement les humanités numériques.

Plusieurs des présentations peuvent être retrouvées ici, et le résumé de celles-ci sont toujours disponibles dans le programme du colloque.

Nous tenons également à remercier l’ACFAS pour son soutien dans l’organisation de cette journée.

Fouilles textuelles de revues Québécoises – Iana Atanassova

Utilisation des citations pour le résumé automatique de la contribution d’articles scientifiques – Bruno Malenfant

Extraction et structuration de connaissances pour une plateforme interactive dédiée à Érudit: état de l’art et points de réflexion – Philippe Langlais

Projets de données liées chez Canadiana.org – Daniel Velarde et Julienne Pascoe

Altmetrics: opportunités et défis associés à l’usage des médias sociaux dans la communication savante – Stefanie Haustein

Valorisation du fonds documentaire numérique pour la recherche – Marc Bertin

Fouille de textes et cartographie thématique des corpus numériques – Dominic Forest