Grille de services

Dans la droite ligne du projet à l’origine de sa formation (voir Présentation), la PlaTec a élaboré une grille de services1 à destination des chercheurs et des équipes de recherche en SHS fondée sur trois axes :

  1. mettre à la disposition des équipes de recherche une infrastructure numérique mutualisée pour répondre à leurs besoins les plus communs,
  2. accompagner les chercheurs et les équipes de recherche dans la production de données numériques documentées et conformes aux standards et bonnes pratiques pour favoriser leur diffusion (interopérabilité, réutilisation),
  3. garantir l’accessibilité à long-terme des données.

Ces missions reposent en grande partie sur des outils soutenus par l’Académie suisse des sciences humaines et sociales (ASSH), dans le cadre du Data and Service Center for the Humanities.

1 - Une infrastructure informatique pour soutenir la recherche

Au nombre des services proposés par la PlaTec figurent :

Un environnement virtuel de recherche : Knora/Salsah

Knora/Salsah permet d’agréger dans un seul système (Knora) des bases de données et des données variées auxquelles les équipes de recherche accèdent par l’intermédiaire d’une interface web générique (Salsah).

Cela signifie que, quelle que soit la nature des données considérées (image, vidéo, audio, texte mis en forme selon différents encodages : HTML, XML et TEI/XML) 2:, l’environnement virtuel de recherche peut les prendre en charge. En fonction des droits dont il dispose, l’utilisateur peut donc :

  • accéder aux données sur internet,
  • les modifier,
  • les chercher en combinant différents critères,
  • les exporter,
  • agrandir et annoter les images.

Ces données sont entreposées et sécurisées par la PlaTec, sur des serveurs informatiques mis à disposition par le Centre Informatique de l’UNIL.

Un serveur performant : Junipero

Le LaDHUL a investi en 2016 dans un serveur performant, dont la configuration a été définie en fonction des besoins des chercheurs de la faculté de sciences sociales et politiques.
Administré par la PlaTec, ce serveur, baptisé Junipero, est mutualisé et mis à la disposition des équipes de recherche des différentes facultés du LaDHUL.

Un support technique ponctuel

La mission de la PlaTec est en priorité de mettre à disposition des chercheurs et de maintenir dans le temps des outils génériques, mutualisables et modulaires, qui bénéficient au plus grand nombre.

Les ressources de la PlaTec ne lui permettent pas de fournir un support technique inconditionnel à l’ensemble des équipes de recherche du LaDHUL, mais elle apporte volontiers un soutien ponctuel aux projets de recherche. Quelques exemples ici.

Hébergement de code sur GitHub/GitLab

La PlaTec s’efforce aussi de fédérer pour le LaDHUL les efforts de développements informatiques des facultés des Lettres, Sciences Sociales et Politique et Théologie et Sciences Religion. Elle offre donc aux développeurs qui le souhaitent la possibilité d’héberger leur code, soit publiquement sur GitHub, sous le nom du LaDHUL : https://github.com/LaDHUL, soit de manière privée sur son serveur GitLab.

2 - Un service d’accompagnement des équipes de recherche pour les projets à forte composante numérique

La PlaTec aiguille et encadre les chercheurs à plusieurs étapes-clés du déroulement d’un projet de recherche :

Au moment du dépôt de requête…

  • Aide au montage de projet : la PlaTec fournit un appui qui peut s’avérer crucial pour définir une stratégie numérique viable, conforme aux exigences des bailleurs de fonds, et établir le cadre budgétaire en matière d’infrastructure et de matériel, de développement informatique et de profil de poste. En s’appuyant sur un réseau de compétences, la PlaTec est en mesure d’évaluer les besoins et les coûts de chaque projet. Elle peut également assister à la rédaction des parties techniques de la requête.

En cours de projet…

  • Modélisation conceptuelle : la mise en forme des données est une étape préalable indispensable à la mise en base de données et notamment à l’intégration des données dans Knora/Salsah. Elle consiste à concevoir une structure abstraite logique et une terminologie qui traduisent fidèlement les problématiques d’un projet de recherche et permettent une interrogation systématique du corpus de recherche. C’est sur cette base (saine) que s’élaborent ensuite données et corpora de recherche.

  • Production de données de qualité : pour rendre les données de recherche interopérables et réutilisables, conformément aux exigences des organismes financeurs de la recherche, ces données doivent se conformer à certains standards (certains formats d’images ou de fichiers, garants de l’interopérabilité autant que de la pérennité du support numérique) et schémas de descriptions (standards permettant de décrire une bibliographie de manière structurée) ainsi qu’à une structure logique cohérente. La PlaTec mène une veille sur ces questions et accompagne les chercheurs en les aidant à identifier les standards en vigueur dans leurs domaines et les référentiels les plus communément utilisés.

  • Aide au recrutement : grâce au réseau de spécialistes auquel elle s’adosse, la PlaTec peut assister les équipes de recherche à définir des profils de postes en informatique et accompagner les différentes étapes de l’engagement.

  • Encadrement de développements informatiques : pour autant qu’ils contribuent au développement d’outils génériques, mutualisables (et/ou modulaires, particulièrement avec Knora/Salsah), la PlaTec peut réaliser elle-même ou encadrer les tâches de développement informatique confiées à des mandataires. Elle peut ainsi coordonner le travail autour du développement d’interfaces spécifiques pour les projets dont les données sont intégrées dans Knora/Salsah. Cela dit, le maintien à long-terme de ces travaux de développement sort du cadre de la PlaTec.

En fin de projet…

  • Pérenniser les données : garantir l’accessibilité des données de recherche (et particulièrement des bases de données)3 au-delà de la période de financement des projets est l’une des missions de la PlaTec, en tant qu’antenne du Data and Service Center for the Humanities. En revanche, la PlaTec peut, sous certaines conditions4, prendre en charge ou encadrer le travail d’import des données de recherche dans Knora/Salsah. De manière générale, plus tôt la pérennité des données est prise en compte dans un projet et plus élevées sont les chances d’atteindre cet objectif avec un effort et un coût minimaux.
  • Définir les conditions de mise à disposition des données de recherche : l’ouverture des données de recherche, qui participe à la visibilité et à la valorisation de la recherche, impose des contraintes juridiques. La PlaTec, grâce à son réseau de compétences, guide les équipes de recherche pour définir les conditions de diffusion et de réutilisation des données de recherche5.

3 - Un engagement pour garantir l’accessibilité des données de recherche

La gestion des données de recherche fait partie des missions confiées au Data and Service Center for the Humanities par l’Académie Suisse des Sciences Humaines et Sociales. Qu’elles aient été crées nativement dans Knora/Salsah ou qu’elles y soient transférées en fin de projet, les données de recherche et les bases de données restent citables, consultables en ligne et, selon les modalités définies par les équipes de recherche, modifiables et téléchargeables par la communauté des chercheurs.

  • Knora/Salsah, une archive *vivante* : les données crées ou versées dans Knora sont dites « pérennisées » dans la mesure où leur accessibilité sur internet est garantie via l’interface graphique générique Salsah (voir ci-dessous), et ce grâce au financement pérenne du Data and Service Center for the Humanities.

  • Valorisation des données : le Data and Service Center for the Humanities prend position en faveur de l’ouverture des données de recherche et s’engage à favoriser leur interopérabilité et leur réutilisation en respectant les formats de données standards, et en adoptant en particulier les technologies du web sémantique pour améliorer la visibilité des productions de la recherche en sciences humaines et sociales dans le web de données.

  • Accessibilité & archivage à long-terme impliquent une veille sur les formats de fichiers et requièrent la migration périodique des formats menacés par l’obsolescence vers un format réputé plus stable, en garantissant la cohérence et de l’intégrité des données tout au long de l’opération. S’engager sur une démarche d’archivage et d’accessibilité à long-terme est donc extrêmement contraignant et délicat. Par conséquent :

    • les données et les bases de données créées dans Knora ont vocation à être pérennisées, mais parce qu’il est illusoire de viser un archivage exhaustif à long-terme, un processus de sélection des données de recherche (vraisemblablement fondé sur leur intérêt scientifique, la qualité de leur documentation et leur conformité vis à vis des standards) sera vraisemblablement mis en place et piloté par l’ASSH.
    • s’il n’existe a priori aucune restriction pour les fichiers téléchargeables dans Knora/Salsah, seules les images statiques sont pour l’instant converties dans un format de fichiers (document de type Microsoft Word, Libre/Open Office, PDF, feuilles de calcul, vidéos et audio) pour lequel un archivage à long-terme est prévu.

Les outils de la PlaTec

La PlaTec met à la disposition des équipes de recherche en SHS la « boîte à outils » du Data and Service Center for the Humanities, promue par l’Académie suisse des sciences humaines et sociales.

Knora

Knora (pour Knowledge Organisation, Representation and Annotation) organise le stockage des données, leur structure, leur cohérence et leur intégrité et gère les conditions de l’accès sécurisé à ces données.
Knora est fondé sur une base de données « RDF » (pour Resource Description Framework) ou triplestore, dans laquelle toutes les données sont stockées sous la forme de triplets, dans un format utilisé pour le web de données et correspondant à :

sujet verbe complément
un livre (sujet) a pour titre (prédicat) « La piste fauve » (objet)

La simplicité de la structure de description des données autorise une grande flexibilité et permet à Knora de prendre en charge des modèles de données complexes. Chaque équipe est donc en mesure de définir une structure propre, appelée « ontologie » (son vocabulaire et sa grammaire propres, en somme) pour traduire les spécificités de son projet, de ses problématiques et de son corpus.

Knora est une suite de composants logiciels accessible en open source, développée par le Digital Humanities Lab à l’Université de Bâle. Knora définit sa propre ontologie de haut niveau, fondée sur l’ontologie OWL, permettant de ce fait l’interopérabilité des ontologies des différents projets. Les données sont exposées via un noeud SPARQL (en accès contrôlé) et une interface de programmation (RESTful API), développée en Scala, à partir de laquelle il est possible de développer des applications spécifiques (et notamment des interfaces graphiques dédiées) selon les besoins des équipes de recherche. Knora inclut également un module d’authentification et d’autorisation et un système de gestion des versions automatique.

Pour en savoir plus: http://www.knora.org/ et https://github.com/dhlab-basel/Knora.

Salsah 1.5 et Salsah 2.0

Salsah 1.0, outil développé par le Digital Humanities Lab et testé dans le cadre d’un projet-pilote à l’origine du Data and Service Center for the Humanities, est maintenant l’interface graphique générique de Knora.

Salsah (pour System for Annotation and Linkage in Arts and Humanities) sert d’environnement virtuel de recherche pour toutes les données ou bases de données intégrées dans Knora et pour les sources numérisées (texte, image, vidéo ou audio). Salsah permet d’annoter et de relier des sources ou des données entre elles, au sein d’un même corpus de recherche, mais également à travers des jeux de données produits par différentes équipes. Salsah contribue ainsi au décloisonnement et à la valorisation des données de recherche.

Salsah 1.5 est la transposition en l’état (ou presque) de l’interface graphique de l’ancien outil Salsah 1.0 vers Knora. Salsah 2.0, actuellement en cours de développement, est une refonte complète de Salsah 1.0. Le design, les fonctionnalités et l’ergonomie seront revus de manière à améliorer la convivialité de l’interface tout en lui conservant son aptitude à manipuler différents types de fichiers média.

Pour en savoir plus sur Salsah 2.0 : https://dhlab-basel.github.io/Salsah/.

Sipi

Sipi (pour Simple Image Presentation Interface) est le serveur de média de Knora et Salsah. L’affichage des images ou la mise à disposition de fichiers associés aux données passe nécessairement par cet outil, également développé par le Digital Humanities Lab. Sipi implémente les standards du IIIF (International Image Interoperability Framework), ce qui garantit l’interopérabilité (partage et réutilisation) des images fournies par l’interface de programmation de Knora pour d’autres applications que Salsah.

Sipi est un logiciel open source, programmé en C++, qui utilise, entre autres librairies, Kakadu pour une implémentation complète du standard de format d’image JPEG2000.

Pour en savoir plus sur Sipi : https://github.com/dhlab-basel/Sipi.

  1. Le terme de grille de service renvoie à « un ensemble de technologies d’infrastructure et de systèmes informatiques mis à la disposition des laboratoires et équipes de recherche pour mutualiser, diffuser et stabiliser dans le temps l’accès aux données et documents », d’après la définition qu’en donne Huma-Num

  2. Pour le moment, l’environnement virtuel de recherche ne prend pas en charge les géodonnées. Cependant, Knora/Salsah sont des outil appelés à évoluer pour s’adapter au mieux aux besoins dont feront état les équipes de recherche en sciences humaines et sociales. 

  3. Seules les données crées ou versées dans Knora sont pérennisées. Le maintien des sites web compagnons développés autour des projets de recherche et autour de Knora/Salsah ne fait donc pas partie des fonctions de la PlaTec. 

  4. Un budget pour l’import final des données peut être défini au moment du dépôt de la requête si, pour diverses raisons, les données du projet ne pouvaient être crées nativement dans Knora. Ce budget doit couvrir les étapes de modélisation, de mise en correspondance et de rédaction du script d’import des données. 

  5. Le droit d’auteur peut, par exemple, interdire la mise en ligne de la reproduction d’une oeuvre alors que la grille analytique utilisée dans le cadre d’un projet de recherche pour qualifier l’oeuvre en question peut être rendue publique.