ScolastiX

Available

 * About: https://lemo.irht.cnrs.fr/43/43-11.htm#titreDyn41 (en français)
 * Project: http://www.sermones.net/
 * (Link to code `www.sermones.net/scolastix` has been dead link since 2019)

Description
From the project website (accessed 2019-03-05): La volonté 21 première est de proposer une application permettant l’annotation collaborative d’un corpus de textes : les membres de l’équipe doivent pouvoir intervenir en parallèle sur les documents, sans avoir à imposer une chaîne de traitement contraignante. Nous souhaitions également offrir un outil qui offre en quelque sorte une « couche d’abstraction » entre la problématique scientifique posée par les historiens et la (ou les) modélisations informatiques pouvant en découler.

La solution adoptée se rapproche du standoff. Elle repose sur un stockage séparé des textes sources et des informations relatives à leur analyse scientifique (v. fig. 1) :

Les textes du corpus subissent un premier encodage en XML lors de leur chargement dans l’application. Cet encodage, très basique, est réalisé automatiquement : il consiste en un balisage des phrases et des mots, basé sur la reconnaissance de la ponctuation. Chaque phrase et chaque mot reçoivent un identifiant unique, incrémenté séquentiellement. Ces textes sont stockés en lecture seule sur un serveur central. Les annotations, entrées par les utilisateurs via un client web, sont stockées dans une base de données relationnelle. En plus de l’analyse, du commentaire et des éléments divers, chaque annotation est rattachée à un point ou à un passage du texte source, grâce à l’identifiant du début et de la fin de l’extrait concerné. Le travail simultané et parallèle sur le corpus est ainsi rendu possible, et il est également très facile pour les utilisateurs de reprendre leur travail pour le compléter ou le modifier. Une fois le travail sur un texte achevé, il est exporté : un parseur fusionne le texte source (débarrassé du premier encodage automatique) avec les informations issues de la base de données. Cette fusion peut être réalisée selon des règles paramétrables (nom des balises et attributs correspondant à chaque type d’information, règles d’agencement des éléments,…), correspondant donc à des DTD différentes. Ce système permet de donner une certaine indépendance à la grille d’analyse scientifique et à sa traduction en XML, simplifiant à la fois l’évolution d’une DTD pendant le processus d’enrichissement du corpus, et l’adoption d’une application identique par des projets à la problématique similaire mais travaillant avec des DTD distinctes.