Catégorisation et recherche de documents assistées par l'IA

Situation

Le travail d'un avocat consiste souvent à passer au crible un nombre important de contrats. Dans une situation idéale, où chaque document a été soigneusement et systématiquement classé par catégorie, la tâche est aisée. Cependant, la plupart des environnements d'entreprise sont loin de cette situation idéale.

Notre client, le département juridique d'une société de services, a dû faire face à une importante base de données de documents juridiques non structurés où le temps nécessaire pour extraire les informations contractuelles avait considérablement augmenté au cours des dernières années. Une fois un document trouvé, il était relativement simple de l'analyser. Cependant, cachée parmi des milliers de documents, la recherche d'une information contractuelle spécifique était si difficile que notre client craignait de passer à côté d'une information stratégique, portant ainsi préjudice à l'entreprise.

Approche

Notre équipe Open Web Technology a aidé notre client à concevoir et à développer une solution capable d'analyser et de classer cette vaste base de données de contrats afin de permettre aux utilisateurs d'y effectuer des recherches.

Tirant parti des avantages que nous offre notre coentreprise avec Swisscom, nous nous sommes associés pour proposer une solution innovante et intelligente. Cette solution a pu bénéficier des dernières avancées en matière d'algorithmes d'IA pour analyser et catégoriser efficacement les documents et a fourni un front-end pour interroger intuitivement le modèle de documents généré.

Dans un premier temps, notre solution a dû lire le contenu des documents numérisés. Nous avons collecté les contrats à partir de différents systèmes d'archivage et extrait leur texte à l'aide de technologies OCR de pointe. Une fois ce contenu textuel disponible, nous avons appliqué des techniques de traitement du langage naturel pour la catégorisation des documents et l'inférence des relations entre documents.

Apprentissage de la catégorie du document

Pour effectuer des tâches d'apprentissage automatique, un ordinateur doit traiter une représentation numérique du contrat. La transformation du texte en un objet mathématique est appelée intégration de documents.
Chaque document étant représenté sous la forme d'un objet mathématique, un ordinateur peut mesurer les distances entre les objets et regrouper les voisins les plus proches. Cette étape est appelée "clustering". Dans notre cas, ces groupes représentent des documents de même type.
Enfin, le système pourrait stocker les catégories produites par notre algorithme de clustering, permettant au juriste d'effectuer une recherche par catégorie de document.

Visualisation du clustering de plus de 1000 documents en types de contrats

Inférer des relations entre les documents

Pour détecter les relations entre les documents, nous avons utilisé l'habitude des auteurs d'utiliser des modèles communs lorsqu'ils font référence à des documents similaires. Ceci peut être détecté et résulté dans un workflow d'inférence de relations entre documents :

L'algorithme peut analyser chaque document en essayant de détecter les documents mentionnés, en utilisant des expressions régulières ou la reconnaissance d'entités nommées.
Lorsqu'une référence est trouvée, l'algorithme recherche dans la base de données si les documents mentionnés ont été identifiés.
Sur la base de la catégorie du document, la relation entre les deux documents pouvait être déduite, permettant à notre programme de créer progressivement une liste de documents se mentionnant mutuellement.
Cette liste peut être sauvegardée dans une base de données pour être interrogée ultérieurement par l'équipe juridique.

Ayant détecté à la fois la catégorie de document et la relation entre les documents, le juriste n'avait plus qu'à utiliser la solution pour accéder à cette vaste quantité d'informations.

La solution que nous avons développée montre comment l'intelligence artificielle peut bouleverser le monde de l'entreprise, en automatisant les tâches lourdes et répétitives pour permettre aux gens de se consacrer à des tâches plus utiles.

Notre client a été en mesure de reclasser une énorme quantité de documents en quelques mois seulement, ce qui n'aurait pas été possible avec des techniques conventionnelles et a permis d'améliorer la base de données juridiques.

Chez Open Web Technology, nous pensons que l'intelligence artificielle peut aider les entreprises de manière multiple et inattendue dans un avenir proche. Elle ouvrira de nouvelles opportunités tant pour la réduction des coûts que pour le développement des affaires.

Si le sujet de la classification des textes vous intéresse, n'hésitez pas à lire notre article qui lui est consacré!

Catégorisation et recherche de documents assistées par l'IA

Situation

Approche

En savoir plus sur ce projet

Projets similaires

Comment perturber la télémédecine avec l'IA ?

L'assurance maladie numérique avec OWT

Système de gestion des patients : la santé numérique intégrée