SemDupl

SemDupl - Semantische Duplikaterkennung mithilfe von Textual Entailment

Projektbeschreibung

Semantische Duplikaterkennung mithilfe von Textual Entailment (SemDupl) ist ein von der Deutschen Forschungsgemeinschaft (DFG) gefördertes Forschungsprojekt. Ziel dieses Projektes ist es, Methoden zu entwickeln, mit deren Hilfe Duplikate von Texten erkannt werden können, wobei in diesem Projekt sowohl flache als auch tiefe logikbasierte Verfahren zur Anwendung kommen sollen.

Eines der wichtigsten Anwendungsszenarien einer Duplikaterkennung ist das Entdecken von Plagiaten von Texten aus dem Internet. Darüberhinaus spielt die Duplikaterkennung auch eine wichtige Rolle bei der Textzusammenfassung, bei Frage-Antwort-Systemen oder beim Information Retrieval.

Eine besondere Herausforderung in diesem Projekt besteht darin, auch Duplikate zu entdecken, bei denen die Texte zwar inhaltlich identisch sind aber komplett anders formuliert wurden. Mit flachen Verfahren allein sind solche Duplikate meist nicht zu erkennen.