Masterarbeit: Near Copy Detection in large text corpora (ODIN)

10 Jan

Im Rahmen meiner Masterarbeit werde ich ein System zur Detektion ähnlicher Textteile in wissenschaftlichen Arbeiten entwickeln die als Hinweise auf Plagiate dienen können.

Basierend auf einer Einstufung von Benno Stein und Sven Meyer zu Eissen kann man grob die folgenden Fälle einstufen:

NCD Mindmap

Zwei unterschiedliche Arten der Suche sind zu unterscheiden. Intrensische Suche, in der ein Zieldokument untersucht wird ohne ein bestimmtes Quelldokument. Hier können Sprach- und Strukturanalysen durchgeführt werden, die als hinweise auf unterschiedliche Authoren dienen können. Die zweite Suchart ist die suche auf einem hintergrund Korpus. Hier wird das Zieldokument mit den Dokumenten aus dem Korpus als Quelldokument verglichen. Die folgenden Fälle ergeben sich daraus:

  1. Das Detectieren von exacten kopien ist relativ einfach, es werden Wörter von Ziel und Quelldokument verglichen. Wird eine Kette von Worten gefunden die länger ist als ein Grenzwert ist die suche erfolgreich.
  2. In dem Zieldokument wurden die kopierten Teile verändert. Diese Veränderungen können das einfügen oder weglassen von Textstellen, ersetzen von Teilen durch Paraphrasen oder Synonymen oder das umstellen der Sätze sein. Hierfür gibt es verschiedene Methoden diese Strukturänderungen aufzudecken, wie n-gram und stopword-n-gram Analysen Fuzzy IR Analysen oder Desynonymizierung der Texte.
  3. Ohne einen Hintergrund Korpus können Struktur und Sprachanalysen durchgeführt werden, die Hinweise auf unterschiedliche Autoren geben können.
  4. Der schwierigste Fall ist die Analyse von Sprachänderungen, wurden Textteile aus einer anderen Sprache in ein Dokument eingefügt so können diese Textteile über einen Interlinguaindex mit Hilfe von Wordnets Analysiert werden.

Als erster Schritt hin zu diesen Analysemethoden ist das vorbereiten der Texte. Diese Texte liegen häufig in PDF form vor, diese müssen in Text umgewandelt werden und sich verschiedenen Cleaningschritten unterziehen (Entfernen von Worttrennung, entfernen von Headern und Footern). Anschließend werden einigen textunifikationschritte ausgeführt (Sentencedetection, Tokendetection, POS-detection, Lemmatizierung von Worten, Numberremoval, Desynonymizierung).

Der zweite Schritt wird die Umsetzung verschiedener Analysemethoden zum auffinden kopierter textstellen sein.

Die Umsetzung wir mit Hilfe der Apache Hadoop Plattform geschehen. Dies ermögliche eine gute Skalierbarkeit der Komponenten um die Untersuchungen auf einen großen Datenbestand von vielen tausenden PDFs durchzuführen.

Das System wurde ODIN getauft in Bezug auf den höchsten germanischen Gott, der als Gott des Wissens, der Magie, des Krieges und der Toten gilt (wenn ihr wissen wollt, warum dann fragt Wolle) und als Akronym für near cOpy Detection IN large text corpora.

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: