Archiv | Open Science RSS feed for this section

Informatik Publikationen der Universität Paderborn

25 Feb

Open Access Publikationen sind frei zugänglich und eignen sich, um einen Eindruck über die Forschung in einem Fachgebiet zu bekommen. Für Autoren bringt die Veröffentlichung im Web auch Vorteile, da elektronische Publikationen nach gegenwärtiger Erfahrung häufiger zitiert werden (DFG).

In meiner Abschlussarbeit beschäftige ich mich mit der Generierung von Vorschlägen für wissenschaftliche Publikationen. Diese Vorschläge werden automatisch berechnet. Daher ist es nötig zu prüfen, ob diese Vorschläge Sinn ergeben.

Eine Möglichkeit der Prüfung ist der Vergleich mit Datensammlungen, die von Menschen klassifiziert wurden. Ein Beispiel ist der Cora Datensatz. Eine andere Variante ist eine stichprobenartige Prüfung. Um einen Zusammenhang zwischen Publikationen bewerten zu können, ist allerdings eine gewisse Expertise erforderlich. Und diese ist bei Forschern, Lehrenden und Studierenden zu finden.

Einen Überblick über Informatik-Themen, die an der Uni Paderborn behandelt werden, erhält man durch einen Blick in die Publikationslisten. Diese sind auf den Webseiten der einzelnen Fachgebiete zu finden. Die Veröffentlichung der Dateien im Web bringt den Autoren potenzielle Leser und dadurch vielleicht auch die ein oder andere Zitierung. Für diejenigen, die an einer Sammlung der frei zugänglichen PDFs interessiert sind, sollte diese Tabelle mit Listen von PDF-Dateien nützlich sein:

Fachgebiet Publikationen
Model Driven Software Engineering 0 Dateien
Didaktik der Informatik 37 Dateien
Codes und Kryptographie 60 Dateien
Algorithmen und Komplexität 0 Dateien
Electronic Commerce und Datenbanken 2 Dateien
Technische Informatik 76 Dateien
Computergrafik, Visualisierung und Bildverarbeitung 69 Dateien
Custom Computing 54 Dateien
Swarm Intelligence 211 Dateien
Entwurf paralleler Systeme 0 Dateien
Datenbank und Informationssysteme 363 Dateien
Softwaretechnik 0 Dateien
Theorie verteilter Systeme 213 Dateien
Rechnernetze 155 Dateien
Programmiersprachen und Übersetzer 32 Dateien
Sicherheit in Netzwerken 11 Dateien
Kontextuelle Informatik 0 Dateien
Mensch-Computer-Interaktion und Softwaretechnologie 0 Dateien
Wissensbasierte Systeme 16 Dateien
Spezifikation und Modellierung von Softwaresystemen 18 Dateien

Insgesamt 1317 Dateien und 1,3 Gigabyte (ermittelt mit du -sch).

Creative Commons Lizenzvertrag Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung 3.0 Deutschland Lizenz.
Wenn möglich, verwenden Sie doch einen Link zum Originalartikel:
Adrian Wilke: Informatik Publikationen der Universität Paderborn.

Advertisements

Masterarbeit: Near Copy Detection in large text corpora (ODIN)

10 Jan

Im Rahmen meiner Masterarbeit werde ich ein System zur Detektion ähnlicher Textteile in wissenschaftlichen Arbeiten entwickeln die als Hinweise auf Plagiate dienen können.

Basierend auf einer Einstufung von Benno Stein und Sven Meyer zu Eissen kann man grob die folgenden Fälle einstufen:

NCD Mindmap

Zwei unterschiedliche Arten der Suche sind zu unterscheiden. Intrensische Suche, in der ein Zieldokument untersucht wird ohne ein bestimmtes Quelldokument. Hier können Sprach- und Strukturanalysen durchgeführt werden, die als hinweise auf unterschiedliche Authoren dienen können. Die zweite Suchart ist die suche auf einem hintergrund Korpus. Hier wird das Zieldokument mit den Dokumenten aus dem Korpus als Quelldokument verglichen. Die folgenden Fälle ergeben sich daraus:

  1. Das Detectieren von exacten kopien ist relativ einfach, es werden Wörter von Ziel und Quelldokument verglichen. Wird eine Kette von Worten gefunden die länger ist als ein Grenzwert ist die suche erfolgreich.
  2. In dem Zieldokument wurden die kopierten Teile verändert. Diese Veränderungen können das einfügen oder weglassen von Textstellen, ersetzen von Teilen durch Paraphrasen oder Synonymen oder das umstellen der Sätze sein. Hierfür gibt es verschiedene Methoden diese Strukturänderungen aufzudecken, wie n-gram und stopword-n-gram Analysen Fuzzy IR Analysen oder Desynonymizierung der Texte.
  3. Ohne einen Hintergrund Korpus können Struktur und Sprachanalysen durchgeführt werden, die Hinweise auf unterschiedliche Autoren geben können.
  4. Der schwierigste Fall ist die Analyse von Sprachänderungen, wurden Textteile aus einer anderen Sprache in ein Dokument eingefügt so können diese Textteile über einen Interlinguaindex mit Hilfe von Wordnets Analysiert werden.

Als erster Schritt hin zu diesen Analysemethoden ist das vorbereiten der Texte. Diese Texte liegen häufig in PDF form vor, diese müssen in Text umgewandelt werden und sich verschiedenen Cleaningschritten unterziehen (Entfernen von Worttrennung, entfernen von Headern und Footern). Anschließend werden einigen textunifikationschritte ausgeführt (Sentencedetection, Tokendetection, POS-detection, Lemmatizierung von Worten, Numberremoval, Desynonymizierung).

Der zweite Schritt wird die Umsetzung verschiedener Analysemethoden zum auffinden kopierter textstellen sein.

Die Umsetzung wir mit Hilfe der Apache Hadoop Plattform geschehen. Dies ermögliche eine gute Skalierbarkeit der Komponenten um die Untersuchungen auf einen großen Datenbestand von vielen tausenden PDFs durchzuführen.

Das System wurde ODIN getauft in Bezug auf den höchsten germanischen Gott, der als Gott des Wissens, der Magie, des Krieges und der Toten gilt (wenn ihr wissen wollt, warum dann fragt Wolle) und als Akronym für near cOpy Detection IN large text corpora.

Demystifying Open Access

31 Okt

I found a very good deck of slides that try to shed light on the myths around the Open Access topic. It’s well worth going through and checking some of the references.

This post has first been published in the PG PUSHPIN blog.

Kurzer Buchtipp: „Introduction to Information Retrieval“

13 Okt

Im Rahmen der Arbeit habe ich mich ein wenig mit dem Buch „Introduction to Information Retrieval“  von Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze beschäftigt. Es liegt als online Ausgabe als PDF vor und ich finde es sehr empfehlenswert.  Es war ursprünglich als Skript für eine Vorlesung gedacht  und ist deshalb genau das richtige für den geneigten Informatik Student.

Introduction to Information Retrieval

Introduction to Information Retrieval

Sentiment Analysen im Vergleich

7 Sep

Ich hab eben mal zwei Anbieter von Sentiment Analysen verglichen und zwar:

Als Testdaten habe ich das knowaan Archiv benutzt. Die Ergebnisse sind in dieser Datei. Ich musste sie aber umbenennen um sie hoch laden zu können eigentlich ist es eine zip Datei die zwei JSON Dateien enthält. Einmal die Orginal Tweets ohne Retweets und einmal die tweets ohne Hashtags, Mentions und Urls. Das ist die Zusammenfassung:

Original:

  • tweetsentiments
    • positive: 12
    • neutral: 22
    • negative: 2
  • alchemyapi
    • positive: 16
    • neutral: 10
    • negative: 1
    • error: 9

Bereinigt:

  • tweetsentiments
    • positive: 13
    • neutral: 21
    • negative: 2
  • alchemyapi
    • positive: 14
    • neutral: 12
    • negative: 0
    • error: 10

Meine Einschätzung:

  • positive: 17
  • neutral: 16
  • negative: 3

So richtig überzeugen können beide nicht. Tweetsentiments reagiert nicht auf Wörter wie „cool“ oder „interesting“ dafür werden aber alle sprachen unterstützt. Das bedeutet dann aber meist das der Text als neutral eingestuft  wird außer er enthält ein Emoticon.
Manchmal hat Tweetsentiments Probleme mit zu kurzen Texten und wirft einen Fehler. Das lässt sich beheben indem neutrale nicht Stopwörter an den Text hängt. Der riesige Vorteil von Tweetsentiments ist das die  API Aufrufe nicht begrenzt sind.

Alchemyapi brauch eine Anmeldung, ist auf 30k Aufrufe pro Tag beschränkt und kommt nur mit englischen Texten zurecht. Sonst liefert die API aber  recht sinnvolle Resultate, auch wenn die API etwas zu positiven Ergebnissen neigt.