Archiv | Research 2.0 RSS feed for this section

Informatik Publikationen der Universität Paderborn

25 Feb

Open Access Publikationen sind frei zugänglich und eignen sich, um einen Eindruck über die Forschung in einem Fachgebiet zu bekommen. Für Autoren bringt die Veröffentlichung im Web auch Vorteile, da elektronische Publikationen nach gegenwärtiger Erfahrung häufiger zitiert werden (DFG).

In meiner Abschlussarbeit beschäftige ich mich mit der Generierung von Vorschlägen für wissenschaftliche Publikationen. Diese Vorschläge werden automatisch berechnet. Daher ist es nötig zu prüfen, ob diese Vorschläge Sinn ergeben.

Eine Möglichkeit der Prüfung ist der Vergleich mit Datensammlungen, die von Menschen klassifiziert wurden. Ein Beispiel ist der Cora Datensatz. Eine andere Variante ist eine stichprobenartige Prüfung. Um einen Zusammenhang zwischen Publikationen bewerten zu können, ist allerdings eine gewisse Expertise erforderlich. Und diese ist bei Forschern, Lehrenden und Studierenden zu finden.

Einen Überblick über Informatik-Themen, die an der Uni Paderborn behandelt werden, erhält man durch einen Blick in die Publikationslisten. Diese sind auf den Webseiten der einzelnen Fachgebiete zu finden. Die Veröffentlichung der Dateien im Web bringt den Autoren potenzielle Leser und dadurch vielleicht auch die ein oder andere Zitierung. Für diejenigen, die an einer Sammlung der frei zugänglichen PDFs interessiert sind, sollte diese Tabelle mit Listen von PDF-Dateien nützlich sein:

Fachgebiet Publikationen
Model Driven Software Engineering 0 Dateien
Didaktik der Informatik 37 Dateien
Codes und Kryptographie 60 Dateien
Algorithmen und Komplexität 0 Dateien
Electronic Commerce und Datenbanken 2 Dateien
Technische Informatik 76 Dateien
Computergrafik, Visualisierung und Bildverarbeitung 69 Dateien
Custom Computing 54 Dateien
Swarm Intelligence 211 Dateien
Entwurf paralleler Systeme 0 Dateien
Datenbank und Informationssysteme 363 Dateien
Softwaretechnik 0 Dateien
Theorie verteilter Systeme 213 Dateien
Rechnernetze 155 Dateien
Programmiersprachen und Übersetzer 32 Dateien
Sicherheit in Netzwerken 11 Dateien
Kontextuelle Informatik 0 Dateien
Mensch-Computer-Interaktion und Softwaretechnologie 0 Dateien
Wissensbasierte Systeme 16 Dateien
Spezifikation und Modellierung von Softwaresystemen 18 Dateien

Insgesamt 1317 Dateien und 1,3 Gigabyte (ermittelt mit du -sch).

Creative Commons Lizenzvertrag Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung 3.0 Deutschland Lizenz.
Wenn möglich, verwenden Sie doch einen Link zum Originalartikel:
Adrian Wilke: Informatik Publikationen der Universität Paderborn.

Advertisements

IKNOW-ANALYSE

23 Nov

In diesem Beitrag stelle ich kurz das Thema der Masterarbeit vor und gehe auf den Abschnitt der Datenbereinigung ein.

  • Was ist das Thema der Masterarbeit?

Analyse des IKNOW Forschungsnetzwerkes und Visualisierung von Forschungstrends – Datenbereinigung, Analyse mit Trenderkennung und Visualisierung

In meiner Masterarbeit beschäftige ich mich mit der Analyse der eingereichten Paper der Konferenz IKNOW.
Weiterhin sollen die Ergebnisse grafisch dargestellt werden.

Datenbereinigung

  • Warum ist das nötig?

Um aussagekräftige Analysen mit korrekten Daten zu erhalten, müssen die Quelldaten eine möglichst hohe Qualität aufweisen.
Durch die automatische Erkennung des KnowAAN-Tools ist diese Qualität nicht gewährleistet.
Eine manuelle Datenbereinigung erhöht die Qualität der Daten und ermöglicht erst Auswertungen zum Inhalt der vorhandenen Konferenzpaper.

  • Welche Daten sind vorhanden?

Die IKNOW-Konferenz hat bisher jährlich von 2001-2012 stattgefunden.
Die vorhandenen, eingereichten Paper wurden in das KnowAAN-Tool, das durch die PG KnowAAN erstellt wurde, geladen.
Bisher sind insgesamt 622 Paper im System.
Diese können mit dem KnowAAN-Documentbrowser exploriert, und mit einer Editionsmaske bearbeitet werden.
Weitere Paper sind auf den Konferenzseiten aufgeführt, konnten aber noch nicht in das System geladen werden.
Die Konferenzseite zählt zusammen 663 Paper auf.

  • Aufwandsschätzung im Vorfeld:

Um den Aufwand für die manuelle Datenbereinigung abzuschätzen, wurde die folgende Rechnung erstellt.
Bei einem Paper werden die Kopfdaten und die Referenzen bearbeitet.
Als Schätzung wurden 10 Minuten für die Kopfdaten und 20 Minuten für die Referenzen pro Paper angenommen.
Dabei werden 20 Referenzen pro Paper vermutet und jeweils 1 Minute pro Referenz gerechnet.
Bearbeitung gesamt: 30 Min. / Paper

Bei einer maximal geplanten Bearbeitungszeit zur Datenbereinigung von 2-2.5 Monaten steht folgende Zeit zur Verfügung.
Arbeitszeit: 6 Stunden / Tag ; 5 Tage / Woche (Mehr Zeit kann hier für diese Aufgabe nicht eingesetzt werden, da die Konzentration nachlässt und Fehler entstehen.)
12 Paper / Tag
60 Paper / Woche
in 10 Wochen sind somit 600 Paper bearbeitbar

Vorgehen:
Aufteilen der Korrekturen in 2 Phasen / Durchläufe.
Phase 1: Kopfdaten bereinigen
Phase 2: Referenzen bereinigen

Nachteil: Jedes Paper wird doppelt bearbeitet.
Vorteil: Man erhält schneller einen Überblick über alle Paper, da die kürzere Aufgabe zunächst für alle Paper durchgeführt wird.
Als Folge können mögliche Probleme eher erkannt werden und der weitere Aufwand kann besser abgeschätzt werden.

 

  • PHASE 1: Kopfdaten bereinigen umfasst: Titel, Name Autor(en), Arbeitsstelle Autor(en), Ort der Arbeitsstelle, Schlüsselwörter, Jahr der Konferenz.

Die Arbeit mit 2 Bildschirmen (Editiermaske, Paper als PDF) ist sinnvoll.
Die Paper sollten der Reihenfolge nach bearbeitet werden.
Die Sortierung nach Jahr und eine alphabetische Sortierung innerhalb eines Jahres hat sich als sinnvoll erwiesen.
Man sollte hierbei mit den früheren Jahren beginnen, da man bei Papern aus späteren Jahren auf bereits korrigierte Paper aus früheren Jahren zurückgreifen kann.
Die bearbeiteten Paper sollte man sich merken/notieren.

Bei den Kopfdaten soll der Ort der Arbeitsstelle für jeden Autor erfasst werden.
Die Ortsangaben werden für Kartenansichten benötigt, die die Herkunft der Autoren darstellen.
Als Genauigkeitsmaßstab werden im Allgemeinen die Stadt und das Land angegeben.
In einigen Papern ist die Stadt jedoch nicht angegeben.
Hier ist eine zusätzliche Recherche erforderlich (mit Autor und Firma).
Die Angaben zu Abkürzungen von Kategorien werden als Schlüsselwörter mit aufgenommen.

Die Korrektureingabemaske ermöglicht die Speicherung erst dann, wenn alle Pflichtfelder gefüllt sind.
Durch fehlerhafte Erkennung in der automatischen Vorverarbeitung der Paper ist es möglich, dass die Referenzen nicht in einem „korrekten“ Zustand sind.
Daher werden die vorhandenen, erkannten Referenzen soweit korrigiert, dass diese Änderungen gespeichert werden können.

 

 

Ergebnisse studentischer Projekte auf der mLearn 2012 vorgestellt

16 Okt

In der heutigen Eröffnungskeynote der mLearn Konferenz 2012 in Helsinki (Finnland) wurden Ergebnisse aus zwei studentischen Projekten der Arbeitsgruppe präsentiert. Ich habe die Analysesoftware der Projektgruppe knowAAN und die Visualisierungen aus der Bachelorarbeit von Jörg Amelunxen verwendet, um die Publikationen der letzten 11 Jahre der mLearn Konferenzserie zu analysieren. Das Cleaning der Metadaten (bisher wurden noch keine Referenzdaten gesäubert) wurde durch Marina Pongraz vom CELSTEC durchgeführt (Vielen Dank noch mal).

Hier sind die Folien zu meiner Analyse, die teilweise in der Keynote verwendet wurden (es kam übrigens sehr gut an…):

SHK-Stelle in ginkgo Projekt zu vergeben

13 Mrz

Wir suchen eine studentische Hilfskraft (zunächst 9,5 Stunden, später auch 19 Stunden machbar), die in einem Team von 3 SHKs an unserem Konferenzmanagementsystem ginkgo weiterentwickelt. Das System basiert im Backend auf Ruby on Rails (3.1) und im Frontend auf aktuellsten Javascript Technologien und Frameworks. Mehr zu ginkgo gibt es auch hier im Blog unter dem Tag ginkgo.

Bewerber sollen bereits gute bis sehr gute Kenntnisse in der Javascript Entwicklung haben. Mit der Entwicklung von Webapplikationen solltet ihr vertraut sein. Erfahrungen mit HTML5 sind hilfreich bzw. solltet ihr Lust haben Euch darin einzuarbeiten. Die Entwicklung erfolgt Test- und Featuregetrieben und setzt auf agilen Entwicklungsmethoden auf.

Im Speziellen sollen die folgenden Techniken und Frameworks eingesetzt werden. Kenntnisse darin sind von großem Vorteil

Kenntnisse in Ruby sind nicht zwingend erforderlich aber von Vorteil.

Die Kommunikationssprache im Team ist Deutsch. Bewerber werden ihre Qualifikation in der Bearbeitung einer Programmieraufgabe nachweisen müssen.

Bitte sendet Anfragen und Bewerbungen direkt an Wolfgang Reinhardt.

Demystifying Open Access

31 Okt

I found a very good deck of slides that try to shed light on the myths around the Open Access topic. It’s well worth going through and checking some of the references.

This post has first been published in the PG PUSHPIN blog.