IKNOW-ANALYSE

23 Nov

In diesem Beitrag stelle ich kurz das Thema der Masterarbeit vor und gehe auf den Abschnitt der Datenbereinigung ein.

  • Was ist das Thema der Masterarbeit?

Analyse des IKNOW Forschungsnetzwerkes und Visualisierung von Forschungstrends – Datenbereinigung, Analyse mit Trenderkennung und Visualisierung

In meiner Masterarbeit beschäftige ich mich mit der Analyse der eingereichten Paper der Konferenz IKNOW.
Weiterhin sollen die Ergebnisse grafisch dargestellt werden.

Datenbereinigung

  • Warum ist das nötig?

Um aussagekräftige Analysen mit korrekten Daten zu erhalten, müssen die Quelldaten eine möglichst hohe Qualität aufweisen.
Durch die automatische Erkennung des KnowAAN-Tools ist diese Qualität nicht gewährleistet.
Eine manuelle Datenbereinigung erhöht die Qualität der Daten und ermöglicht erst Auswertungen zum Inhalt der vorhandenen Konferenzpaper.

  • Welche Daten sind vorhanden?

Die IKNOW-Konferenz hat bisher jährlich von 2001-2012 stattgefunden.
Die vorhandenen, eingereichten Paper wurden in das KnowAAN-Tool, das durch die PG KnowAAN erstellt wurde, geladen.
Bisher sind insgesamt 622 Paper im System.
Diese können mit dem KnowAAN-Documentbrowser exploriert, und mit einer Editionsmaske bearbeitet werden.
Weitere Paper sind auf den Konferenzseiten aufgeführt, konnten aber noch nicht in das System geladen werden.
Die Konferenzseite zählt zusammen 663 Paper auf.

  • Aufwandsschätzung im Vorfeld:

Um den Aufwand für die manuelle Datenbereinigung abzuschätzen, wurde die folgende Rechnung erstellt.
Bei einem Paper werden die Kopfdaten und die Referenzen bearbeitet.
Als Schätzung wurden 10 Minuten für die Kopfdaten und 20 Minuten für die Referenzen pro Paper angenommen.
Dabei werden 20 Referenzen pro Paper vermutet und jeweils 1 Minute pro Referenz gerechnet.
Bearbeitung gesamt: 30 Min. / Paper

Bei einer maximal geplanten Bearbeitungszeit zur Datenbereinigung von 2-2.5 Monaten steht folgende Zeit zur Verfügung.
Arbeitszeit: 6 Stunden / Tag ; 5 Tage / Woche (Mehr Zeit kann hier für diese Aufgabe nicht eingesetzt werden, da die Konzentration nachlässt und Fehler entstehen.)
12 Paper / Tag
60 Paper / Woche
in 10 Wochen sind somit 600 Paper bearbeitbar

Vorgehen:
Aufteilen der Korrekturen in 2 Phasen / Durchläufe.
Phase 1: Kopfdaten bereinigen
Phase 2: Referenzen bereinigen

Nachteil: Jedes Paper wird doppelt bearbeitet.
Vorteil: Man erhält schneller einen Überblick über alle Paper, da die kürzere Aufgabe zunächst für alle Paper durchgeführt wird.
Als Folge können mögliche Probleme eher erkannt werden und der weitere Aufwand kann besser abgeschätzt werden.

 

  • PHASE 1: Kopfdaten bereinigen umfasst: Titel, Name Autor(en), Arbeitsstelle Autor(en), Ort der Arbeitsstelle, Schlüsselwörter, Jahr der Konferenz.

Die Arbeit mit 2 Bildschirmen (Editiermaske, Paper als PDF) ist sinnvoll.
Die Paper sollten der Reihenfolge nach bearbeitet werden.
Die Sortierung nach Jahr und eine alphabetische Sortierung innerhalb eines Jahres hat sich als sinnvoll erwiesen.
Man sollte hierbei mit den früheren Jahren beginnen, da man bei Papern aus späteren Jahren auf bereits korrigierte Paper aus früheren Jahren zurückgreifen kann.
Die bearbeiteten Paper sollte man sich merken/notieren.

Bei den Kopfdaten soll der Ort der Arbeitsstelle für jeden Autor erfasst werden.
Die Ortsangaben werden für Kartenansichten benötigt, die die Herkunft der Autoren darstellen.
Als Genauigkeitsmaßstab werden im Allgemeinen die Stadt und das Land angegeben.
In einigen Papern ist die Stadt jedoch nicht angegeben.
Hier ist eine zusätzliche Recherche erforderlich (mit Autor und Firma).
Die Angaben zu Abkürzungen von Kategorien werden als Schlüsselwörter mit aufgenommen.

Die Korrektureingabemaske ermöglicht die Speicherung erst dann, wenn alle Pflichtfelder gefüllt sind.
Durch fehlerhafte Erkennung in der automatischen Vorverarbeitung der Paper ist es möglich, dass die Referenzen nicht in einem „korrekten“ Zustand sind.
Daher werden die vorhandenen, erkannten Referenzen soweit korrigiert, dass diese Änderungen gespeichert werden können.

 

 

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: