Author disambiguation

9 Jul

Nachdem ich mich lange mit dem Thema sehr schwer getan habe, kann ich nun endlich einen Zwischenstandsbericht abgeben.

Ich schreibe eine Abschlussarbeit zum Thema „Author disambiguation“. In dieser Arbeit geht es darum, aus einer anhand von Metainformationen (in meinem konkreten Fall BibTeX) gegebenen Menge von Dokumenten mit Autorenangaben herauszufiltern, welche genannten Autoren identische bzw. verschiedene Personen sind.

Nachdem ich anfangs eine Menge einschlägiger Artikel gelesen habe, bei denen fast überall externe Referenzdatenbanken (CiteSeer, Google, etc.) zur Entscheidungsfindung eingesetzt wurden – dies bei meiner Arbeit aber von vornherein ausdrücklich ausgeschlossen war – habe ich mich an ein paar – zugegebenermaßen recht naiven – eigenen Ansätzen versucht, die leider schon zu Beginn der Konzeptionsphase scheiterten.

Das in [1] beschriebene Framework motivierte mich dann jedoch neu, so dass ich mich daran machte, eine derartige Implementierung im Rahmen von Hadoop und HBase vorzunehmen und nun erste Ergebnisse präsentieren kann.

Meine derzeitige Testmenge umfasst knapp 25.000 Dokumente mit rund 80.000 Autorennamen. Diese partitioniere ich gemäß Framework in Cluster von Autoren mit (nach der Normalisierung) gleichen Nachnamen und erhalte so rund 23.000 Cluster verschiedenster Größe.  Auf jedem dieser Cluster kann man nun ein Klassifizierungsverfahren einsetzen, das die enthaltenen Autoren nach einem definieriten Ähnlichkeitsmodell gruppiert und so ein plausibles Ergebnis liefert.

Aufgrund der Datenmenge ist eine manuelle Überprüfung des Ergebnisses offensichtlich nicht möglich. Leider fehlt mir auch noch eine Referenzdatenmenge, mit der ich die Korrektheit des Algorithmus überprüfen kann, weshalb ich derzeit die Struktur des Codes etwas verbessere, Laufzeiten optimiere und ein Beurteilungsschema für die Qualität der Berechnung erarbeite.

Das Laufzeitverhalten ist trotz fehlender Optimierung recht beeindruckend für die ungeheure Datenmenge: Mein lokaler Rechner (Dual-Core, 1,8 GHz) benötigt rund 5 Minuten, um die 80.000 Autorennamen zu disambiguieren.

[1] L. Bolikowski, P. J. Dendek. „Towards a flexible author name disambiguation framework“, 2011.

Eine Antwort to “Author disambiguation”

  1. wollepb 10. Juli 2012 um 06:34 #

    Ich weiß ehrlich gesagt nicht, wo wir ein Testdatenset mit korrekt disambiguierten Autorennamen herbekommen sollen…

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: