Tag Archives: aan

Präsentation zu “Ähnlichkeitsbestimmung in Artefakt-Akteur-Netzwerken”

27 Aug

Da ich Dienstag meinen Abschlussvortrag gehalten habe, hier nun die Folien der Präsentation. Auf Anfrage kann ich auch die Arbeit zur Verfügung stellen (oder einfach Wolle fragen).

Ein Ergebnis aus der Praxis

16 Jul

Die ersten Ergebnisse der Ähnlichkeitsfindung in Artefakt-Akteur-Netzwerken sind vielversprechen. Das Netzwerk enthält alle Veröffentlichungen im Rahmen der EC-TEL-Konferenz von 2006 bis 2010 (229 Paper). ectel_beispielDie Artefakt-Ähnlichkeit wurde mit Hilfe von zwei verschiedenen TF-IDF-Varianten, einmal mit Dimensionsreduzierung durch LSA und abschließend Cosinus-Ähnlichkeit bestimmt.

Die Akteur-Ähnlichkeit wurde aufgrund dieser Daten bestimmt und das Ergebnis ist zufriedenstellend. Die Ähnlichkeit zwischen Mletzko und Nelker (1) entspricht der Ähnlichkeit der von ihnen verfassten Paper (127 & 81). Die Ähnlichkeit von Nelker zu Reinhardt (2) ist mit 0.66 etwa doppelt so hoch. Dazu wird die Ähnlichkeit aller Paper von Reinhardt zu Nelker aufsummiert:

81 – 127 (0.33) und 81 – 81 (1) = 1.33

Die Summe wird durch die Anzahl der Paper geteilt und so ergibt sich die Ähnlichkeit von 0.66.

Dieser kleine Ausschnitt dient dazu, das Ergebnis der Akteur-Ähnlichkeit auf Plausibilität zu prüfen. Und dies scheint recht erfolgreich zu sein…

Mein eigenes privates Cluster

20 Mai

Zugegeben, gegen das Facebook Cluster ist meins winzig, aber dafür habe ich volle Verfügungsgewalt darüber und es werden auch keine Daten zu Werbezwecken weitergegeben.

Und was mache ich damit? Nun zum einen dient es zum verteilten Berechnen von Ähnlichkeiten zwischen Dokumenten (bzw. Artefakten), zum Anderen wird es die Ähnlichkeitswerte zwischen allen Artefakten in einer Datenbank (Hive), die auf dem Cluster läuft, speichern.

Für die Wikipedia (en) benötigt man beispielsweise bei 4 Bit pro Ähnlichkeitswert einige TeraBytes an Speicherplatz. Was liegt also näher das gleiche System einzusetzen, mit dem Facebook 21 PetaByte an Daten verwaltet?

Mit den gespeicherten Ähnlichkeitswerten zwischen Artefakten wird nachfolgend in der Hadoop/Hive-Datenbank dann die Ähnlichkeit der zugehörigen Akteure berechnet. Unter Akteuren versteht man die „Besitzer“ der Dokumente (Artefakte), also beispielweise Personen, die ein Paper verfasst oder einen Tweet geschrieben haben.

Die Formel sieht kompliziert aus, ist sie aber nicht. Trotzdem versuche ich mal, mit einem nicht weiter erklärten Screenshot zu beeindrucken.

Nun gut, dass erst mal zu meiner Masterarbeit, Thema: „Ähnlichkeitsfindung in Artefakt-Actor-Networks“.