Mein eigenes privates Cluster

20 Mai

Zugegeben, gegen das Facebook Cluster ist meins winzig, aber dafür habe ich volle Verfügungsgewalt darüber und es werden auch keine Daten zu Werbezwecken weitergegeben.

Und was mache ich damit? Nun zum einen dient es zum verteilten Berechnen von Ähnlichkeiten zwischen Dokumenten (bzw. Artefakten), zum Anderen wird es die Ähnlichkeitswerte zwischen allen Artefakten in einer Datenbank (Hive), die auf dem Cluster läuft, speichern.

Für die Wikipedia (en) benötigt man beispielsweise bei 4 Bit pro Ähnlichkeitswert einige TeraBytes an Speicherplatz. Was liegt also näher das gleiche System einzusetzen, mit dem Facebook 21 PetaByte an Daten verwaltet?

Mit den gespeicherten Ähnlichkeitswerten zwischen Artefakten wird nachfolgend in der Hadoop/Hive-Datenbank dann die Ähnlichkeit der zugehörigen Akteure berechnet. Unter Akteuren versteht man die „Besitzer“ der Dokumente (Artefakte), also beispielweise Personen, die ein Paper verfasst oder einen Tweet geschrieben haben.

Die Formel sieht kompliziert aus, ist sie aber nicht. Trotzdem versuche ich mal, mit einem nicht weiter erklärten Screenshot zu beeindrucken.

Nun gut, dass erst mal zu meiner Masterarbeit, Thema: „Ähnlichkeitsfindung in Artefakt-Actor-Networks“.

Eine Antwort to “Mein eigenes privates Cluster”

Trackbacks/Pingbacks

  1. Ein Ergebnis aus der Praxis « Studentenblogs DDI@UPB - 16. Juli 2011

    […] Akteur-Ähnlichkeit wurde aufgrund dieser Daten bestimmt und das Ergebnis ist zufriedenstellend. Die Ähnlichkeit […]

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: