Tag Archives: hadoop

Fehlersuche in Hadoop

7 Jul

Manchmal gibt es leider auch in Clustern einige seltsame Fehler:

org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not 
find any valid local directory for taskTracker/…

Der Fehler sagt eigentlich nur aus, dass der Node nicht mehr genug Speicherplatz frei hat. Lösung hierfür wäre die Vergrößerung der Festplatte, aktuell 150 GB.

Der nächste Fehler hat eine andere Ursache:

Task attempt_1 failed to report status for 600 seconds. Killing!

Die Lösung dafür ist die Erhöhung des Timeouts, indem auf allen Nodes mapred.task.timeout erhöht wird (in /conf/mapred-site.xml). Mal sehen, ob dies die Erlösung bringt…

Werbeanzeigen

Mein eigenes privates Cluster

20 Mai

Zugegeben, gegen das Facebook Cluster ist meins winzig, aber dafür habe ich volle Verfügungsgewalt darüber und es werden auch keine Daten zu Werbezwecken weitergegeben.

Und was mache ich damit? Nun zum einen dient es zum verteilten Berechnen von Ähnlichkeiten zwischen Dokumenten (bzw. Artefakten), zum Anderen wird es die Ähnlichkeitswerte zwischen allen Artefakten in einer Datenbank (Hive), die auf dem Cluster läuft, speichern.

Für die Wikipedia (en) benötigt man beispielsweise bei 4 Bit pro Ähnlichkeitswert einige TeraBytes an Speicherplatz. Was liegt also näher das gleiche System einzusetzen, mit dem Facebook 21 PetaByte an Daten verwaltet?

Mit den gespeicherten Ähnlichkeitswerten zwischen Artefakten wird nachfolgend in der Hadoop/Hive-Datenbank dann die Ähnlichkeit der zugehörigen Akteure berechnet. Unter Akteuren versteht man die „Besitzer“ der Dokumente (Artefakte), also beispielweise Personen, die ein Paper verfasst oder einen Tweet geschrieben haben.

Die Formel sieht kompliziert aus, ist sie aber nicht. Trotzdem versuche ich mal, mit einem nicht weiter erklärten Screenshot zu beeindrucken.

Nun gut, dass erst mal zu meiner Masterarbeit, Thema: „Ähnlichkeitsfindung in Artefakt-Actor-Networks“.