Archiv | Cloud Computing RSS feed for this section

E-Learning 2.0 in der Cloud

19 Sep

ELISMA soll eine möglichst universell einsetzbare Applikationsplattform werden. In einem ersten Schritt untersuche ich mit E-Learning nur eine Gruppe von Applikationen, die hiermit umgesetzt werden können. Zur weiteren Eingrenzung beziehe ich mich in meiner Arbeit auf Lehr- und Lernmanagementsysteme.

Bei der Erarbeitung von Szenarien und einer weiter ausführenden Begründung für die Entwicklung von ELISMA gehe ich auf E-Learning im Bezug auf Cloud Computing ein. Doch die Schwerpunkte sind bei den wissenschaftlichen Beiträgen zu diesem Thema sehr unterschiedlich. Deshalb habe ich hierzu eine Bestandaufnahme vorgenommen, dessen Ergebnis ich hier kurz präsentiere. Weiterlesen

Werbeanzeigen

ELISMA

17 Jul

Hallo,

ich bin Rolf und werde in den nächsten Monaten hier schreiben, womit ich mich bei meiner Abschlussarbeit beschäftige. Meine Masterarbeit trägt den Titel Elastic Information Structuring for Multiple Applications – Design und Entwicklung einer skalierbaren Applikationsplattform durch Bereitstellung einer Datenzugriffsschicht. Das sieht dann folgendermaßen aus. Weiterlesen

Kurzmitteilung

Masterarbeit: Near Copy Detection in large text corpora (ODIN): Benchmark

21 Feb

In diesem Blog wollte ich ein paar Zwischenergebnisse des Hadoop Clusters auflisten. Das Cluster besteht momentan aus 4 Workernodes mit insgesamt 18 Cores (4,4,4,6 / Core2 2,8GHz) die alle ungefähr gleich schnell sind. Die Rechner sind mit insgesamt 7 Platten (3,3,3,1) ausgestattet und haben pro Core 2GB Ram. Der Testdatensatz umfasst ca. 43.000 PDFs mit einer gesamt Größe von ca. 27GB. Die aufgelisteten Werte drücken die Bearbeitungszeit eines Dokuments auf einen Core aus, dahinter die Bearbeitungszeit eines Dokuments auf den gesamten Cluster (geteilt durch die Anzahl der Cores).

PDFToText+Hyphenationremoval+Footer-Headerremoval: 0,074 Sekunden/Core/Dokument | 0,00411 Sekunden/Dokument

Sentence+Tokensplitting+POS: 1,828 Sekunden/Core/Dokument | 0,1015 Sekunden/Dokument

Lemmatizer: 11,554 Sekunden/Core/Dokument | 0,64189 Sekunden/Dokument

Stemmen+Stopword+Numberremoval+Symbolremoval: 0,111 Sekunden/Core/Dokument | 0,00617 Sekunden/Dokument

Daraus ergibt sich eine gesamt Zeit von 0,75367 Sekunden pro Dokument. Diese Zeit wird dominiert durch das Lemmatisieren was API-bedingt ist.