Tag Archives: twapperlyzer

Twapperlyzer Präsentation

9 Jan

Die Präsentation für den Twapperlyzer Vortrag sind jetzt online. Man kann sie hier finden. Es handelt sich dabei um eine HTML 5 Webseite, das Template kommt von html5rocks.com und wurde von mir angepasst. Es gibt auch einige Frameworks um die Templates (z.B. Landslide). Die Funktionen wurden dabei sehr schön ausgebaut, aber sie waren mir letztendlich zu unflexibel.

Social Media Monitoring Seminar 2011

21 Okt

Meine liebste Kollegin Nina Grabowski (früher mal Nina Heinze, mancher erinnert sich vielleicht) macht dieses Semester ein Seminar zum Thema Social Media – Zeitvertreib und Stalking Tool an der Uni Augsburg und hat mich als Unterhalter Berater für ihre Studis eingeladen. Da im Rahmen des Seminars aber vor allem über Social Media Monitoring gesprochen und gearbeitet wird, empfehle ich dringend dem Hashtag #smms11 auf Twitter und Co. zu folgen (die Twapperlyzer-Analyse ist hier) . Ich erwarte mir da sehr hilfreiche und interessante Links und Ergebnisse, die auch für den manch einen hier interessant sein dürften. Nina hat die Folien vom ersten Treffen online gestellt. Schaut mal rein. Cool wäre es, wenn ihr Content, der für die Augsburger Studis relevant sind auch mit #smms11 taggen könntet.

Kurzer Buchtipp: „Introduction to Information Retrieval“

13 Okt

Im Rahmen der Arbeit habe ich mich ein wenig mit dem Buch „Introduction to Information Retrieval“  von Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze beschäftigt. Es liegt als online Ausgabe als PDF vor und ich finde es sehr empfehlenswert.  Es war ursprünglich als Skript für eine Vorlesung gedacht  und ist deshalb genau das richtige für den geneigten Informatik Student.

Introduction to Information Retrieval

Introduction to Information Retrieval

Viele Vornamen

26 Sep

Bei twapperlyzer versuche ich über die Vornamen das Geschlecht zu bestimmen. Bis heute hatte ich dazu ca 11 Tausend Namen aus dieser Datei. Das war mich noch etwas wenig heute habe ich noch etwas recherchiert und habe noch diese Datei mit ca 40 Tausend Namen gefunden. Die beiden Dateien enthalten noch einige Meta-Informationen, wie die Wahrscheinlichkeit das das Geschlecht stimmt oder die Herkunft des Namens. Da ich nur die Namen brauchte habe ich beide vereint und  weiterverarbeitet zu jeweils einer Datei mit 19461 weiblichen Vornamen und einer Datei mit 20784 männlichen Vornamen. Beides sind eigentlich txt Dateien in denen die Namen durch einen Zeilenumbruch getrennt sind.

Sentiment Analysen im Vergleich

7 Sep

Ich hab eben mal zwei Anbieter von Sentiment Analysen verglichen und zwar:

Als Testdaten habe ich das knowaan Archiv benutzt. Die Ergebnisse sind in dieser Datei. Ich musste sie aber umbenennen um sie hoch laden zu können eigentlich ist es eine zip Datei die zwei JSON Dateien enthält. Einmal die Orginal Tweets ohne Retweets und einmal die tweets ohne Hashtags, Mentions und Urls. Das ist die Zusammenfassung:

Original:

  • tweetsentiments
    • positive: 12
    • neutral: 22
    • negative: 2
  • alchemyapi
    • positive: 16
    • neutral: 10
    • negative: 1
    • error: 9

Bereinigt:

  • tweetsentiments
    • positive: 13
    • neutral: 21
    • negative: 2
  • alchemyapi
    • positive: 14
    • neutral: 12
    • negative: 0
    • error: 10

Meine Einschätzung:

  • positive: 17
  • neutral: 16
  • negative: 3

So richtig überzeugen können beide nicht. Tweetsentiments reagiert nicht auf Wörter wie „cool“ oder „interesting“ dafür werden aber alle sprachen unterstützt. Das bedeutet dann aber meist das der Text als neutral eingestuft  wird außer er enthält ein Emoticon.
Manchmal hat Tweetsentiments Probleme mit zu kurzen Texten und wirft einen Fehler. Das lässt sich beheben indem neutrale nicht Stopwörter an den Text hängt. Der riesige Vorteil von Tweetsentiments ist das die  API Aufrufe nicht begrenzt sind.

Alchemyapi brauch eine Anmeldung, ist auf 30k Aufrufe pro Tag beschränkt und kommt nur mit englischen Texten zurecht. Sonst liefert die API aber  recht sinnvolle Resultate, auch wenn die API etwas zu positiven Ergebnissen neigt.