Ich hatte eigentlich gehofft, dass mehr aus diesem Artikel wird. Aber man soll ja auch fehlgeschlagene Experimente veröffentlichen, also kommt das jetzt.
Die Idee war ja eigentlich schön: Ich habe ja die meisten meiner Beiträge mit einem oder mehreren Tags versehen. Die Tagseite listet alle Tags auf, und ihre absolute Häufigkeit im Blog. Momentan ist „rant“ mit Abstand das häufigste Tag, zum Beispiel.
Aber es wäre doch cool, auch zu wissen welche Tag-Kombinationen häufig vorkommen, oder?. Also habe ich ein kleines Programm geschrieben und in einem Repo veröffentlicht. Ich habe Tag-Paare und Tag-Tripel gezählt. Ein N-Tupel sind hier N unterschiedliche Tags, die zum selben Artikel gehören (Bei Paaren ist N = 2, bei Tripeln ist N = 3).
Die Ergebnisse sind, wie schon gesagt, eher langweilig. Hier erst einmal die 20 häufigsten Tag-Paare (von insgesamt 7385 Paaren):
- {rollenspiel, rollenspielszenen}: 22
- {gentoo, linux}: 18
- {39c3, chaos communication congress}: 15
- {das labor, labor}: 15
- {advent of code, adventskalender}: 14
- {bahn, deutsche bahn}: 13
- {deutsche bahn, rant}: 13
- {advent of code, programmieren}: 12
- {hackerspace, labor}: 12
- {das labor, hackerspace}: 12
- {adventskalender, programmieren}: 11
- {rant, öpnv}: 11
- {politik, rant}: 10
- {programmieren, rust}: 10
- {bahn, rant}: 10
- {per anhalter durch die galaxis, thhgttg}: 10
- {deutsche bahn, öpnv}: 10
- {rant, webdesign}: 10
- {uni, zitate}: 10
- {advent of code, puzzle}: 9
Am häufigsten zusammen sind tatsächlich eng verwandte Begriffe oder Synonyme. „bahn“ und „deutsche bahn“ zum Beispiel. Erst auf Platz 12 finden wir die Kombination, die ich viel weiter oben erwartet hätte, nämlich {rant, öpnv}, {bahn, rant} und {politik, rant}. Die Rollenspielszenen haben es in nur einem guten halben Jahr auf Platz 1 geschafft. Der 39C3 nach zwei Wochen Blogmanie auf Platz 3.
Die Tripel sind auch nicht viel interessanter. Insgesamt gab es 22527 Tripel, die zehn häufigsten sind:
- {das labor, hackerspace, labor}: 12
- {advent of code, adventskalender, programmieren}: 11
- {advent of code, adventskalender, puzzle}: 9
- {advent of code, adventskalender, rust}: 7
- {advent of code, programmieren, puzzle}: 6
- {adventskalender, programmieren, puzzle}: 6
- {adventskalender, programmieren, rust}: 6
- {advent of code, programmieren, rust}: 6
- {digitale kunst, fordite, kunst}: 5
- {39c3, chaos communication congress, humor}: 5
Dasselbe Muster. Naja, es war einen Versuch wert. Vielleicht kriege ich ja noch interessante Statistiken, wenn ich die Häufigkeit der Kombination irgendwie gegen die Häufigkeit der einzelnen Bestandteile gegenrechne oder so. Aber erst einmal belasse ich es dabei.