Was der deutsche Michel von Google News wissen will - Updated 21.03.2013 20:40

Ja, die Überschrift ist etwas gemein formuliert. Aber. Bei Google News wird links unter Schlagzeilen immer angezeigt, was gerade "beliebt" ist, wenn ich das richtig verstehe. Also am meisten geklickt oder danach gesucht wurde.

Aktuell ist das:

  • Schwiegertochter gesucht
  • iPhone 5
  • Jauch
  • Douglas
  • Windows Phone
  • PlayBook
  • St. Pauli
  • Olympiakos Piräus
  • IAEA
  • Champions League

Bis auf IAEA lauter Mist. Brennende Botschaften? Euro? US-Wahlen? Interessiert keinen.

Und da regt sich unsereins über die BLÖD-Zeitung auf.

Bild: Screenshot Google News
Screenshot Google News (Sept. 17, 2012, 7:37 p.m.)
[Tags: google idioten ] [Album: Screencaps ]


Update 19.09.2012 20:08:

Ich habe jetzt ein Tool entwickelt, mit dem ich diese Top10 Suchbegriffe systematisch auswerte. Ein Cronjob holt sich einmal pro Stunde diese von Google News vorgeschlagenen beliebtesten News-Suchen und speichert sie hier im Django ab. Sofern vorhanden, wird ein Counter inkrementiert. Das ganze wird dann als Tagcloud visualisiert, so dass man sehen kann, wonach die Leute bei Google News am meisten suchen. Die Tagcloud gibt es monatlich und jährlich.

Ich muss dann mal schauen, ob und wie ich das noch weiter auswerten kann, wo ich die Daten schon mal hab. Anbieten würde sich eine Trendanzeige, so dass man sieht, wann bestimmte Begriffe gehäuft auftreten usw. Dann könnte man nämlich genau sagen: "Das Thema X hat die Deutschen von XX.XX bis XX.XX interessiert" - oder sowas.

Hier geht es zur Google News Tagcloud

Für den, der die Daten selber weiterverarbeiten möchte: Hier kann man sich die Rohdaten als CSV herunterladen.


Update 20.09.2012 21:33:

So, ich habe aus den Daten nun ein Tortendiagramm mit Hilfe von Google Charts hinzugefügt. Das sieht richtig gut aus:


Update 20.09.2012 22:23:

Auf der Google News Seite werden rechts unten auch die "Meistgeklickten Seiten" aufgelistet. Die sammle ich jetzt auch mit ein. Einen Counter hab ich denen nicht gegeben, könnte man aber noch machen, wenn man wollte. Derweil liste ich einfach unter dem Chart die Seiten auf, entweder alle oder die für den angegebenen Zeitraum. Die URLs gibts natürlich auch als Rohdaten.

Und selbstverständlich sind die URLs nicht verlinkt. Soweit kommts noch. Ach ja, und für die Domains gibts natürlich auch einen Graphen. Damit man sieht, welcher Verlag der grösste Dummschwätzer ist und so und auch...


Update 20.09.2012 23:14:

Oh, ich bin nicht der einzige, der sowas betreibt. Fernando Serboncini ebenfalls (für US und BR).


Update 22.09.2012 17:35:

Nachdem ich die Meistgeklickten Seiten jetzt eine Weile beobachtet habe, stellte sich heraus, dass sich die Themen dort signifikant von denen der häufigsten Suchbegriffe unterscheiden. Man muss daher davon ausgehen, dass es zwei grundsätzlich unterschiedliche Arten von Benutzern bei Google News gibt. Die einen rufen einfach die Seite auf, scrollen da rum und klicken auf die vorgeschlagenen Nachrichtenseiten. Daher kommen die "Meistgeklickten Seiten". Und es gibt die anderen, die explizit nach Themen suchen, das sind die Top Suchbegriffe, die oben links angezeigt werden.

Daher habe ich jetzt aus den Überschriften der Meistgeklickten Seiten auch eine Tagcloud nebst Graphen gemacht. Ich verwende dort nur Wörter, die >= 5 Buchstaben lang sind und mit einem Großbuchstaben beginnen.

Zur besseren Übersichtlichkeit habe ich die einzelnen Elemente rechts nochmal in einem Menü verlinkt.

Die URLs in der Liste der Meistgeklickten URLs sind jetzt doch erreichbar, allerdings nicht per HTML "a href" Link, sondern per Javascript (onClick() Event). Funktioniert für den Anwender, wird aber von Google ignoriert, was die Idee dahinter ist.


Update 02.10.2012 12:59:

Nun läuft das Teil ja schon eine Weile und es werden langsam aber sicher immer mehr Daten (wie zu erwarten gewesen ist). Ich hab daher jetzt in der Anzeige die Listen begrenzt, damit das nicht zu viel wird. Der Browser ist sonst ganz schön am rödeln. Wenn man vollständige Daten braucht, die Rohdaten sind ja immer noch da. Nebenbei hab ich wieder was über Python und Django gelernt, insbesondere die Python Funktion sorted() hat es mir angetan. Sehr nett.

So hatte ich bleistiftsweise das Problem, dass ich die Datensätze zweimal sortieren und begrenzen musste. Ich hab zunächst ewig mit Django herumgefummelt, um das irgendwie hinzukriegen. Ging aber nicht. Meine Lösung sieht nun so aus:

# Queryset der Tagobjekte holen, rückwärts sortiert nach 'count'
# und begrenzt auf 150 Stück das beinhaltet also die 150 am
# häufigsten vorkommenden Tags
tags = Tagtype.objects.order_by("-count")[:150]

# Und hier sortieren wir die Tags wieder alphabetisch.
# Das lambda() ist erforderlich, weil es ja ein Queryset
# ist und 'name' ein Attribut und kein Dictionary-Key ist,
# sonst hätte man itemgetter() verwenden können.
# Und das name-Attribut wird vor dem Sortieren noch
# in Kleinbuchstaben umgewandelt, damit Tags, die mit
# Kleinbuchstaben beginnen, nicht nach Z auftauchen.
# Somit erscheint "Apple" und "apple" direkt hintereinander
tags = sorted(tags, key=lambda x: x.name.lower())


Update 21.03.2013 20:40:

Nachdem ich langsam wirklich RICHTIG viele Daten habe, wächst mein kleines Projekt hier zu einem regelrechten Datamining-Projekt an. Je mehr Daten ich habe, um so mehr Dinge kann ich herausfinden.

Die neueste Entwicklung: man kann jetzt nach einzelnen Begriffen suchen und es erscheint eine Grafik (ein Graph), der die Häufigkeit des Begriffs (das heisst die Beliebtheit!) visualisiert.

Eins steht jedenfalls fest: der Grossteil der Menschen in diesem Land hat mit den Themen, mit denen sich die "digital natives" beschäftigen, nichts am Hut! Leistungsschutzrecht? Interessiert keine Sau. Überwachung? Was fürn Ding? Youtube vs. Gema? Sprich Deutsch, Alter! Man erkennt recht deutlich (und zwar schmerzhaft deutlich), wie dieses Land tickt. Wie sinnlos im Grunde unser aller Gezeter hier im Netz ist. Und wie drastisch eingeengt unsere Sicht auf die Welt ist, auch bekannt unter der Bezeichnung "Filter Bubble".

Bild:
(March 21, 2013, 8:43 p.m.)
[Tags: google ] [Album: Screencaps ]

17.09.2012 19:34 CC0 google idioten Geschwätz

Ähnliche Beiträge:

Null Kommentar zu Was der deutsche Michel von Google News wissen will - Updated 21.03.2013 20:40



Kommentieren:
Persoenliche Angaben

Bitte geben Sie einige Angaben ueber sich ein.

Sind Sie ein Mensch?

Bitte beantworten Sie die dargestellte Frage (nur Zahlen als Antwort erlaubt).

Kommentar

Geben Sie hier Ihren Kommentar ein. HTML ist nicht erlaubt.

Aus welchem Land kommen Sie?
Land*:
Ihr Kommentar erscheint erst, wenn wir ihn freigegeben haben!
Mit * markierte Felder sind Pflichtfelder.
Sofern Sie eine Emailadresse eingeben, wird diese automatisch nach einem Monat gelöscht.
Weitere Daten werden nicht aufgezeichnet.