Was der deutsche Michel von Google News wissen will

17 Sep, 2012

Und hier sortieren wir die Tags wieder alphabetisch.

Das lambda() ist erforderlich, weil es ja ein Queryset

ist und ’name’ ein Attribut und kein Dictionary-Key ist,

sonst hätte man itemgetter() verwenden können.

Und das name-Attribut wird vor dem Sortieren noch

in Kleinbuchstaben umgewandelt, damit Tags, die mit

Kleinbuchstaben beginnen, nicht nach Z auftauchen.

Somit erscheint “Apple” und “apple” direkt hintereinander

tags = sorted(tags, key=lambda x: x.name.lower()) Update 2012-09-22:Nachdem ich die Meistgeklickten Seiten jetzt eine Weile beobachtet habe, stellte sich heraus, dass sich die Themen dort signifikant von denen der häufigsten Suchbegriffe unterscheiden. Man muss daher davon ausgehen, dass es zwei grundsätzlich unterschiedliche Arten von Benutzern bei Google News gibt. Die einen rufen einfach die Seite auf, scrollen da rum und klicken auf die vorgeschlagenen Nachrichtenseiten. Daher kommen die “Meistgeklickten Seiten”. Und es gibt die anderen, die explizit nach Themen suchen, das sind die Top Suchbegriffe, die oben links angezeigt werden. Daher habe ich jetzt aus den Überschriften der Meistgeklickten Seiten auch eine Tagcloud nebst Graphen gemacht. Ich verwende dort nur Wörter, die >= 5 Buchstaben lang sind und mit einem Großbuchstaben beginnen. Zur besseren Übersichtlichkeit habe ich die einzelnen Elemente rechts nochmal in einem Menü verlinkt. Die URLs in der Liste der Meistgeklickten URLs sind jetzt doch erreichbar, allerdings nicht per HTML “a href” Link, sondern per Javascript (onClick() Event). Funktioniert für den Anwender, wird aber von Google ignoriert, was die Idee dahinter ist.Update 2012-09-20:Oh, ich bin nicht der einzige, der sowas betreibt. L<Fernando Serboncini ebenfalls|http://fserb.com.br/newscloud/> (für US und BR).Update 2012-09-20:Auf der Google News Seite werden rechts unten auch die “Meistgeklickten Seiten” aufgelistet. Die sammle ich jetzt auch mit ein. Einen Counter hab ich denen nicht gegeben, könnte man aber noch machen, wenn man wollte. Derweil liste ich einfach unter dem Chart die Seiten auf, entweder alle oder die für den angegebenen Zeitraum. Die URLs gibts natürlich auch als Rohdaten.Und selbstverständlich sind die URLs nicht verlinkt. Soweit kommts noch. Ach ja, und für die Domains gibts natürlich auch einen Graphen. Damit man sieht, welcher Verlag der grösste Dummschwätzer ist und so und auch…Update 2012-09-20:So, ich habe aus den Daten nun ein Tortendiagramm mit Hilfe von L<Google Charts|https://developers.google.com/chart/> hinzugefügt. Das sieht richtig gut aus:Update 2012-09-19:Ich habe jetzt ein Tool entwickelt, mit dem ich diese Top10 Suchbegriffe systematisch auswerte. Ein Cronjob holt sich einmal pro Stunde diese von Google News vorgeschlagenen beliebtesten News-Suchen und speichert sie hier im Django ab. Sofern vorhanden, wird ein Counter inkrementiert. Das ganze wird dann als Tagcloud visualisiert, so dass man sehen kann, wonach die Leute bei Google News am meisten suchen. Die Tagcloud gibt es monatlich und jährlich. Ich muss dann mal schauen, ob und wie ich das noch weiter auswerten kann, wo ich die Daten schon mal hab. Anbieten würde sich eine Trendanzeige, so dass man sieht, wann bestimmte Begriffe gehäuft auftreten usw. Dann könnte man nämlich genau sagen: “Das Thema X hat die Deutschen von XX.XX bis XX.XX interessiert” - oder sowas. L<Hier geht es zur Google News Tagcloud|/news/tagcloud/> Für den, der die Daten selber weiterverarbeiten möchte: L<Hier kann man sich die Rohdaten als CSV herunterladen|/news/tagcloud/rawdata/>.

#Geschwätz