Feedextrator für meinen River of News - Updated 01.10.2012 17:38

Ich hatte ja neulich schon mal erwähnt, dass Feedburner demnächst die Pforten dicht macht und Feed43 ja auch eine zentrale Lösung ist, von der ich abhängig bin.

Das habe ich nun geändert mit Feedextrator. Dabei handelt es sich um ein - bis jetzt noch - recht einfaches Perlscript, dass Webseiten abholt und anhand von konfigurierbaren Regeln Teile davon extrahiert und einen Feed daraus erzeugt. Das Funktionsprinzip habe ich Feed43.com abgekupfert. Ich brauche das in folgenden Fällen:

  • wenn ein Feed kein pubDate liefert (ich sortiere im River ja zeitlich), wie zum Beispiel Fefe.
  • wenn ein Feed nur kurze Überschriften oder Snippets und keinen Volltextfeed liefert, wie zum Beispiel Nils Bloghaus.
  • wenn eine Seite gar keinen Feed anbietet, wie zum Beispiel Al Daily.
  • oder wenn eine Seite einen Feed ausliefert, der von Feedburner generiert wird.

Mit dem Script habe ich diese ganzen Fälle jetzt erschlagen. Das Script ist noch nicht paketiert usw, ist aber OpenSource (Perl Lizenz, wie üblich bei mir) und kann hier schon mal runtergeladen/angeschaut werden:

Auf der River-About Seite sind ja alle Feeds aufgelistet. Die RSS Links unter dem Icon links zeigen jeweils entweder auf den original Feed oder auf den von meinem Script generierten. Hier mal als Beispiel der Feed von Al Daily/river/feed/rss/50/.


Update 01.10.2012 17:38:

Ich habe den Feedextrator nochmal erweitert, man kann da jetzt in der Config auch den Cookieheader angeben. Ganz konkret benutze ich das, um mir den Feed von Aquaristik SH abzuholen. Im Falle dieses Forums ist der Feed zwar öffentlich sichtbar, aber es handelt sich um ein Burningboard. Da gibts auch mal Threads die man nur als angemeldeter User sehen kann, was für den Feed natürlich auch gilt. Da das Python Feedparser Modul aber eine solche Anmeldung nicht kann, mach ich es so. Ganz konkret habe ich einfach beim Login ins Forum mit dem Addon Liveheaders zugeguckt und mir dort den Cookieheaderwert rausgeholt. Ab in die Config und schwupp hab ich den kompletten Thread hier im River.

Mächtig gewaltig, wie Benny von der Olsenbande immer zu sagen pflegte...


29.09.2012 13:01 CC0 river rss web20 River

Ähnliche Beiträge:

Null Kommentar zu Feedextrator für meinen River of News - Updated 01.10.2012 17:38



Kommentieren:
Persoenliche Angaben

Bitte geben Sie einige Angaben ueber sich ein.

Sind Sie ein Mensch?

Bitte beantworten Sie die dargestellte Frage (nur Zahlen als Antwort erlaubt).

Kommentar

Geben Sie hier Ihren Kommentar ein. HTML ist nicht erlaubt.

Aus welchem Land kommen Sie?
Land*:
Ihr Kommentar erscheint erst, wenn wir ihn freigegeben haben!
Mit * markierte Felder sind Pflichtfelder.
Sofern Sie eine Emailadresse eingeben, wird diese automatisch nach einem Monat gelöscht.
Weitere Daten werden nicht aufgezeichnet.