Über ein Blogpost von Bruce Schneier bin ich heute auf diese Seite geraten, die sich intensiv mit dem Knacken von Captchas beschäftigen.

Unter anderem zeigen sie eine Liste von Captchatypen, die knackbar sind. Mir ist beim Betrachten aufgefallen, dass alle Captchas eine bemerkenswerte Gemeinsamkeit haben: letztlich sind in den Bildern einzelne Buchstaben auszumachen, die irgendwie verzerrt sind, mit "Hintergrundgeräuschen", verschiedenen Farben, etc. All dies dient dem Zweck, Automaten das Auslesen des Captchas zu erschweren.

Meine Idee, die mir nun dabei gekommen ist, warum macht man nicht ein Captcha, in dem der zu lesende Text aus Buchstaben besteht. Ein Automat kann von mir aus gerne die Buchstaben erkennen. Aber ob es möglich ist, anhand der Anordnung der einzelnen Buchstaben daraus zu schliessen, dass diese ein Wort bilden, stelle ich mir zumindest schwierig vor.

Hier mal ein Beispiel so eines Captchas (mit Gimp hergestellt, vereinfacht):

/images/word-of-text-captcha.jpg

Ausserdem könnte man die Buchstaben mit weiteren Buchstaben umgeben, die sich in irgendeiner Weise geringfügig unterscheiden, wodurch ein Automat nur einen Haufen Buchstaben ausspucken würde, ein menschlicher Betrachter aber, von einer gewissen Entfernung aus, einen Text erkennen kann.

Dacht ich mir jedenfalls mal so. Kann natürlich sein, dass ich auf dem Holzweg bin, daher hab ich die erwähnten OCR Spezialisten mal angemailt und um Rat gefragt, was sie von der Idee halten (zumal es auch seinkann, dass ich eventuell gar nicht der erste mit dieser Idee bin).

Sobald ich eine Antwort erhalten habe, werde ich das hier denn mal kundtun.