Eigentlich ist es kein richtiges Thema für die Softwareentwicklung, aber es betrifft uns irgendwie schon: Wie schaffen wir einen Austausch zu Bots und Crawlern, die unsere Dienste belästigen.
Da wäre zum einen die robots.txt
, mit der man zumindest die gutartigen Bots beeinflussen kann. Da die von der Anwendung ausgeliefert wird, hat da jeder von uns Einfluss drauf. Es wäre gut, wenn wir bei CompGen eine gemeinsame Liste der Bots hätten, die wir abweisen wollen. Im Idealfall würde die zentrale gepflegt und automatisch in die einzelnen Anwendungen übernommen.
Zum anderen müssen wir uns gegen die bösartigen Bots und Crawler (meiner Beobachtung nach vor allem aus dem KI-Bereich) wehren. Das wird zum Teil wie ein denial of service Angriff. Denen begegnet man entweder mit einem eng bemessenen rate limit im Webserver oder gleich mit einer Firewall-Regel. Auch da wäre es sinnvoll, wenn wir uns über IP-Adress-Bereiche austauschen, aus denen solche Anfragen kommen. Bytedance ist z.B. berühmt-berüchtigt dafür, tausende unterschiedliche IP-Adressen zu verwenden, um rate limits zu umgehen.