Discussion:
Chrome ruft nicht existierende /cache/-URLs ab
(zu alt für eine Antwort)
Gustaf Mossakowski
2012-05-30 19:41:25 UTC
Permalink
Hallo,

bei mir mehren sich 404-Fehler, die vermutlich von Nutzern von Google
Chrome verursacht werden:

Von

http://www.example.org/some/path/to.html

wird dann eine URL unter

http://www.example.org/some/path/cache/9cfd009e43704006e16e06f004decbd5

abgerufen. 9cfd009e43704006e16e06f004decbd5 ist manchmal genau das, kann
aber auch irgendein anderer Hash (?) sein.

Wo finde ich dazu etwas, wie ich das ausstellen kann bzw. warum der
Browser das überhaupt macht?

Viele Grüße
Gustaf
Markus Grob
2012-05-30 21:43:46 UTC
Permalink
Post by Gustaf Mossakowski
abgerufen. 9cfd009e43704006e16e06f004decbd5 ist manchmal genau das, kann
aber auch irgendein anderer Hash (?) sein.
Wo finde ich dazu etwas, wie ich das ausstellen kann bzw. warum der
Browser das überhaupt macht?
Es gibt mehrere referrer in dieser Hinsicht, welche den Browser dazu
animieren, die Seite komplett neu zu laden. Ich könnte mir vorstellen,
dass Google die Seite so gespeichert hat und mit der Googlesuche kommen
die Leute dann halt auf die gespeicherte Seite, welche der Googlebot
gespeichert hat.

Gruss, Markus
Gustaf Mossakowski
2012-05-31 15:10:46 UTC
Permalink
Post by Markus Grob
Post by Gustaf Mossakowski
abgerufen. 9cfd009e43704006e16e06f004decbd5 ist manchmal genau das,
kann aber auch irgendein anderer Hash (?) sein.
Wo finde ich dazu etwas, wie ich das ausstellen kann bzw. warum der
Browser das überhaupt macht?
Es gibt mehrere referrer in dieser Hinsicht, welche den Browser dazu
animieren, die Seite komplett neu zu laden. Ich könnte mir vorstellen,
dass Google die Seite so gespeichert hat und mit der Googlesuche kommen
die Leute dann halt auf die gespeicherte Seite, welche der Googlebot
gespeichert hat.
Das verstehe ich nicht. Was für Referrer? Die Referrer sind hier ganz
normale, gültige URLs, abgerufen werden URLs, die auf ein
Verzeichnis(-bestandteil) cache/ im aktuellen Verzeichnis verweisen und
dort dann auf eine Ressource mit dem Namen
9cfd009e43704006e16e06f004decbd5 oder so ähnlich. Es gab definitiv nie
Inhalte unter dieser URL, das Phänomen trat auch auf anderen Websites
auf, die thematisch komplett andere Bereiche abdeckten.

Ich hab mal gerade bei den Google Webmaster Tools gesucht, konnte dazu
bei den betroffenen Sites aber auch nichts finden.

Viele Grüße
Gustaf
Markus Grob
2012-06-04 10:24:09 UTC
Permalink
Post by Gustaf Mossakowski
Post by Markus Grob
Es gibt mehrere referrer in dieser Hinsicht, welche den Browser dazu
animieren, die Seite komplett neu zu laden.
Das verstehe ich nicht. Was für Referrer? Die Referrer sind hier ganz
normale, gültige URLs,
Du kannst angeben, dass die Seiten bei jedem Besuch neu geladen werden
sollen und nicht aus dem Cache kommen dürfen.
Allerdings kann es sein, dass ein Googlebot (oder sonstwer) die Seiten
direkt abruft und dann so für die Googlesuche abspeichert. Kommt dann
ein Besucher über die Googlesuche, dann ruft er die Seiten direkt ab.

Keine Ahnung, warum er dann nichtexistierende Seiten abruft, doch es war
auch nur eine Vermutung.

Gruss, Markus

Christoph Schneegans
2012-05-31 18:42:31 UTC
Permalink
Post by Gustaf Mossakowski
bei mir mehren sich 404-Fehler, die vermutlich von Nutzern von Google
Von
http://www.example.org/some/path/to.html
wird dann eine URL unter
http://www.example.org/some/path/cache/9cfd009e43704006e16e06f004decbd5
abgerufen.
Ich habe mal spaßeshalber in PowerShell per

dir *.log | gc | where { $_ -match '/cache/[a-f0-9]{32}\s' }

meine Logfiles der letzten zehn Jahre durchsucht – es gab genau einen
Treffer, der dann aber exakt auf deine Beschreibung paßt, und zwar
gerade vor zwei Wochen. Keine Ahnung, was Chrome sich davon
verspricht.
--
<http://schneegans.de/computer/safer/> · SAFER mit Windows
Bjoern Hoehrmann
2012-05-31 20:24:29 UTC
Permalink
Post by Christoph Schneegans
Ich habe mal spaßeshalber in PowerShell per
dir *.log | gc | where { $_ -match '/cache/[a-f0-9]{32}\s' }
meine Logfiles der letzten zehn Jahre durchsucht – es gab genau einen
Treffer, der dann aber exakt auf deine Beschreibung paßt, und zwar
gerade vor zwei Wochen. Keine Ahnung, was Chrome sich davon
verspricht.
Die Problembeschreibung bisher ist arg unzureichend, aber meine Glas-
kugel schlägt vor, das könnte mit der "prefetch"-Funktion in Google
Chrome zusammenhängen. Am Rande sei bemerkt, dass Google diverse Dinge
zu '9cfd009e43704006e16e06f004decbd5' findet.
--
Björn Höhrmann · mailto:***@hoehrmann.de · http://bjoern.hoehrmann.de
Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de
25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/
Christoph Schneegans
2012-05-31 21:22:00 UTC
Permalink
Die Problembeschreibung bisher ist arg unzureichend, (...)
Ich fand Gustafs Beschreibung durchaus nachvollziehbar.
<http://schneegans.de/temp/chrome-cache-log.html> zeigt einen
Auszug aus meinem Webserver-Logfile, zwecks besserer Lesbarkeit
etwas umgestaltet.
--
<http://schneegans.de/web/kanonische-adressen/> · Gute URLs
Gustaf Mossakowski
2012-05-31 22:15:43 UTC
Permalink
Post by Bjoern Hoehrmann
Die Problembeschreibung bisher ist arg unzureichend, aber meine Glas-
kugel schlägt vor, das könnte mit der "prefetch"-Funktion in Google
Chrome zusammenhängen.
Hmm. Prefetch ruft im Voraus bestehende URLs ab. Hier werden aber nicht
existierende URLs abgerufen.

Eine etwas genauere Beschreibung des Problems kann ich geben, zusammen
mit Logfileauszügen unter <http://www.koenige.org/temp/logs.txt> (das
sind nur Auszüge, es sind heute deutlich mehr Zugriffe auf die
betreffende Site gekommen.

- Die Zugriffe kommen von »Mozilla/5.0 (Windows NT 5.1)
AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.52 Safari/536.5«,
aber auch von mindestens einer älteren Version
- Nach dem ersten Abruf wird immer nur die erste der drei CSS-Dateien
abgerufen, Layout-Bilder (Logo, favicon) werden nicht abgerufen. Das ist
etwas unorthodox, aber vermutlich handelt es sich um einen wiederholten
Zugriff auf die Website.
- Jedem Aufruf folgt 2 sec später ein Abruf mit einer cache-URL. Bspw.
GET /turnier/u10/tabelle/ HTTP/1.1
GET /turnier/u10/tabelle/cache/9cfd009e43704006e16e06f004decbd5 HTTP/1.1
oder
GET /turnier/u25b/liverunde7.html
GET /turnier/u25b/cache/9cfd009e43704006e16e06f004decbd5 HTTP/1.1
- Mit den Seiten werden keine vernünftigen Cache-Header mitgeschickt wie
ETag oder Last-Modified. Das war auch bei der anderen Site so, die
betroffen war.
- die Abrufe erfolgen von HanseNet und Kabel Deutschland, scheinen ganz
normale IPs zu sein
Post by Bjoern Hoehrmann
Am Rande sei bemerkt, dass Google diverse Dinge
zu '9cfd009e43704006e16e06f004decbd5' findet.
Das sind aber alles nur Zugriffsstatistiken oder Sites, die unter jeder
ihnen dargebotenenen URL etwas zurückliefern. Genauso verhält es sich
mit anderen Hashes. Dass die Hashes auch bei anderen Sites vorkommen,
könnte bedeuten, dass es nur einen begrenzten Umfang an verschiedenen
Hashes gibt.

Viele Grüße
Gustaf
Ulf K.adner
2012-06-01 11:21:16 UTC
Permalink
Post by Gustaf Mossakowski
bei mir mehren sich 404-Fehler, die vermutlich von Nutzern von Google
Von
http://www.example.org/some/path/to.html
wird dann eine URL unter
http://www.example.org/some/path/cache/9cfd009e43704006e16e06f004decbd5
abgerufen. 9cfd009e43704006e16e06f004decbd5 ist manchmal genau das, kann
aber auch irgendein anderer Hash (?) sein.
Warum so strikt? Das da Chrome als UA steht ist ja nicht ein Indikator
dafür das Chrome auch genutzt wurde.

Gerade bei seltsam anmutenden Urls gehe ich eher davon aus das hier
irgendein Scanner oder sonstiges Tool aus dieser Softwarekategorie
genutzt wird.
Post by Gustaf Mossakowski
Wo finde ich dazu etwas, wie ich das ausstellen kann bzw. warum der
Browser das überhaupt macht?
Ist halt die Frage ob das überhaupt etwas mit dem o.G. Browser zu tun hat.

MfG, Ulf
Loading...