Forum : AllgemeinesTitel : Datentransfer© 2004-2012 www.exv2.de http://www.exv2.de
URL dieser Diskussion
http://www.exv2.de/modules/newbb_plus/viewtopic.php?topic_id=3310&forum=8
|
selbstbau :
| 11.04.2006 08:27 |
Hallo Leute,
habe bei der Hompage http://www.shabv.de einen Datentransfer in 11 Tagen von 10 GB obwohl die Besucherzahl eigentlich nicht so hoch ist. Habt ihr mit dem Modul auch so einen hohen Datentransfer?
Gruß Michael |
|
|
Weiti :
| 11.04.2006 11:24 |
Hallo Michael,
ist dir schon aufgefallen, wieviele Klicks die Fotos in der Galerie haben und im wie oft die Beiträge im Forum (Aktuelle Diskussionen im Forum-Block) gelesen wurden?
Gruss, Weiti |
|
|
selbstbau :
| 11.04.2006 11:35 |
ja natürlich ist mir das schon aufgefallen. Nur stelle ich mir die Frage, ob diese Klicks nicht auch von suchrobots herstammen können. Das ist ja mehr Datentransfer wie auf unserer Firmenhompage mit über 15 000 unterschiedlichen Besuchern im Monat. Deswegen Frage ich einfach mal wie es bei euch ist. Gruß Michael |
|
|
Weiti :
| 11.04.2006 11:48 |
Hast Du Zugriff auf die aktuellen Logfiles vom Webserver? Vielleicht kann man darin etwas erkennen... ein Hackversuch bei 2.0.4 konnte ich darin bei mir nachvollziehen - ist aber schon einige Zeit her...
Gruss, Weiti |
|
|
selbstbau :
| 11.04.2006 11:51 |
ja habe ich. Kann sie auch per websuxes auslesen. Habe sie auch als zip datei. Kenne mich damit aber nicht aus Gruß Michael |
|
|
Weiti :
| 11.04.2006 12:31 |
Kannst sie mir ja mal zuschicken... Hast du auch mal die sqlinject.txt im /cache Ordner nachgesehen?
Gruss, Weiti |
|
|
selbstbau :
| 11.04.2006 14:58 |
Hallo Dirk, danke für deine Hilfe. Habe dir Logdatei per e-mail zugeschickt. Gruß Michael |
|
| |
selbstbau :
| 12.04.2006 11:03 |
Hallo Dirk,
habe alles nochmals überprüft und dabei festgestellt, das die meisten durchsuchungen von einem crawler von datareport sind. Habe sie angeschrieben und tatsächlich prompt antwort bekommen. Vielleicht für viel hier auch interessant. Hier die Antwortmail:
vielen Dank für Ihren Hinweis. Der Eintrag "gsa-crawler" bezeichnet die "Googlebox (GSA)", eine Suchmaschine für schleswig-holsteinische Webseiten, die Dataport für die Landesregierung Schleswig-Holstein betreibt. Wir bedauern sehr, daß der Einsatz der GSA zu einer starken Belastung ihres Servers geführt hat.
Der GSA-Crawler verhält sich normalerweise so, daß er mit jedem Besuch, bei dem er keine geänderten Seiteninhalte vorfindet, den Zeitabstand bis zum nächsten Besuch verlängert, außer, der Seitenbetreiber wünscht explizit, daß die Seite häufiger gecrawlt wird.
Bei Ihnen ist letzteres der Fall, denn in den Headern all ihrer Seiten steht die Zeile <META NAME="REVISIT-AFTER" CONTENT="7 DAYS"> was bedeutet, daß Sie Suchmaschinen ausdrücklich anweisen, nach einer Woche wiederzukommen, um nach geänderten Inhalten zu suchen.
Ein anderer Grund für übermäßig häufiges Crawlen liegt in der GSA selbst: Der Crawler klickt automatisch auf alles, was nach einem Link aussieht. Das kann z.B. bei Kalendern, die einen "nächsten Monat anzeigen" ohne zu prüfen, ob das noch sinnvoll ist, dazu führen, daß die GSA endlos klickt. Auch CMS-Systeme, die Session-IDs vergeben und zahlreiche Parameter an die URL anfügen, können einen Crawler leicht aus dem Tritt bringen. Wir hoffen aber, diese Effekte weitgehend behoben zu haben, so daß sich die Belastung Ihres Servers durch unseren Crawler deutlich verringern sollte.
Sollten dennoch weiterhin Probleme durch den Crawler auftreten, melden Sie sich, dann werden wir dies schnellstmöglich beheben. |
|
|
Picl :
| 12.04.2006 11:30 |
Ok, dann haben die sich eben ne Google Search Appliance geleistet (= GSA). Letzten Endes steckt auf jeden Fall ein normaler Google Bot dahinter. Und der kann (wie ich weiti schon geschrieben habe) eben über die robots.txt und die Metatags "reglementiert" werden.
Die Antwort die du bekommen hast schlüsselt das nochmal deutlich auf. Vielen Dank für's posten 
Greetz,
Picl |
|
|
Weiti :
| 12.04.2006 12:39 |
Hallo Michael,
kann mich Picl nur anschliessen: fürs Posten der Antwort...
Gruss, Dirk |
|
|
|