Content Management System - CMS : eXV2 
Home
News
Forum
Downloads
Download Module
Sitemap
Partnerseiten
RSS News
Kontakt/Info
Sprache
EnglishFrench
Suchen
Login
Nickname
Passwort

Registrieren?
Passwort?
Navigation
 Home News  Forum Neueste Beiträge  Downloads Download Module eXV² Themes  Weblinks Tutorial Changelog 2.3.1 Jobcenter Gebrauchtmarkt OSMap  Sponsor Kalendersystem Sitemap Partnerseiten RSS News Kontakt/Info Webseiten Wetter
Willkommen im Free Web CMS : eXV² Forum!
  Forenarchiv
     Allgemeines
  Datentransfer

Forum : Allgemeines

Titel : Datentransfer

© 2004-2012 www.exv2.de
http://www.exv2.de

URL dieser Diskussion
http://www.exv2.de/modules/newbb_plus/viewtopic.php?topic_id=3310&forum=8


 selbstbau :

11.04.2006 08:27
 Hallo Leute,

habe bei der Hompage http://www.shabv.de einen Datentransfer in 11 Tagen von 10 GB obwohl die Besucherzahl eigentlich nicht so hoch ist. Habt ihr mit dem Modul auch so einen hohen Datentransfer?

Gruß Michael

 Weiti :

11.04.2006 11:24
 Hallo Michael,

ist dir schon aufgefallen, wieviele Klicks die Fotos in der Galerie haben und im wie oft die Beiträge im Forum (Aktuelle Diskussionen im Forum-Block) gelesen wurden?

Gruss, Weiti

 selbstbau :

11.04.2006 11:35
 ja natürlich ist mir das schon aufgefallen. Nur stelle ich mir die Frage, ob diese Klicks nicht auch von suchrobots herstammen können. Das ist ja mehr Datentransfer wie auf unserer Firmenhompage mit über 15 000 unterschiedlichen Besuchern im Monat. Deswegen Frage ich einfach mal wie es bei euch ist.
Gruß Michael

 Weiti :

11.04.2006 11:48
 Hast Du Zugriff auf die aktuellen Logfiles vom Webserver? Vielleicht kann man darin etwas erkennen... ein Hackversuch bei 2.0.4 konnte ich darin bei mir nachvollziehen - ist aber schon einige Zeit her...

Gruss, Weiti

 selbstbau :

11.04.2006 11:51
 ja habe ich. Kann sie auch per websuxes auslesen. Habe sie auch als zip datei. Kenne mich damit aber nicht aus
Gruß Michael

 Weiti :

11.04.2006 12:31
 Kannst sie mir ja mal zuschicken... Hast du auch mal die sqlinject.txt im /cache Ordner nachgesehen?

Gruss, Weiti

 selbstbau :

11.04.2006 14:58
 Hallo Dirk,
danke für deine Hilfe.
Habe dir Logdatei per e-mail zugeschickt.
Gruß Michael

 Weiti :

11.04.2006 16:19
 Hallo Michael,

hab mich kurz mit Picl nochmal darüber unterhalten und mir die Logfiles genauer angeschaut. Deine Seite wurde von einem Goolgebot heimgesucht und das scheinbar sehr massiv und wohl schon sehr oft Very Happy

200 35048 "-" "gsa-crawler (Enterprise; GIX-03968;

Möglich wäre, dass du keine robots.txt im root liegen hast, oder die Metatags bzw. der Generator nicht richtig definiert/eingestellt sind.

Bei beiden kann man festlegen wie oft und ob überhaupt solche Daten erfasst werden sollen/dürfen.

Hier noch ein paar Links zu weiteren Infos:

http://www.robotstxt.org/wc/exclusion.html#robotstxt
http://www.psychedelix.com/agents/index.shtml?g_l
http://www.bjoernsworld.de/suchmaschinen/robots-txt.html
http://de.selfhtml.org/diverses/robots.htm
http://de.wikipedia.org/wiki/Meta-Tags

Hoffe Du kannst etwas damit anfangen... Very Happy

Viele Grüsse,
Weiti

 selbstbau :

12.04.2006 11:03
 Hallo Dirk,

habe alles nochmals überprüft und dabei festgestellt, das die meisten durchsuchungen von einem crawler von datareport sind. Habe sie angeschrieben und tatsächlich prompt antwort bekommen. Vielleicht für viel hier auch interessant. Hier die Antwortmail:

vielen Dank für Ihren Hinweis.
Der Eintrag "gsa-crawler" bezeichnet die "Googlebox (GSA)", eine Suchmaschine für schleswig-holsteinische Webseiten, die
Dataport für die Landesregierung Schleswig-Holstein betreibt. Wir bedauern sehr, daß der Einsatz der GSA zu einer starken
Belastung ihres Servers geführt hat.

Der GSA-Crawler verhält sich normalerweise so, daß er mit jedem Besuch, bei dem er keine geänderten Seiteninhalte
vorfindet, den Zeitabstand bis zum nächsten Besuch verlängert, außer, der Seitenbetreiber wünscht explizit, daß die Seite
häufiger gecrawlt wird.

Bei Ihnen ist letzteres der Fall, denn in den Headern all ihrer Seiten steht die Zeile <META NAME="REVISIT-AFTER"
CONTENT="7 DAYS"> was bedeutet, daß Sie Suchmaschinen ausdrücklich anweisen, nach einer Woche wiederzukommen, um nach
geänderten Inhalten zu suchen.

Ein anderer Grund für übermäßig häufiges Crawlen liegt in der GSA selbst: Der Crawler klickt automatisch auf alles, was
nach einem Link aussieht. Das kann z.B. bei Kalendern, die einen "nächsten Monat anzeigen" ohne zu prüfen, ob das noch
sinnvoll ist, dazu führen, daß die GSA endlos klickt.
Auch CMS-Systeme, die Session-IDs vergeben und zahlreiche Parameter an die URL anfügen, können einen Crawler leicht aus dem
Tritt bringen.
Wir hoffen aber, diese Effekte weitgehend behoben zu haben, so daß sich die Belastung Ihres Servers durch unseren Crawler
deutlich verringern sollte.

Sollten dennoch weiterhin Probleme durch den Crawler auftreten, melden Sie sich, dann werden wir dies schnellstmöglich
beheben.

 Picl :

12.04.2006 11:30
 Ok, dann haben die sich eben ne Google Search Appliance geleistet (= GSA). Letzten Endes steckt auf jeden Fall ein normaler Google Bot dahinter. Und der kann (wie ich weiti schon geschrieben habe) eben über die robots.txt und die Metatags "reglementiert" werden.

Die Antwort die du bekommen hast schlüsselt das nochmal deutlich auf. Vielen Dank für's posten Smile


Greetz,

Picl

 Weiti :

12.04.2006 12:39
 Hallo Michael,

kann mich Picl nur anschliessen: danke fürs Posten der Antwort...

Gruss,
Dirk
Partnerseiten
http://all-inkl.com/?partner=330607

Vote für eXV2
php
Kontakt/Info
  Kontakt
  Impressum
  Link zu uns
  AGB
  Datenschutzhinweis
Downloads
  eXV² Core
  Core Sprachfiles
eXV² Filecenter
  Downloads
  Download Module
  eXV² Themes
  Multilanguage Module
  Sprachfiles eXV² Module
eXV² Support
  France