Was ist eine robots.txt-Datei? (Und wann man es benutzt) • BUOM

2. April 2022

Suchmaschinenanbieter und andere Online-Benutzer verwenden häufig Roboter oder Bots, um automatisierte Aufgaben wie die Indexierung durchzuführen, die dazu beitragen können, dass Websites angezeigt werden, wenn Personen nach bestimmten Schlüsselwörtern suchen. Websitebesitzer erstellen oft eine robots.txt-Datei, die ihnen dabei helfen kann, automatisch zu reagieren und diese Bots zu bestimmten Informationen weiterzuleiten. Wenn Sie dieses Dokument kennen und wissen, wie Sie es verwenden, können Sie sicherstellen, dass Ihre Website sicher und zugänglich ist. In diesem Artikel besprechen wir, was ein robots.txt-Dokument ist und wie es verwendet wird. Außerdem geben wir nützliche Informationen, wie Sie diese Dateien verwenden können, und geben Tipps.

Was ist robots.txt?

Eine robots.txt-Datei oder Robot-Ausschlussstandard ist eine Datei, die Benutzern hilft, Websites oder Elemente auf einer Seite zu finden und zu indizieren. Da Suchmaschinen und manchmal auch Malware einzelne Seiten crawlen oder indizieren, helfen sie bei der Verwaltung von Anfragen. Jedes Mal, wenn eine Suchmaschine Daten von Ihrer Website sammelt, fragt sie nach bestimmten Informationen. Diese Datei weist den Crawler an, bestimmte Informationen zu identifizieren und zu sammeln, die er möglicherweise benötigt. Jeder hat eine spezifische URL, die auf der Website gehostet wird. Auf diesen Link wird normalerweise nicht umgeleitet, daher bemerken ihn normale Benutzer oft nicht. Einige der in dieser Datei zur Steuerung von Robotern verwendeten Syntaxen umfassen:

  • Benutzeragent: Benutzeragenten sind Suchmaschinen oder andere Software, die Roboter zum Crawlen einsetzen. Die Textdatei kann spezifische Verweise auf Benutzeragenten mit jeweils eindeutigen Anweisungen enthalten.

  • Zulassen: Zulassen ist ein Befehl, der Robotern Zugriff auf zusätzliche Seiten und Unterverzeichnisse gewährt. Dies ist möglicherweise nur bei einigen Bots möglich.

  • Disallow: Disallow ist ein Befehl, den Sie in eine Textdatei einfügen können, um zu verhindern, dass ein Robot auf eine bestimmte URL zugreift.

  • Scanverzögerung. Die Crawling-Latenz ist die Zeitspanne (normalerweise in Sekunden), die ein Bot warten kann, um Inhalte auf einer bestimmten Website zu laden und zu crawlen.

  • Sitemap: Eine Sitemap ist ein Feld in einer Textdatei, das eine Karte des XML-Sitemap-Verzeichnisses einer Website bereitstellt.

Wann können Sie robots.txt verwenden?

Sie können die robots.txt-Datei mehrmals verwenden:

Aufrechterhaltung der Website-Funktionalität

Wenn Sie aufgrund des ständigen Crawlings mit viel Website-Verkehr auf dem Server rechnen, kann die Erstellung dieser Datei zur Behebung etwaiger Leistungsprobleme beitragen. Diese Dateien können Ihnen dabei helfen, Bots zu bestimmten Informationen und Teilen Ihrer Website zu leiten, anstatt jede Website herunterzuladen und zu verwenden. Sie können einschränken, welche Websites der Bot crawlt, z. B. redundante oder unwichtige Websites, sodass beim Crawlen nur wichtige Websites berücksichtigt werden.

Dateischutz

Mit diesem Dateityp können Sie bestimmte Dateien wie Bilder und Videodateien schützen. Die Datei kann verhindern, dass unerwünschte Roboter auf bestimmte Mediendateien oder Seiten zugreifen, obwohl andere Websites möglicherweise weiterhin auf diese Elemente verweisen. Ihre Mediendateien werden nicht in Suchmaschinen angezeigt, die Ihre Website crawlen. Sie können Roboter auch daran hindern, auf Ressourcendateien wie Stylesheets und Skripte zuzugreifen. Dies bedeutet, dass die Site ohne diese zusätzlichen Objekte in einer Suchmaschine angezeigt werden kann.

So verwenden Sie robots.txt

Hier sind einige Schritte, die Sie befolgen können, um die robots.txt-Datei zu verwenden:

1. Erstellen Sie eine neue Datei

Um die robots.txt-Datei zu verwenden, können Sie sie in einem beliebigen Texteditor erstellen. Beim Erstellen können Sie bestimmte Informationen wie Benutzeragenten und eine Sitemap hinzufügen, um etwaige Bots zu leiten. Da jede Site nur eine dieser Dateien haben kann, können Sie Ihre Hauptversion nach Abschluss als TXT-Datei speichern und sie robots.txt nennen, damit Robots sie beim Crawlen erkennen können.

2. Regeln hinzufügen

Mit jeder Regel können Sie sie nach Benutzeragenten kategorisieren und in separaten Zeilen auflisten. Da Roboter häufig von oben nach unten lesen, können Sie zunächst den spezifischen Benutzeragenten und dann die Websites angeben, auf die sie zugreifen können. Die Regeln könnten beispielsweise so aussehen:

Benutzeragent: searchbotcrawler

erlauben: https://www.botstxttest.com

disallow: /home.jpg bezieht sich auf https://www.botstxttest.com/home.jpg

Erwägen Sie die Betrachtung der Groß- und Kleinschreibung von Sätzen, da Roboter oft auf Groß- und Kleinschreibung achten.

3. Laden Sie die Datei hoch

Sobald Sie Regeln definiert haben, können Sie die Datei auf den Server Ihrer Site hochladen. Dies funktioniert ordnungsgemäß, wenn es auf einer Website der obersten Ebene gehostet wird. Es könnte zum Beispiel so aussehen: „https://www.botstxttest.com/robots.txt“. Sie können dies selbst tun oder sich bei Bedarf an das Support-Team Ihres Website-Hosts wenden, um die Datei herunterzuladen.

4. Überprüfen Sie die Leistung

Sobald Sie die Datei auf Ihrer Website haben, sollten Sie sie testen, um sicherzustellen, dass sie funktioniert. Sie können die URL zunächst in einem privaten Browserfenster öffnen. Es gibt verschiedene Testsoftwareoptionen, die Sie online nutzen können. Sie simulieren die Funktionalität eines Bots und können Ihnen anhand Ihrer Textdatei zeigen, was ein Scan bewirken oder zurückgeben kann.

Tipps zur effektiven Nutzung von robots.txt

Hier sind einige Tipps, die Sie bei der Verwendung dieser Dateien beachten können:

Die Einschränkungen verstehen

Es gibt einige Einschränkungen der robots.txt-Datei, die Sie möglicherweise berücksichtigen sollten. Beispielsweise kann es sein, dass einige Suchmaschinen oder Robots einige der von Ihnen bereitgestellten Anweisungen nicht lesen. Dies könnte bedeuten, dass diese Engines oder andere Crawler Zugriff auf Informationen erhalten könnten, die Sie schützen wollten. Ebenso kann es sein, dass einige Suchroboter die Syntax Ihres Dokuments anders lesen.

Erlernen Sie Blockierungstechniken

Da die robots.txt-Datei nur bestimmte Aspekte der Sicherheit einer Website steuert, können Sie auch lernen, wie Sie bestimmte Crawler oder Websites blockieren. Sie können den Meta-Tags Ihrer Website ein „noindex“-Tag hinzufügen, um zu verhindern, dass sie auf Suchmaschinen-Websites angezeigt wird. Sie können einige Websites und Unterseiten auch schützen, indem Sie den Passwortschutz aktivieren. Da Bots normalerweise nicht auf diese Passwörter zugreifen können, können sie die Website höchstwahrscheinlich crawlen.

Überprüfen Sie Ihre Datei

Da Roboter diese Textdateien lesen, reagieren sie nur auf exakte Übereinstimmungen. Überprüfen Sie jede Datei auf Rechtschreibung und Richtigkeit. Sie können auch jeden der in Ihrer robot.txt-Datei aufgeführten Links überprüfen, um sicherzustellen, dass es sich dabei um diejenigen handelt, die Sie einbinden möchten. Es kann hilfreich sein, die Groß-/Kleinschreibung jeder URL zu überprüfen, um sicherzustellen, dass sie mit den Webseiten-Links übereinstimmt.

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert