Eine Kurzanleitung zum Schreiben einer Robots.txt-Datei

Wie konsultiert man ein riesiges Lehrbuch? Den Index durchforsten. Nun: Es gibt ein Element, das die eigentliche Zusammenfassung Ihrer Website darstellt …

Robots.txt: Programmiercodes werden zwangsläufig immer ausgefeilter
Programmiercodes werden immer ausgefeilter

Die einzige Möglichkeit, mit der Suchmaschinenspinne in Kontakt zu treten, oder die Crawler, ist durch eine Datei namens Robots.txt. Oder besser. Wenn Sie Ihren Website-Vorschlag bei Google einreichen, wird Google mit einer schier kolossalen Menge an Informationen konfrontiert.

Wie konsultiert man ein Lehrbuch, das so umfangreich ist, dass man das Gefühl hat, nie alles zu finden, was man braucht? Sie beraten der Hinweis. Nun: Die robots.txt-Datei ist der Index Ihrer Website.

Dies ist ein einfach auszufüllendes Dokument, das dem Suchmaschinen-Crawler mitteilt, wonach er suchen soll. Kurz gesagt: Sie helfen ihm zu verstehen, woraus Ihre Website besteht, damit der Algorithmus Ihnen ein Ranking geben kann, das Ihrer Arbeit angemessen ist.

Kann jemand eine robots.txt-Datei schreiben?

Die kurze Antwort ist ja. Die ehrliche Antwort ist nein. Obwohl die Grammatik einer robots.txt-Datei extrem einfach ist und ihre Zusammensetzung aus wenigen Zeilen besteht, ist es besser, sich auf die Sorgfalt eines erfahrenen Webmasters zu verlassen, der weiß, wo er seine Hände hinlegen muss. Schließlich reicht ein kleiner Fehler aus, um die Positionierung Ihrer Website zu gefährden und damit alle SEO-Operationen zum Erliegen zu bringen, bevor sie überhaupt begonnen haben.

Bevor Sie beginnen, sollten Sie eines wissen: Jeder kann die robots.txt-Datei einer beliebigen Website konsultieren, indem er /robots.txt nach der Domain schreibt. Sie können sogar Google konsultieren!

Sie können eine solche Datei schreiben, ohne spezielle Software herunterzuladen. Tatsächlich reicht es aus, Ihren Notizblock zu verwenden und im TXT-Format zu speichern.

Lassen Sie uns gemeinsam eine robots.txt schreiben: den Header

Beginnen wir von vorne, wie es immer logisch ist. Das Öffnen der Datei bzw. des Headers ist ganz dem Namen der Spinne gewidmet, dem ein immer gleicher kleiner Schriftzug vorangestellt ist. Nehmen wir an, Sie möchten von Google wahrgenommen werden. Die erste Zeile lautet also:

User-Agent: Googlebot

Diese sehr kurze Zeichenfolge sagt Google, dass alles Folgende für Google sicherlich interessant sein wird. Falls Sie möchten, dass alle Crawler, die diesen Dateityp lesen, das Dokument konsultieren können, ersetzen Sie Googlebot durch ein einfaches *, a Sternchen.

Nachdem Sie nun angegeben haben, welche Spinne, d. h. WER, müssen Sie angeben auch WAS er lesen muss.

Jede Codezeile entspricht per Definition einer Aktion der Maschine. Es versteht sich von selbst, dass jeder Befehl in der robots.txt-Datei dem entspricht, was die Maschine nicht tun sollte. Und das ist der Schlüssel, der es Ihnen ermöglicht, einen wirklich effektiven zu schreiben. Wir sprechen über den DISALLOW-Befehl.

Was ist der DISALLOW-Befehl?

Il Befehl verbieten ermöglicht es Ihnen, durch Ausschluss zu argumentieren. Mit anderen Worten, wenn gesagt wird, dass es zuerst darum geht, zu sagen, was nicht getan werden soll – nun, dann argumentiert man mit Ausschluss. Neben dem Disallow gibt es auch das Allow, das die Ausnahme vom Block darstellt.

Wenn Sie eine gute Robots-Datei schreiben wollen, müssen Sie andersherum denken, also müssen Sie Google sagen, was es nicht lesen soll. Wenn du schreibst:

Disallow:

Die Spinne liest Ihre gesamte Website ohne Bremsen.

Wenn Sie nach „Disallow:“ einen Schrägstrich (also Disallow: /) einfügen, wird die Seite nicht in Suchmaschinen eingetragen, Punkt.

Nicht zulassen: /Verzeichnisse/

Ersetzen Sie das Wort Verzeichnis durch den Ordner, den Sie aus der Spinnenansicht verweigern möchten. Sie können dasselbe mit einer bestimmten Datei tun.

Nicht zulassen: /myfile.html

Aufmerksamkeit auf Satzzeichen und Buchstaben, Groß- oder Kleinschreibung. Solche „Kleinigkeiten“ werden bei dieser Art von Akte sehr geschätzt, machen aber einen großen Unterschied.

Warum würden Sie Google daran hindern, einen großen Teil Ihrer Website zu lesen? Wenn Sie eine Datei dieses Typs schreiben, ist es wichtig zu verstehen, welche Dateien nicht in der Suchmaschine erscheinen sollen, ohne sie jedoch zu missbrauchen. Beachten Sie jedoch, dass jeder, der die genaue Adresse dieser bestimmten Datei kennt, in jedem Fall darauf zugreifen kann.

Was ist der ALLOW-Befehl?

In der Datei können Sie mit dem Befehl eine Ausnahme hinzufügen ERMÖGLICHEN. Die Grammatik ist identisch, aber sie wird einige Ausnahmen von DISALLOW schaffen, die es der Spinne ermöglichen werden, interessante Erkundungsspielräume zu eröffnen.

Eine kleine Beispieldatei:

User-Agent: Googlebot

Nicht zulassen: /Bilder/

Zulassen: /images/holidays.jpg

Im Grunde haben wir dem Googlebot gesagt, dass er den Bilderordner nicht berücksichtigen soll, außer ein bestimmtes Foto darin, nämlich das aus den Ferien.

Und das, Leute, ist es. Wir haben unsere erste robots.txt-Datei geschrieben. Sicher, was wir für die eigentliche Website tun werden, könnte etwas anders sein, aber nicht viel. Lassen Sie sich im Zweifel immer von einem spezialisierten Webmaster beraten. Wir raten Ihnen, zuerst zu versuchen, es selbst zu schreiben, und es ihm zur Überprüfung zu schicken, um die Grundlagen zu beherrschen und besser zu verstehen, wie Ihre Website funktioniert.

Was ist der Zusammenhang zwischen robots.txt und Sitemaps?

Die Sitemap ist eine von speziellen Plugins generierte Datei, die alle Links auf der Website enthält. Wenn die Spinne die Website betritt, liest sie zuerst die Roboter und durchsucht dann die Website. Wenn der Roboter während des Crawls die Sitemap-Adresse findet, wird der gesamte Prozess viel einfacher.

Fügen Sie dem obigen Code Folgendes hinzu:

Sitemap: http://www.ilnomedeltuositobellissimo.com/sitemap.xml

Abschließend

Alle Roboterdateien sind gleich. Das bedeutet, dass eine für Google geschriebene Robots-Datei auch für Bing einwandfrei funktioniert und der gleichen Grammatik folgt.

Eine gut organisierte robots.txt-Datei ermöglicht Ihnen dies Crawlerzeit sparen. Lassen Sie sich nicht entmutigen: Das ist der erste Schritt zum Erfolg!

Robots.txt: Google ist die leistungsstärkste Suchmaschine im Internet
Google ist die leistungsstärkste Suchmaschine im Internet