Kamu pasti sudah sering mengetahui tentang robots.txt
saat dulu pertama kali belajar tentang SEO. Tapi apakah kamu tahu bagaimana cara kita mengoptimalkannya secara detail untuk mendukung strategi SEO kita?
Disini aku coba untuk sharing dari pengalamanku, apa yang biasa aku lakukan dengan robots.txt
website yang aku handle. Semoga membantu!
Apa itu file robots.txt dan untuk apa digunakan dalam SEO?
robots.txt
adalah file teks sederhana yang ditempatkan di root direktori situs web (URL standard-nya: https://example.com/robots.txt
) yang berfungsi sebagai “guidebook” bagi bot crawler yang berisi instruksi, bagian mana dari situs yang boleh atau tidak boleh mereka akses.
Cara membuatnya juga sangat simpel, kamu bisa create robots.txt
ini cukup dengan menggunakan program Notepad.
Lalu Bagaimana robots.txt Bisa Mempengaruhi Proses Indexing sebuah Website?
Jika digunakan dengan tepat, robots.txt
akan memfokuskan search engine untuk melakukan pengindeksan hanya pada halaman yang penting.
Sebaliknya, kesalahan konfigurasi bisa menyebabkan halaman penting (money pages) justru tidak terindeks, sehingga merugikan visibilitas situs di hasil pencarian.
Nah si section berikut kita akan bahas tentang kesalahan-kesalahan instruksi pada robots.txt
.
Apa saja kesalahan umum yang sering terjadi ketika membuat file robots.txt?
Pemblokiran Semua Halaman
User Agent: *
Disallow: /
Instruksi seperti ini akan memblokir seluruh halaman dari proses crawling semua bot, termasuk Google.
Pemblokiran Folder atau File Penting
Memblokir folder penting seperti wp-content
atau wp-includes
pada situs WordPress yang justru berisi file penting untuk di-index.
Memblokir file .js
yang diperlukan untuk proses rendering juga terkadang bisa terjadi. Khusus untuk kasus file .js
ini, mungkin bisa lebih dipertimbangkan menggunakan robots meta tag.
Penggunaan Wildcard (*
) yang Kurang Tepat
Wildcard (*
) dalam robots.txt digunakan sebagai karakter pengganti (wildcard) yang bisa mewakili satu atau lebih karakter dalam path URL. Biasanya digunakan untuk memblokir pola URL tertentu secara lebih fleksibel.
Selain *
, simbol $
juga biasa digunakan untuk menandai akhir URL.
Contoh dasar:
User-agent: *
Disallow: /search*
Artinya: semua URL yang diawali /search
akan diblokir, seperti:
-
/search
-
/search?q=produk
-
/search-result
Contoh Penggunaan Wildcard (*
) yang Kurang Tepat:
1. Terlalu luas dan tidak spesifik
Disallow: /*.php
Ini akan memblokir semua halaman PHP, termasuk yang penting seperti /produk.php
atau /checkout.php
, bahkan jika beberapa halaman tersebut ingin diindeks.
2. Blokir semua halaman dengan parameter (tanpa pertimbangan)
Disallow: /*?
Ini akan memblokir semua URL yang mengandung query string, seperti:
-
/produk?id=123
-
/artikel?lang=id
Halaman dengan parameter seperti ini harus selalu didiskusikan dengan tim devs atau engineers, karena bisa saja halaman ini memang dimaksudkan untuk di index.
3. Wildcard di awal path
Disallow: *folder/
Ini bukan sintaks yang valid di robots.txt
wildcard hanya berfungsi di tengah atau akhir path, bukan sebagai pembuka.
4. Salah pemahaman dengan trailing slash
Disallow: /blog*/page/
Ini akan tidak sesuai harapan jika tujuanmu hanya memblokir /blog/page/ saja, tapi bisa secara tidak sengaja memblokir /blog-detail/page/
, /blog/category/page/
, dan juga halaman lainnya yang mungkin ingin kamu index-kan.
Langkah-langkah Melakukan Audit Robots.txt
Bagaimana cara memulai audit pada file robots.txt?
-
Akses file
robots.txt
kamu melaluiwww.example.com/robots.txt
. -
Salin isinya dan akses robots.txt checker online untuk menganalisis struktur serta instruksi direktif yang digunakan.
-
Lihat file sitemap kamu, dan cek apakah ada halaman-halaman penting yang ikut terblokir.
Apa saja poin penting yang harus diperiksa dalam audit robots.txt?
-
Apakah halaman penting secara SEO tidak diblokir?
-
Apakah halaman sensitif (login, admin, cart, dll) sudah diblokir dari crawler publik?
-
Apakah file JavaScript dan CSS yang dibutuhkan untuk rendering tidak diblokir?
-
Tidak mutlak, tapi apakah ada alamat
Sitemap:
yang disertakan?
Bagaimana cara menggunakan Google Search Console untuk membantu audit robots.txt?
Gunakan fitur robots.txt Tester di Google Search Console:
-
Uji berbagai URL dari subdirectories yang berbeda untuk melihat apakah diblokir oleh file
robots.txt
. -
Periksa error parsing atau direktif yang tidak dikenali.
-
Pastikan perubahan yang dilakukan bisa dibaca oleh Googlebot.
Cara Menyesuaikan Robots.txt untuk Meningkatkan SEO
Bagaimana cara mengedit file robots.txt agar lebih SEO-friendly?
-
Prioritaskan halaman yang ingin diindeks dan pastikan tidak terblokir.
-
Blokir halaman yang tidak memberikan nilai SEO, seperti halaman filter, halaman search result, login, atau halaman pencarian internal.
-
Selalu cek URL list yang ada di sitemap untuk memudahkan proses crawling.
Contoh:
User-agent: *
Disallow: /cart/
Disallow: /search/
Allow: /wp-content/uploads/
Sitemap: https://www.example.com/sitemap.xml
Daftar Bots User Agents yang biasa meng-crawl Sebuah Website
Berikut adalah daftar bots dan nama user-agent nya yang bisa kamu lihat di dalam log file websitemu.
Daftar User-Agent Crawlers Umum
User-Agent | Pemilik | Fungsi Utama |
Googlebot | Crawling dan indexing konten web untuk hasil pencarian Google. | |
Googlebot-Image | Crawling gambar untuk Google Images. | |
Googlebot-News | Crawling konten berita untuk Google News. | |
Bingbot | Microsoft | Crawling situs untuk Bing Search. |
Slurp | Yahoo (via Bing) | Crawler Yahoo Search (sekarang dilayani Bing). |
DuckDuckBot | DuckDuckGo | Crawler privasi-pertama milik DuckDuckGo. |
YandexBot | Yandex | Mesin pencari asal Rusia. |
Baiduspider | Baidu | Mesin pencari terbesar di Tiongkok. |
Sogou Spider | Sogou (Tiongkok) | Mesin pencari alternatif di China. |
Exabot | Exalead | Mesin pencari asal Prancis. |
facebot | Meta (Facebook) | Mengambil metadata saat link dibagikan di Facebook/Instagram. |
Twitterbot | Twitter/X | Menampilkan preview saat link dibagikan di Twitter. |
LinkedInBot | Preview konten untuk link yang dibagikan di LinkedIn. | |
AhrefsBot | Ahrefs | Crawler untuk audit SEO dan backlink analysis. |
SemrushBot | Semrush | Crawling untuk analisis SEO. |
MJ12bot | Majestic | Bot untuk mengumpulkan data backlink. |
DotBot | Moz | SEO crawler milik Moz. |
Applebot | Apple | Crawler untuk Siri dan Spotlight Search. |
PetalBot | Huawei | Digunakan untuk mesin pencari Petal Search. |
Bytespider | ByteDance | Digunakan oleh TikTok untuk crawling konten eksternal. |
archive.org_bot | Internet Archive | Crawling konten untuk Wayback Machine. |
Daftar User-agent bot AI & LLM Crawlers
User-Agent | Pemilik | Fungsi AI |
GPTBot | OpenAI | Digunakan untuk mengumpulkan data dari web untuk melatih model GPT (seperti ChatGPT). ↗ |
CCBot | Common Crawl | Bot open data yang digunakan oleh banyak model AI (termasuk GPT, Claude, dsb). |
Anthropic-ai | Anthropic | Bot untuk pelatihan Claude AI (LLM pesaing GPT). ↗ |
ClaudeBot | Anthropic | Nama lain dari bot crawling milik Anthropic. |
Amazonbot | Amazon | Crawling untuk Amazon AI, Alexa, dan potensi LLM. ↗ |
ia_archiver | Alexa Internet (sekarang nonaktif) | Bot lama dari Alexa/Amazon (masih muncul di log lama). |
Meta AI Crawler | Meta | Digunakan untuk melatih model AI milik Meta (tidak selalu memakai user-agent publik). |
CohereBot | Cohere AI | Crawling untuk keperluan training model bahasa Cohere. |
PhindBot | Phind | Digunakan untuk AI-powered coding assistant. ↗ |
YouBot | You.com | Crawler milik mesin pencari dan asisten AI bernama You.com. |
Diffbot | Diffbot | Crawler berbasis AI untuk ekstraksi data otomatis dan knowledge graph. |
NeevaBot | (bekas Neeva Search) | Crawler dari mesin pencari dengan teknologi AI (sekarang diakuisisi Snowflake). |
PerplexityBot | Perplexity AI | Bot dari search engine berbasis AI yang menjawab pertanyaan seperti ChatGPT. ↗ |
Mungkin kamu juga menemukan beberapa nama user-agent yang tidak tercantum disini saat melakukan analisis log file kamu bisa melakukan pengecekan di website DataDome.
Konfigurasi robots.txt untuk Website dari Niche yang Berbeda
Konfigurasi robots.txt ini tidak mutlak, tetapi kembali disesuaikan lagi ke URL structure dari website masing-masing.
Contoh dari situs berita:
User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /images/
Sitemap: https://news.example.com/sitemap.xml
Contoh situs e-commerce:
User-agent: *
Disallow: /checkout/
Disallow: /cart/
Disallow: /wishlist/
Allow: /product/
Sitemap: https://shop.example.com/sitemap.xml
Bagaimana cara menyesuaikan robots.txt untuk situs dengan banyak subdomain atau parameter URL?
- Buat
robots.txt
terpisah untuk tiap subdomain (misal:blog.example.com/robots.txt
,shop.example.com/robots.txt
). - Gunakan parameter URL handling di Google Search Console.
- Gunakan
Disallow
untuk blokir parameter yang tidak penting seperti filter harga atau urutan.
Penutup
Audit dan pengelolaan robots.txt
sudah menjadi bagian tugas seorang SEO profesional. Dengan memahami fungsinya, melakukan audit secara berkala, dan menyesuaikan isinya sesuai kebutuhan situs, kamu dapat membantu search engine dan juga LLM platform untuk memahami dan mengindeks situsmu secara optimal.