Memahami Fungsi robots.txt dan Cara Menyesuaikannya

Kamu pasti sudah sering mengetahui tentang robots.txt saat dulu pertama kali belajar tentang SEO. Tapi apakah kamu tahu bagaimana cara kita mengoptimalkannya secara detail untuk mendukung strategi SEO kita?

Disini aku coba untuk sharing dari pengalamanku, apa yang biasa aku lakukan dengan robots.txt website yang aku handle. Semoga membantu!

Apa itu file robots.txt dan untuk apa digunakan dalam SEO?

robots.txt adalah file teks sederhana yang ditempatkan di root direktori situs web (URL standard-nya: https://example.com/robots.txt) yang berfungsi sebagai “guidebook” bagi bot crawler yang berisi instruksi, bagian mana dari situs yang boleh atau tidak boleh mereka akses.

Cara membuatnya juga sangat simpel, kamu bisa create robots.txt ini cukup dengan menggunakan program Notepad.

Lalu Bagaimana robots.txt Bisa Mempengaruhi Proses Indexing sebuah Website?

Jika digunakan dengan tepat, robots.txt akan memfokuskan search engine untuk melakukan pengindeksan hanya pada halaman yang penting.

Sebaliknya, kesalahan konfigurasi bisa menyebabkan halaman penting (money pages) justru tidak terindeks, sehingga merugikan visibilitas situs di hasil pencarian.

Nah si section berikut kita akan bahas tentang kesalahan-kesalahan instruksi pada robots.txt.

Apa saja kesalahan umum yang sering terjadi ketika membuat file robots.txt?

Pemblokiran Semua Halaman

User Agent: *
Disallow: /

Instruksi seperti ini akan memblokir seluruh halaman dari proses crawling semua bot, termasuk Google.

Pemblokiran Folder atau File Penting

Memblokir folder penting seperti wp-content atau wp-includes pada situs WordPress yang justru berisi file penting untuk di-index.

Memblokir file .js yang diperlukan untuk proses rendering juga terkadang bisa terjadi. Khusus untuk kasus file .js ini, mungkin bisa lebih dipertimbangkan menggunakan robots meta tag.

Penggunaan Wildcard (`*`) yang Kurang Tepat

Wildcard (*) dalam robots.txt digunakan sebagai karakter pengganti (wildcard) yang bisa mewakili satu atau lebih karakter dalam path URL. Biasanya digunakan untuk memblokir pola URL tertentu secara lebih fleksibel.

Selain *, simbol $ juga biasa digunakan untuk menandai akhir URL.

Contoh dasar:

User-agent: *
Disallow: /search*

Artinya: semua URL yang diawali /search akan diblokir, seperti:

/search
/search?q=produk
/search-result

Contoh Penggunaan Wildcard (*) yang Kurang Tepat:

1. Terlalu luas dan tidak spesifik

Disallow: /*.php

Ini akan memblokir semua halaman PHP, termasuk yang penting seperti /produk.php atau /checkout.php, bahkan jika beberapa halaman tersebut ingin diindeks.

2. Blokir semua halaman dengan parameter (tanpa pertimbangan)

Disallow: /*?

Ini akan memblokir semua URL yang mengandung query string, seperti:

/produk?id=123
/artikel?lang=id

Halaman dengan parameter seperti ini harus selalu didiskusikan dengan tim devs atau engineers, karena bisa saja halaman ini memang dimaksudkan untuk di index.

3. Wildcard di awal path

Disallow: *folder/

Ini bukan sintaks yang valid di robots.txt wildcard hanya berfungsi di tengah atau akhir path, bukan sebagai pembuka.

4. Salah pemahaman dengan trailing slash

Disallow: /blog*/page/

Ini akan tidak sesuai harapan jika tujuanmu hanya memblokir /blog/page/ saja, tapi bisa secara tidak sengaja memblokir /blog-detail/page/, /blog/category/page/, dan juga halaman lainnya yang mungkin ingin kamu index-kan.

Langkah-langkah Melakukan Audit Robots.txt

Bagaimana cara memulai audit pada file robots.txt?

Akses file robots.txt kamu melalui www.example.com/robots.txt.
Salin isinya dan akses robots.txt checker online untuk menganalisis struktur serta instruksi direktif yang digunakan.
Lihat file sitemap kamu, dan cek apakah ada halaman-halaman penting yang ikut terblokir.

Apa saja poin penting yang harus diperiksa dalam audit robots.txt?

Apakah halaman penting secara SEO tidak diblokir?
Apakah halaman sensitif (login, admin, cart, dll) sudah diblokir dari crawler publik?
Apakah file JavaScript dan CSS yang dibutuhkan untuk rendering tidak diblokir?
Tidak mutlak, tapi apakah ada alamat Sitemap: yang disertakan?

Bagaimana cara menggunakan Google Search Console untuk membantu audit robots.txt?

Gunakan fitur robots.txt Tester di Google Search Console:

Uji berbagai URL dari subdirectories yang berbeda untuk melihat apakah diblokir oleh file robots.txt.
Periksa error parsing atau direktif yang tidak dikenali.
Pastikan perubahan yang dilakukan bisa dibaca oleh Googlebot.

Cara Menyesuaikan Robots.txt untuk Meningkatkan SEO

Bagaimana cara mengedit file robots.txt agar lebih SEO-friendly?

Prioritaskan halaman yang ingin diindeks dan pastikan tidak terblokir.
Blokir halaman yang tidak memberikan nilai SEO, seperti halaman filter, halaman search result, login, atau halaman pencarian internal.
Selalu cek URL list yang ada di sitemap untuk memudahkan proses crawling.

Contoh:

User-agent: * 
Disallow: /cart/ 
Disallow: /search/ 
Allow: /wp-content/uploads/ 

Sitemap: https://www.example.com/sitemap.xml

Daftar Bots User Agents yang biasa meng-crawl Sebuah Website

Berikut adalah daftar bots dan nama user-agent nya yang bisa kamu lihat di dalam log file websitemu.

Daftar User-Agent Crawlers Umum

User-Agent	Pemilik	Fungsi Utama
Googlebot	Google	Crawling dan indexing konten web untuk hasil pencarian Google.
Googlebot-Image	Google	Crawling gambar untuk Google Images.
Googlebot-News	Google	Crawling konten berita untuk Google News.
Bingbot	Microsoft	Crawling situs untuk Bing Search.
Slurp	Yahoo (via Bing)	Crawler Yahoo Search (sekarang dilayani Bing).
DuckDuckBot	DuckDuckGo	Crawler privasi-pertama milik DuckDuckGo.
YandexBot	Yandex	Mesin pencari asal Rusia.
Baiduspider	Baidu	Mesin pencari terbesar di Tiongkok.
Sogou Spider	Sogou (Tiongkok)	Mesin pencari alternatif di China.
Exabot	Exalead	Mesin pencari asal Prancis.
facebot	Meta (Facebook)	Mengambil metadata saat link dibagikan di Facebook/Instagram.
Twitterbot	Twitter/X	Menampilkan preview saat link dibagikan di Twitter.
LinkedInBot	LinkedIn	Preview konten untuk link yang dibagikan di LinkedIn.
AhrefsBot	Ahrefs	Crawler untuk audit SEO dan backlink analysis.
SemrushBot	Semrush	Crawling untuk analisis SEO.
MJ12bot	Majestic	Bot untuk mengumpulkan data backlink.
DotBot	Moz	SEO crawler milik Moz.
Applebot	Apple	Crawler untuk Siri dan Spotlight Search.
PetalBot	Huawei	Digunakan untuk mesin pencari Petal Search.
Bytespider	ByteDance	Digunakan oleh TikTok untuk crawling konten eksternal.
archive.org_bot	Internet Archive	Crawling konten untuk Wayback Machine.

Daftar User-agent bot AI & LLM Crawlers

User-Agent	Pemilik	Fungsi AI
GPTBot	OpenAI	Digunakan untuk mengumpulkan data dari web untuk melatih model GPT (seperti ChatGPT). ↗
CCBot	Common Crawl	Bot open data yang digunakan oleh banyak model AI (termasuk GPT, Claude, dsb).
Anthropic-ai	Anthropic	Bot untuk pelatihan Claude AI (LLM pesaing GPT). ↗
ClaudeBot	Anthropic	Nama lain dari bot crawling milik Anthropic.
Amazonbot	Amazon	Crawling untuk Amazon AI, Alexa, dan potensi LLM. ↗
ia_archiver	Alexa Internet (sekarang nonaktif)	Bot lama dari Alexa/Amazon (masih muncul di log lama).
Meta AI Crawler	Meta	Digunakan untuk melatih model AI milik Meta (tidak selalu memakai user-agent publik).
CohereBot	Cohere AI	Crawling untuk keperluan training model bahasa Cohere.
PhindBot	Phind	Digunakan untuk AI-powered coding assistant. ↗
YouBot	You.com	Crawler milik mesin pencari dan asisten AI bernama You.com.
Diffbot	Diffbot	Crawler berbasis AI untuk ekstraksi data otomatis dan knowledge graph.
NeevaBot	(bekas Neeva Search)	Crawler dari mesin pencari dengan teknologi AI (sekarang diakuisisi Snowflake).
PerplexityBot	Perplexity AI	Bot dari search engine berbasis AI yang menjawab pertanyaan seperti ChatGPT. ↗

Mungkin kamu juga menemukan beberapa nama user-agent yang tidak tercantum disini saat melakukan analisis log file kamu bisa melakukan pengecekan di website DataDome.

Konfigurasi robots.txt untuk Website dari Niche yang Berbeda

Konfigurasi robots.txt ini tidak mutlak, tetapi kembali disesuaikan lagi ke URL structure dari website masing-masing.

Contoh dari situs berita:

User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /images/

Sitemap: https://news.example.com/sitemap.xml

Contoh situs e-commerce:

User-agent: *
Disallow: /checkout/
Disallow: /cart/
Disallow: /wishlist/
Allow: /product/

Sitemap: https://shop.example.com/sitemap.xml

Bagaimana cara menyesuaikan robots.txt untuk situs dengan banyak subdomain atau parameter URL?

Buat robots.txt terpisah untuk tiap subdomain (misal: blog.example.com/robots.txt, shop.example.com/robots.txt).
Gunakan parameter URL handling di Google Search Console.
Gunakan Disallow untuk blokir parameter yang tidak penting seperti filter harga atau urutan.

Penutup

Audit dan pengelolaan robots.txt sudah menjadi bagian tugas seorang SEO profesional. Dengan memahami fungsinya, melakukan audit secara berkala, dan menyesuaikan isinya sesuai kebutuhan situs, kamu dapat membantu search engine dan juga LLM platform untuk memahami dan mengindeks situsmu secara optimal.