Memahami Fungsi robots.txt dan Cara Menyesuaikannya

Diki AtmodjoDiki Atmodjo
6 min read
Cover Image for Memahami Fungsi robots.txt dan Cara Menyesuaikannya

Kamu pasti sudah sering mengetahui tentang robots.txt saat dulu pertama kali belajar tentang SEO. Tapi apakah kamu tahu bagaimana cara kita mengoptimalkannya secara detail untuk mendukung strategi SEO kita?

Disini aku coba untuk sharing dari pengalamanku, apa yang biasa aku lakukan dengan robots.txt website yang aku handle. Semoga membantu!

Apa itu file robots.txt dan untuk apa digunakan dalam SEO?

robots.txt adalah file teks sederhana yang ditempatkan di root direktori situs web (URL standard-nya: https://example.com/robots.txt) yang berfungsi sebagai “guidebook” bagi bot crawler yang berisi instruksi, bagian mana dari situs yang boleh atau tidak boleh mereka akses.

Cara membuatnya juga sangat simpel, kamu bisa create robots.txt ini cukup dengan menggunakan program Notepad.

Lalu Bagaimana robots.txt Bisa Mempengaruhi Proses Indexing sebuah Website?

Jika digunakan dengan tepat, robots.txt akan memfokuskan search engine untuk melakukan pengindeksan hanya pada halaman yang penting.

Sebaliknya, kesalahan konfigurasi bisa menyebabkan halaman penting (money pages) justru tidak terindeks, sehingga merugikan visibilitas situs di hasil pencarian.

Nah si section berikut kita akan bahas tentang kesalahan-kesalahan instruksi pada robots.txt.

Apa saja kesalahan umum yang sering terjadi ketika membuat file robots.txt?

Pemblokiran Semua Halaman

User Agent: *
Disallow: /

Instruksi seperti ini akan memblokir seluruh halaman dari proses crawling semua bot, termasuk Google.

Pemblokiran Folder atau File Penting

Memblokir folder penting seperti wp-content atau wp-includes pada situs WordPress yang justru berisi file penting untuk di-index.

Memblokir file .js yang diperlukan untuk proses rendering juga terkadang bisa terjadi. Khusus untuk kasus file .js ini, mungkin bisa lebih dipertimbangkan menggunakan robots meta tag.

Penggunaan Wildcard (*) yang Kurang Tepat

Wildcard (*) dalam robots.txt digunakan sebagai karakter pengganti (wildcard) yang bisa mewakili satu atau lebih karakter dalam path URL. Biasanya digunakan untuk memblokir pola URL tertentu secara lebih fleksibel.

Selain *, simbol $ juga biasa digunakan untuk menandai akhir URL.

Contoh dasar:

User-agent: *
Disallow: /search*

Artinya: semua URL yang diawali /search akan diblokir, seperti:

  • /search

  • /search?q=produk

  • /search-result

Contoh Penggunaan Wildcard (*) yang Kurang Tepat:

1. Terlalu luas dan tidak spesifik

Disallow: /*.php

Ini akan memblokir semua halaman PHP, termasuk yang penting seperti /produk.php atau /checkout.php, bahkan jika beberapa halaman tersebut ingin diindeks.

2. Blokir semua halaman dengan parameter (tanpa pertimbangan)

Disallow: /*?

Ini akan memblokir semua URL yang mengandung query string, seperti:

  • /produk?id=123

  • /artikel?lang=id

Halaman dengan parameter seperti ini harus selalu didiskusikan dengan tim devs atau engineers, karena bisa saja halaman ini memang dimaksudkan untuk di index.

3. Wildcard di awal path

Disallow: *folder/

Ini bukan sintaks yang valid di robots.txt wildcard hanya berfungsi di tengah atau akhir path, bukan sebagai pembuka.

4. Salah pemahaman dengan trailing slash

Disallow: /blog*/page/

Ini akan tidak sesuai harapan jika tujuanmu hanya memblokir /blog/page/ saja, tapi bisa secara tidak sengaja memblokir /blog-detail/page/, /blog/category/page/, dan juga halaman lainnya yang mungkin ingin kamu index-kan.

Langkah-langkah Melakukan Audit Robots.txt

Bagaimana cara memulai audit pada file robots.txt?

  1. Akses file robots.txt kamu melalui www.example.com/robots.txt.

  2. Salin isinya dan akses robots.txt checker online untuk menganalisis struktur serta instruksi direktif yang digunakan.

  3. Lihat file sitemap kamu, dan cek apakah ada halaman-halaman penting yang ikut terblokir.

Apa saja poin penting yang harus diperiksa dalam audit robots.txt?

  • Apakah halaman penting secara SEO tidak diblokir?

  • Apakah halaman sensitif (login, admin, cart, dll) sudah diblokir dari crawler publik?

  • Apakah file JavaScript dan CSS yang dibutuhkan untuk rendering tidak diblokir?

  • Tidak mutlak, tapi apakah ada alamat Sitemap: yang disertakan?

Bagaimana cara menggunakan Google Search Console untuk membantu audit robots.txt?

Gunakan fitur robots.txt Tester di Google Search Console:

  • Uji berbagai URL dari subdirectories yang berbeda untuk melihat apakah diblokir oleh file robots.txt.

  • Periksa error parsing atau direktif yang tidak dikenali.

  • Pastikan perubahan yang dilakukan bisa dibaca oleh Googlebot.

Cara Menyesuaikan Robots.txt untuk Meningkatkan SEO

Bagaimana cara mengedit file robots.txt agar lebih SEO-friendly?

  • Prioritaskan halaman yang ingin diindeks dan pastikan tidak terblokir.

  • Blokir halaman yang tidak memberikan nilai SEO, seperti halaman filter, halaman search result, login, atau halaman pencarian internal.

  • Selalu cek URL list yang ada di sitemap untuk memudahkan proses crawling.

Contoh:

User-agent: * 
Disallow: /cart/ 
Disallow: /search/ 
Allow: /wp-content/uploads/ 

Sitemap: https://www.example.com/sitemap.xml

Daftar Bots User Agents yang biasa meng-crawl Sebuah Website

Berikut adalah daftar bots dan nama user-agent nya yang bisa kamu lihat di dalam log file websitemu.

Daftar User-Agent Crawlers Umum

User-Agent

Pemilik

Fungsi Utama

Googlebot

Google

Crawling dan indexing konten web untuk hasil pencarian Google.

Googlebot-Image

Google

Crawling gambar untuk Google Images.

Googlebot-News

Google

Crawling konten berita untuk Google News.

Bingbot

Microsoft

Crawling situs untuk Bing Search.

Slurp

Yahoo (via Bing)

Crawler Yahoo Search (sekarang dilayani Bing).

DuckDuckBot

DuckDuckGo

Crawler privasi-pertama milik DuckDuckGo.

YandexBot

Yandex

Mesin pencari asal Rusia.

Baiduspider

Baidu

Mesin pencari terbesar di Tiongkok.

Sogou Spider

Sogou (Tiongkok)

Mesin pencari alternatif di China.

Exabot

Exalead

Mesin pencari asal Prancis.

facebot

Meta (Facebook)

Mengambil metadata saat link dibagikan di Facebook/Instagram.

Twitterbot

Twitter/X

Menampilkan preview saat link dibagikan di Twitter.

LinkedInBot

LinkedIn

Preview konten untuk link yang dibagikan di LinkedIn.

AhrefsBot

Ahrefs

Crawler untuk audit SEO dan backlink analysis.

SemrushBot

Semrush

Crawling untuk analisis SEO.

MJ12bot

Majestic

Bot untuk mengumpulkan data backlink.

DotBot

Moz

SEO crawler milik Moz.

Applebot

Apple

Crawler untuk Siri dan Spotlight Search.

PetalBot

Huawei

Digunakan untuk mesin pencari Petal Search.

Bytespider

ByteDance

Digunakan oleh TikTok untuk crawling konten eksternal.

archive.org_bot

Internet Archive

Crawling konten untuk Wayback Machine.

Daftar User-agent bot AI & LLM Crawlers

User-Agent

Pemilik

Fungsi AI

GPTBot

OpenAI

Digunakan untuk mengumpulkan data dari web untuk melatih model GPT (seperti ChatGPT).

CCBot

Common Crawl

Bot open data yang digunakan oleh banyak model AI (termasuk GPT, Claude, dsb).

Anthropic-ai

Anthropic

Bot untuk pelatihan Claude AI (LLM pesaing GPT).

ClaudeBot

Anthropic

Nama lain dari bot crawling milik Anthropic.

Amazonbot

Amazon

Crawling untuk Amazon AI, Alexa, dan potensi LLM.

ia_archiver

Alexa Internet (sekarang nonaktif)

Bot lama dari Alexa/Amazon (masih muncul di log lama).

Meta AI Crawler

Meta

Digunakan untuk melatih model AI milik Meta (tidak selalu memakai user-agent publik).

CohereBot

Cohere AI

Crawling untuk keperluan training model bahasa Cohere.

PhindBot

Phind

Digunakan untuk AI-powered coding assistant.

YouBot

You.com

Crawler milik mesin pencari dan asisten AI bernama You.com.

Diffbot

Diffbot

Crawler berbasis AI untuk ekstraksi data otomatis dan knowledge graph.

NeevaBot

(bekas Neeva Search)

Crawler dari mesin pencari dengan teknologi AI (sekarang diakuisisi Snowflake).

PerplexityBot

Perplexity AI

Bot dari search engine berbasis AI yang menjawab pertanyaan seperti ChatGPT.

Mungkin kamu juga menemukan beberapa nama user-agent yang tidak tercantum disini saat melakukan analisis log file kamu bisa melakukan pengecekan di website DataDome.

Konfigurasi robots.txt untuk Website dari Niche yang Berbeda

Konfigurasi robots.txt ini tidak mutlak, tetapi kembali disesuaikan lagi ke URL structure dari website masing-masing.

Contoh dari situs berita:

User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /images/

Sitemap: https://news.example.com/sitemap.xml

Contoh situs e-commerce:

User-agent: *
Disallow: /checkout/
Disallow: /cart/
Disallow: /wishlist/
Allow: /product/

Sitemap: https://shop.example.com/sitemap.xml

Bagaimana cara menyesuaikan robots.txt untuk situs dengan banyak subdomain atau parameter URL?

  • Buat robots.txt terpisah untuk tiap subdomain (misal: blog.example.com/robots.txt, shop.example.com/robots.txt).
  • Gunakan parameter URL handling di Google Search Console.
  • Gunakan Disallow untuk blokir parameter yang tidak penting seperti filter harga atau urutan.

Penutup

Audit dan pengelolaan robots.txt sudah menjadi bagian tugas seorang SEO profesional. Dengan memahami fungsinya, melakukan audit secara berkala, dan menyesuaikan isinya sesuai kebutuhan situs, kamu dapat membantu search engine dan juga LLM platform untuk memahami dan mengindeks situsmu secara optimal.

Artikel terkait
Memahami Fungsi robots.txt dan Cara Menyesuaikannya | Diki Atmodjo