robots.txt adalah file yang sangat penting jika suatu web ingin mudah di index oleh search engine, ketika search engine crawler datang di web kita, maka dia akan mencari file khusus yaitu file yang bernama robots.txt dan memberitahukan search engine spider bahwa halaman web tersebut harus di index atau di abaikan
file robots.txt adalah file text yang sederhana (bukan HTML), yang harus di tempatkan di root web misalnya
http://www.kadung.com/robots.txt
bagaimana membuat file robots.txt
seperti di sebutkan di atas bahwa robot.txt adalah file text sederhana, maka isi sebuah file robots.txt hanyalah terdiri dari sebuah catatan, sebuah catatan yang memberikan informasi khusus untuk search engine, setiap catatannya terdiri dari dua bidang yaitu user agent untuk baris pertama dan catatan larangan atau disallow untuk baris ke dua
contoh:
User-agent: googlebot
Disallow: /cgi-bin/
yang di maksut user agen googlebot, hanya bot search engine google ajah yang di perbolehkan untuk mengambil setiap halaman dari web kecuali direktori /cgi-bin/ karena Disallow: /cgi-bin/ maka semua file yang berada di cgi-bin akan di abaikan oleh googlebot.
Disallow atau larangan yang mewakili semua direktori
contoh:
User-agent: googlebot
Disallow: /software
maka semua direktori yang menggunakan awalan sofware tidak akan di indek oleh google misalnya /software-hp/index.html atau /software-linux/index.php bahkan /software/default.asp tidak akan di indek oleh google bot.
jika Disallow di kosongkan maka search engine dapat mengindek semua halaman yang ada di web anda
User-agent: googlebot
Disallow:
bila anda menginginkan semua search engine dapat mengindek web anda maka isilah user-agen:*
contoh:
User-agent: *
Disallow: /cgi-bin/
jika file robots.txt anda penulisannya salah maka web anda tidak akan diindex oleh search engine maka ada beberapa yang harus di hindari misalnya
1. jangan menggunakan command di robots.txt misalnya
#awal perintah
User-agent: *
Disallow: /cgi-bin/
#akir perintah
meskipun command diperbolehkan di robots.txt, kemungkinan akan dapat kerancuan pembacaan search engine spiders
2.jangan mengunakan spasi diawal baris
contoh:
User-agent: *
Disallow: /cgi-bin/
3.jangan mengubah urutan perintah
contoh:
Disallow: /cgi-bin/
User-agent: *
4.jangan mengunakan lebih dari satu direktori di Disallow
contoh:
User-agent: *
Disallow: /cgi-bin/ /sofware/ /picture/
karena spider bot tidak dapat memahami format, jika ingin melarang banyak direktori yang benar seperti ini
contoh:
User-agent: *
Disallow: /cgi-bin/
Disallow: /sofware/
Disallow: /picture/
5.pastikan penulisan direktori anda benar karena Case sensitive jika anda mempunyai direktory “software” tapi penulisan anda “SoftWare” maka direktori “software” akan tetap di index search engine
6.jangan mendaftar semua file dalam satu direktori, jika spider bot ingin mengabaikan file-file di dalam suatu direktori anda tidak perlu mendaftarkan semua file-filenya
contoh:
User-agent: *
Disallow: /sofware/handphone.html
Disallow: /sofware/komputer.html
Disallow: /sofware/driver.html
cukup dengan
User-agent: *
Disallow: /software/
7.jangan mengunakan perintah “allow” di dalam robots.txt, cukup di robot.txt hanya menggunakan “Disallow” saja untuk sebuah direktori atau halaman yang tidak ingin di index, sisanya semua otomatis akan di indek di web anda
Tips penggunaan robots.txt yang benar
1. lebih baik memperbolehkan semua search engine dan semua direktori ataupun halaman untuk mengindek web anda
User-agent: *
Disallow:
2.jika anda tidak ingin semua search engine mengindek web anda laranganlah root web anda Disallow: /
User-agent: *
Disallow: /
3.contohlah robots.txt web-web yang sudah besar jika anda ingin melihat contoh yang lebih komplek seperti
http://www.billinghotspot.com/robots.txt
http://www.microsoft.com/robots.txt
http://youtube.com/robots.txt
http://www.ebay.com/robots.txt
http://www.mcanerin.com/en/search-engine/robots-txt.asp
web anda haruslah memiliki sebuah file robot.txt yang tepat jika anda ingin web anda memiliki peringkat yang baik di search engine, jika search engine tahu apa yang ingin dilakukan dengan web anda, maka mereka akan memberikan peringkat di search engine lebih baik.
sumber : kadung.com