robots.txt adalah file yang sangat penting jika suatu web ingin  mudah di index oleh search engine, ketika search engine crawler datang  di web kita, maka dia akan mencari file khusus yaitu file yang bernama  robots.txt dan memberitahukan search engine spider bahwa halaman web  tersebut harus di index atau di abaikan 
file robots.txt adalah file text yang sederhana (bukan HTML), yang harus di tempatkan di root web misalnya
http://www.kadung.com/robots.txt
bagaimana membuat file robots.txt
seperti di sebutkan di atas bahwa robot.txt adalah file text sederhana,  maka isi sebuah file robots.txt hanyalah terdiri dari sebuah catatan,  sebuah catatan yang memberikan informasi khusus untuk search engine,  setiap catatannya terdiri dari dua bidang yaitu user agent untuk baris  pertama dan catatan larangan atau disallow untuk baris ke dua
contoh:
User-agent: googlebot
Disallow: /cgi-bin/
yang di maksut user agen googlebot, hanya bot search engine google  ajah yang di perbolehkan untuk mengambil setiap halaman dari web  kecuali direktori /cgi-bin/ karena Disallow: /cgi-bin/ maka semua file  yang berada di cgi-bin akan di abaikan oleh googlebot.
Disallow atau larangan yang mewakili semua direktori
contoh:
User-agent: googlebot
Disallow: /software
maka semua direktori yang menggunakan awalan sofware tidak akan di  indek oleh google misalnya /software-hp/index.html atau  /software-linux/index.php bahkan /software/default.asp tidak akan di  indek oleh google bot.
jika Disallow di kosongkan maka search engine dapat mengindek semua halaman yang ada di web anda
User-agent: googlebot
Disallow:
bila anda menginginkan semua search engine dapat mengindek web anda maka isilah user-agen:*
contoh:
 User-agent: *
 Disallow: /cgi-bin/
jika file robots.txt anda penulisannya salah maka web anda tidak  akan diindex oleh search engine maka ada beberapa yang harus di hindari  misalnya
1. jangan menggunakan command di robots.txt misalnya
#awal perintah
User-agent: *
Disallow: /cgi-bin/
 #akir perintah
meskipun command diperbolehkan di robots.txt, kemungkinan akan dapat kerancuan pembacaan search engine spiders
2.jangan mengunakan spasi diawal baris
contoh:
User-agent: *
Disallow: /cgi-bin/
3.jangan mengubah urutan perintah
contoh:
Disallow: /cgi-bin/
User-agent: *
4.jangan mengunakan lebih dari satu direktori di Disallow
contoh:
 User-agent: *
Disallow: /cgi-bin/ /sofware/ /picture/
karena spider bot tidak dapat memahami format, jika ingin melarang banyak direktori yang benar seperti ini
contoh:
 User-agent: *
Disallow: /cgi-bin/
Disallow: /sofware/
Disallow: /picture/
5.pastikan penulisan direktori anda benar karena Case sensitive jika  anda mempunyai direktory “software” tapi penulisan anda “SoftWare” maka  direktori “software” akan tetap di index search engine
6.jangan mendaftar semua file dalam satu direktori, jika spider bot  ingin mengabaikan file-file di dalam suatu direktori anda tidak perlu  mendaftarkan semua file-filenya
contoh:
User-agent: *
 Disallow: /sofware/handphone.html
 Disallow: /sofware/komputer.html
 Disallow: /sofware/driver.html
cukup dengan
User-agent: *
Disallow: /software/
7.jangan mengunakan perintah “allow” di dalam robots.txt, cukup di  robot.txt hanya menggunakan “Disallow” saja untuk sebuah direktori atau  halaman yang tidak ingin di index, sisanya semua otomatis akan di indek  di web anda
Tips penggunaan robots.txt yang benar
 1. lebih baik memperbolehkan semua search engine dan semua direktori ataupun halaman untuk mengindek web anda
User-agent: *
Disallow:
2.jika anda tidak ingin semua search engine mengindek web anda laranganlah root web anda Disallow: /
User-agent: *
Disallow: /
3.contohlah robots.txt web-web yang sudah besar jika anda ingin melihat contoh yang lebih komplek seperti
http://www.billinghotspot.com/robots.txt
 http://www.microsoft.com/robots.txt
 http://youtube.com/robots.txt
 http://www.ebay.com/robots.txt
http://www.mcanerin.com/en/search-engine/robots-txt.asp
web anda haruslah memiliki sebuah file robot.txt yang tepat jika  anda ingin web anda memiliki peringkat yang baik di search engine, jika  search engine tahu apa yang ingin dilakukan dengan web anda, maka  mereka akan memberikan peringkat di search engine lebih baik.
sumber : kadung.com