robots.txt adalah file yang sangat penting jika suatu web ingin mudah di index oleh search engine, ketika search engine crawler datang di web kita, maka dia akan mencari file khusus yaitu file yang bernama robots.txt dan memberitahukan search engine spider bahwa halaman web tersebut harus di index atau di abaikan
file robots.txt adalah file text yang sederhana (bukan HTML), yang harus di tempatkan di root web misalnyahttp://www.kadung.com/robots.txt
bagaimana membuat file robots.txtseperti di sebutkan di atas bahwa robot.txt adalah file text sederhana, maka isi sebuah file robots.txt hanyalah terdiri dari sebuah catatan, sebuah catatan yang memberikan informasi khusus untuk search engine, setiap catatannya terdiri dari dua bidang yaitu user agent untuk baris pertama dan catatan larangan atau disallow untuk baris ke dua
contoh:User-agent: googlebot
Disallow: /cgi-bin/
Disallow atau larangan yang mewakili semua direktori
contoh:User-agent: googlebot
Disallow: /software
jika Disallow di kosongkan maka search engine dapat mengindek semua halaman yang ada di web anda
User-agent: googlebotDisallow:
bila anda menginginkan semua search engine dapat mengindek web anda maka isilah user-agen:*contoh:
User-agent: *
Disallow: /cgi-bin/
1. jangan menggunakan command di robots.txt misalnya
#awal perintahUser-agent: *
Disallow: /cgi-bin/
#akir perintah
2.jangan mengunakan spasi diawal baris
contoh:User-agent: *
Disallow: /cgi-bin/
contoh:
Disallow: /cgi-bin/
User-agent: *
contoh:
User-agent: *
Disallow: /cgi-bin/ /sofware/ /picture/
contoh:
User-agent: *
Disallow: /cgi-bin/
Disallow: /sofware/
Disallow: /picture/
6.jangan mendaftar semua file dalam satu direktori, jika spider bot ingin mengabaikan file-file di dalam suatu direktori anda tidak perlu mendaftarkan semua file-filenya
contoh:User-agent: *
Disallow: /sofware/handphone.html
Disallow: /sofware/komputer.html
Disallow: /sofware/driver.html
User-agent: *
Disallow: /software/
Tips penggunaan robots.txt yang benar
1. lebih baik memperbolehkan semua search engine dan semua direktori ataupun halaman untuk mengindek web anda
Disallow:
2.jika anda tidak ingin semua search engine mengindek web anda laranganlah root web anda Disallow: /User-agent: *
Disallow: /
http://www.billinghotspot.com/robots.txt
http://www.microsoft.com/robots.txt
http://youtube.com/robots.txt
http://www.ebay.com/robots.txt
http://www.mcanerin.com/en/search-engine/robots-txt.asp
sumber : kadung.com
0 comments:
Post a Comment