Monday, July 20, 2009

Robot.txt: bagian penting dari manajemen web


robots.txt adalah file yang sangat penting jika suatu web ingin mudah di index oleh search engine, ketika search engine crawler datang di web kita, maka dia akan mencari file khusus yaitu file yang bernama robots.txt dan memberitahukan search engine spider bahwa halaman web tersebut harus di index atau di abaikan

file robots.txt adalah file text yang sederhana (bukan HTML), yang harus di tempatkan di root web misalnya

http://www.kadung.com/robots.txt

bagaimana membuat file robots.txt

seperti di sebutkan di atas bahwa robot.txt adalah file text sederhana, maka isi sebuah file robots.txt hanyalah terdiri dari sebuah catatan, sebuah catatan yang memberikan informasi khusus untuk search engine, setiap catatannya terdiri dari dua bidang yaitu user agent untuk baris pertama dan catatan larangan atau disallow untuk baris ke dua

contoh:

User-agent: googlebot
Disallow: /cgi-bin/

yang di maksut user agen googlebot, hanya bot search engine google ajah yang di perbolehkan untuk mengambil setiap halaman dari web kecuali direktori /cgi-bin/ karena Disallow: /cgi-bin/ maka semua file yang berada di cgi-bin akan di abaikan oleh googlebot.

Disallow atau larangan yang mewakili semua direktori

contoh:

User-agent: googlebot
Disallow: /software

maka semua direktori yang menggunakan awalan sofware tidak akan di indek oleh google misalnya /software-hp/index.html atau /software-linux/index.php bahkan /software/default.asp tidak akan di indek oleh google bot.

jika Disallow di kosongkan maka search engine dapat mengindek semua halaman yang ada di web anda

User-agent: googlebot

Disallow:

bila anda menginginkan semua search engine dapat mengindek web anda maka isilah user-agen:*

contoh:

User-agent: *

Disallow: /cgi-bin/

jika file robots.txt anda penulisannya salah maka web anda tidak akan diindex oleh search engine maka ada beberapa yang harus di hindari misalnya

1. jangan menggunakan command di robots.txt misalnya

#awal perintah

User-agent: *
Disallow: /cgi-bin/

#akir perintah

meskipun command diperbolehkan di robots.txt, kemungkinan akan dapat kerancuan pembacaan search engine spiders

2.jangan mengunakan spasi diawal baris

contoh:

User-agent: *
Disallow: /cgi-bin/

3.jangan mengubah urutan perintah

contoh:
Disallow: /cgi-bin/
User-agent: *

4.jangan mengunakan lebih dari satu direktori di Disallow

contoh:

User-agent: *
Disallow: /cgi-bin/ /sofware/ /picture/

karena spider bot tidak dapat memahami format, jika ingin melarang banyak direktori yang benar seperti ini

contoh:

User-agent: *
Disallow: /cgi-bin/
Disallow: /sofware/
Disallow: /picture/

5.pastikan penulisan direktori anda benar karena Case sensitive jika anda mempunyai direktory “software” tapi penulisan anda “SoftWare” maka direktori “software” akan tetap di index search engine

6.jangan mendaftar semua file dalam satu direktori, jika spider bot ingin mengabaikan file-file di dalam suatu direktori anda tidak perlu mendaftarkan semua file-filenya

contoh:

User-agent: *

Disallow: /sofware/handphone.html

Disallow: /sofware/komputer.html

Disallow: /sofware/driver.html

cukup dengan

User-agent: *
Disallow: /software/

7.jangan mengunakan perintah “allow” di dalam robots.txt, cukup di robot.txt hanya menggunakan “Disallow” saja untuk sebuah direktori atau halaman yang tidak ingin di index, sisanya semua otomatis akan di indek di web anda

Tips penggunaan robots.txt yang benar

1. lebih baik memperbolehkan semua search engine dan semua direktori ataupun halaman untuk mengindek web anda

User-agent: *

Disallow:

2.jika anda tidak ingin semua search engine mengindek web anda laranganlah root web anda Disallow: /

User-agent: *
Disallow: /

3.contohlah robots.txt web-web yang sudah besar jika anda ingin melihat contoh yang lebih komplek seperti

http://www.billinghotspot.com/robots.txt

http://www.microsoft.com/robots.txt

http://youtube.com/robots.txt

http://www.ebay.com/robots.txt

http://www.mcanerin.com/en/search-engine/robots-txt.asp

web anda haruslah memiliki sebuah file robot.txt yang tepat jika anda ingin web anda memiliki peringkat yang baik di search engine, jika search engine tahu apa yang ingin dilakukan dengan web anda, maka mereka akan memberikan peringkat di search engine lebih baik.

sumber : kadung.com

0 comments:

Post a Comment

 

Hello

My Blog List

My Blog List

Tranbisnis Info © 2009