Semalt Memberi Petua Cara Menangani Bot, Labah-labah Dan Perayap

Selain membuat URL mesra mesin pencari , fail .htaccess membolehkan webmaster menyekat bot tertentu daripada mengakses laman web mereka. Salah satu cara untuk menyekat robot ini adalah melalui fail robots.txt. Walau bagaimanapun, Ross Barber, Pengurus Kejayaan Pelanggan Semalt , menyatakan bahawa dia telah melihat beberapa perayap mengabaikan permintaan ini. Salah satu kaedah terbaik adalah menggunakan fail .htaccess untuk menghentikan mereka mengindeks kandungan anda.

Bot apa ini?

Mereka adalah jenis perisian yang digunakan oleh mesin pencari untuk menghapus kandungan baru dari internet untuk tujuan pengindeksan.

Mereka melakukan tugas berikut:

  • Lawati laman web yang telah anda pautkan
  • Periksa kod HTML anda untuk kesilapan
  • Mereka menyimpan halaman web yang anda pautkan dan melihat halaman web apa yang dipautkan ke kandungan anda
  • Mereka mengindeks kandungan anda

Walau bagaimanapun, beberapa bot berniat jahat dan mencari di alamat e-mel dan borang yang biasanya digunakan untuk menghantar mesej atau spam yang tidak diingini kepada anda. Yang lain malah mencari celah keselamatan dalam kod anda.

Apa yang diperlukan untuk menyekat perayap web?

Sebelum menggunakan fail .htaccess, anda perlu memeriksa perkara berikut:

1. Laman web anda mesti dijalankan pada pelayan Apache. Pada masa kini, walaupun syarikat web hosting yang separuh layak dalam pekerjaan mereka, memberi anda akses ke fail yang diperlukan.

2. Anda seharusnya mempunyai akses ke log pelayan mentah laman web anda sehingga anda dapat mencari bot apa yang telah dikunjungi di laman web anda.

Perhatikan bahawa tidak mungkin anda dapat menyekat semua bot berbahaya melainkan anda menyekat semua bot tersebut, bahkan yang anda anggap bermanfaat. Bot baru muncul setiap hari, dan yang lebih lama diubah suai. Cara yang paling berkesan adalah dengan melindungi kod anda dan menyulitkan bot untuk menghantar spam kepada anda.

Mengenal pasti bot

Bot boleh dikenal pasti dengan alamat IP atau dari "User Agent String" mereka, yang mereka kirimkan dalam tajuk HTTP. Contohnya, Google menggunakan "Googlebot."

Anda mungkin memerlukan senarai ini dengan 302 bot jika anda sudah mempunyai nama bot yang ingin anda hindari menggunakan .htaccess

Cara lain adalah dengan memuat turun semua fail log dari pelayan dan membukanya menggunakan penyunting teks. Lokasi mereka di pelayan boleh berubah bergantung pada konfigurasi pelayan anda. Sekiranya anda tidak dapat menjumpainya, dapatkan bantuan daripada hos web anda.

Sekiranya anda mengetahui halaman apa yang dikunjungi, atau waktu lawatan, lebih mudah untuk datang dengan bot yang tidak diingini. Anda boleh mencari fail log dengan parameter ini.

Sekali, anda telah mengetahui bot mana yang perlu anda sekat; anda kemudian boleh memasukkannya ke dalam fail .htaccess. Harap maklum bahawa menyekat bot tidak cukup untuk menghentikannya. Ia mungkin kembali dengan IP atau nama baru.

Cara menghalangnya

Muat turun salinan fail .htaccess. Buat sandaran sekiranya diperlukan.

Kaedah 1: menyekat oleh IP

Coretan kod ini menyekat bot menggunakan alamat IP 197.0.0.1

Pesanan Tolak, Benarkan

Tolak dari 197.0.0.1

Baris pertama bermaksud bahawa pelayan akan menyekat semua permintaan yang sesuai dengan corak yang telah anda tentukan dan membenarkan semua yang lain.

Baris kedua memberitahu pelayan untuk mengeluarkan halaman 403: dilarang

Kaedah 2: Menyekat oleh ejen Pengguna

Cara termudah adalah dengan menggunakan mesin tulis semula Apache

Tulis semula Enjin Hidup

Tulis semula%% {HTTP_USER_AGENT} BotUserAgent

Tulis semula Peraturan. - [F, L]

Baris pertama memastikan bahawa modul penulisan semula diaktifkan. Baris dua adalah syarat yang digunakan oleh peraturan. "F" dalam baris 4 memberitahu pelayan untuk mengembalikan 403: Dilarang sementara "L" bermaksud ini adalah peraturan terakhir.

Anda kemudian akan memuat naik fail .htaccess ke pelayan anda dan menimpa fail yang ada. Dengan masa, anda perlu mengemas kini IP bot. Sekiranya anda membuat kesalahan, muat naik sandaran yang anda buat.

mass gmail