Örümcek ve Web Tarayıcılarının Tanımı

Örümcekler ve Web Tarayıcıları: Web Sitesi Verilerini Korumak İçin Bilmeniz Gerekenler

Örümcekler, veri arayan Web üzerinden 'taranan' programlar (veya otomatik komut dosyaları). Örümcekler, web sitesi URL'leri aracılığıyla seyahat eder ve e-posta adresleri gibi web sayfalarından veri alabilir. Örümcekler ayrıca web sitelerinde bulunan bilgileri arama motorlarına beslemek için kullanılır.

'Web tarayıcıları' olarak da adlandırılan örümcekler, Web’de arama yaparlar ve herkes kendi amaçlarına uygun değildir.

Spammers Spider Websiteleri Bilgi Toplayacak

Google, Yahoo!

ve diğer arama motorları, web sitelerini taramakla ilgilenenler değil, aynı zamanda scammers ve spam gönderenlerdir.

Örümcekler ve diğer otomatik araçlar, spam gönderenler tarafından web sitelerinde e-posta adresleri (bu uygulamada genellikle 'hasat' olarak adlandırılır) bulmak için kullanılır ve ardından spam listeleri oluşturmak için bunları kullanır.

Örümcekler ayrıca, web siteniz hakkında daha fazla bilgi edinmek için arama motorları tarafından kullanılan ancak kontrol edilmeden bırakılan bir araçtır. Sitenizi nasıl tarayacağınıza ilişkin bir web sitesi (veya 'izinler') önemli bilgi güvenliği riskleri sunabilir. Örümcekler bağlantıları takip ederek seyahat ederler ve veritabanlarına, program dosyalarına ve erişim sahibi olmalarını istemeyeceğiniz diğer bilgilere bağlantılar bulma konusunda oldukça beceriklidirler.

Web yöneticileri, örümceklerin ve diğer robotların sitelerini ziyaret ettiklerini görmek için günlükleri görüntüleyebilir. Bu bilgi, web yöneticilerinin sitelerini kimin endekslediğini ve ne sıklıkta olduğunu bilmesine yardımcı olur.

Bu bilgi yararlıdır çünkü web yöneticilerinin SEO'larını ince ayar yapmasına ve belirli robotların gelecekte sitelerini taramasını engellemek için robot.txt dosyalarını güncellemelerine izin verir.

Web Sitenizi İstenmeyen Robot Tarayıcılarından Korumaya İlişkin İpuçları

İstenmeyen tarayıcıları web sitenizden uzak tutmak için oldukça basit bir yol var. Sitenizi tarayan kötü amaçlı örümcekler hakkında endişe duymasanız bile (e-posta adreslerinin sizi çoğu tarayıcıdan korumaz), yine de arama motorlarına önemli talimatlar vermeniz gerekir.

Tüm web sitelerinin, robots.txt dosyası olarak adlandırılan kök dizinde bulunan bir dosya olması gerekir. Bu dosya, web tarayıcılarına, bir arama motoruysa, dizin sayfalarına (belirli bir sayfanın meta verisinde aksi belirtilmedikçe, indekslenmeyecek şekilde) bakmasını istediğiniz yere yönlendirmenizi sağlar.

Tarayıcılara göz atmak istediğiniz yeri istediğinizi söyleyebildiğiniz gibi, onlara nereye gitmeyeceklerini hatta web sitenizdeki belirli tarayıcıları da engelleyebilirsiniz.

Robots.txt dosyasının iyi bir araya getirilmesinin arama motorları için muazzam bir değere sahip olacağını ve web sitenizin performansını iyileştirmede önemli bir unsur olabileceğini akılda tutmak önemlidir, ancak bazı robot tarayıcılar talimatlarınızı hala görmezden gelecektir. Bu nedenle, tüm yazılımlarınızı, eklentilerinizi ve uygulamalarınızı her zaman güncel tutmak önemlidir.

İlgili Makaleler ve Bilgi

Kötü amaçlı (spam) amaçlarla kullanılan bilgi toplama yaygınlığı nedeniyle, bazı uygulamaların yasa dışı hale getirilmesi için 2003 yılında yasa çıkarılmıştır. Bu tüketici koruma yasaları 2003 yılı CAN-SPAM Yasası kapsamındadır.

İşiniz, herhangi bir toplu posta veya bilgi toplama işleminde bulunuyorsa, CAN-SPAM Yasası'nı okumak için zaman ayırmanız önemlidir.

Anti-spam yasaları ve spam gönderenlerle nasıl baş edeceğiniz ve işletme sahibi olarak yapamayacağınız aşağıdaki makaleleri okuyarak daha fazla bilgi edinebilirsiniz: