yazikusagi.com

Robotlar, Örümcekler ve Tarayıcılar Nedir?

Bir robotun, örümceğin veya tarayıcının, bu sayfalardaki bağlantılara bağlı olarak bir web sayfasından diğerine geçmek ve sayfaları tarayıp internete aktarmak üzere programlanmış bir yazılım parçası olduğu konusunda genel bir anlayışa sahip olmalısınız. Örümcek ve robotlar ise internette gezinirken, web sitelerinden içerik (metin ve bağlantılar gibi) toplar ve bunları arama motoru algoritmasına göre indekslenen ve sıralanan bir veritabanına kaydeden yazılımlardır. Aslında örümcek ve robot benzer işleri yapar. O yüzden örümcek dediğimizde robotları da kastettiğimizi anlamanız gerekir.

Örümcek ve Robotlar Nasıl Çalışır?

Bir örümcek ilk kez işleme başladığında, genellikle birkaç web sitesiyle başlatılır veya bu sitelerden sadece birinde çalışmaya başlar. Bu ilk sitede yaptığı ilk şey, sayfadaki bağlantılara dikkat etmektir. Ardından metni okur ve daha önce topladığı bağlantıları takip etmeye başlar. Bu bağlantılar ağına tarama sınırı adı verilir; örümceğin son derece sistematik bir şekilde keşfetmekte olduğu bölgedir. Tarama sınırındaki bağlantılar bazen örümceği aynı web sitesindeki diğer sayfalara götürür, bazen de siteden tamamen uzaklaştırır. Örümcek, çıkmaz bir noktaya ulaşıncaya kadar bağlantıları takip edecek ve ardından geri dönecek ve bir sayfadaki her bağlantı izlenene kadar işleme yeniden başlayacaktır. Aşağıdaki şekil bir örümceğin alabileceği yolu göstermektedir.

Örümceğin internette izlediği yol

Tarayıcı Nasıl Çalışır?

Tarayıcı bir siteyi incelemeye başladığında gerçekte ne olduğu hep merak edilir. Bu bir siteyi okumaktan biraz daha karmaşıktır. Tarayıcı, web sitesinin bulunduğu web sunucusuna, gözden geçirdiğiniz sayfaları istediğiniz şekilde kendisine teslim edilmesini talep eden bir istek gönderir. Tarayıcınızın gördüğü ile örümceklerin gördüğü şeylerin arasındaki fark, tarayıcının sayfaları salt metin arayüzünde görüntülemesidir. Grafikler veya diğer medya dosyası türleri görüntülenmez. Hepsi metin ve HTML olarak kodlanmıştır. Bu yüzden bir web sayfasının kaynak kodları size anlamsız gibi görünebilir.

Tarayıcı, herhangi bir zamanda istemek üzere programlandığı kadar çok veya az sayfa isteyebilir. Bu bazen aynı anda düzinelerce içerik sayfası sunmaya hazır olmayan web sitelerinde sorunlara neden olabilir. İstekler siteyi aşırı yükleyip çökmesine neden olur veya bir web sitesine gelen trafiği önemli ölçüde yavaşlatabilir ve hatta isteklerin çok yavaş yerine getirilmesine ve tarayıcının pes edip çalışmayı durdurmasına bile mümkündür.

Gördüğünüz gibi, tarayıcı site ziyaretçilerinin sahip olduğu aynı toleransa ve sabra sahip olacak şekilde programlanmıştır. Bu nedenle, site ziyaretçileriniz bir sayfanın yüklenmesi için üç saniye beklemeye istekliyse ve bu ziyaretçiler çok sabırlı ziyaretçiler olarak kabul ediliyorsa, o zaman tarayıcı da muhtemelen sabırla sayfanın yüklenmesini bekleyecektir. Bu süreden sonra, tarayıcı ya sayfayı açmayacak ve hata verecektir veya çalışmayı durdurup sizin onu zorla kapatmanıza yol açacak bir döngüye girecektir.

Tarayıcı çalışmayı durdurmadan önce görevi tekrar denemek için bekleyebilir veya tamamen vazgeçmeden önce isteği web sunucusuna birkaç kez gönderebilir. Ancak siteniz web tarayıcılarına geç cevap vermeyi alışkanlık haline getirmişse, bir başka deyişle siz, sayfanızın kaynak kodlarını düzgün yazmadıysanız veya sunduğunuz içeriklerde aşırı derecede büyük boyutlu ve düzgün görüntülemede sorun çıkaran görsel, video gibi ögeleri kullandıysanız örümcekler bunu tespit edecek, tarayıcıların bekleme süresini de dikkate alarak arama motorları tarafından cezalandırılmanıza, böylece arama sonuçlarında gerilere düşmenize yol açacaklardır.


Yorumlar