Robots.txt dosyası sayesinde web sitenizdeki dosyalardan hangilerinin tarayıcı erişimine açık, hangilerinin kapalı olacağını belirleyebilirsiniz. Eğer wix veya blogger gibi bir site barındırma hizmetinden yararlanıyorsanız, işbu dosyayı doğrudan düzenlemeniz gerekmeyebilir yahut bu düzenleme mümkün olmayabilir. Bu noktada, site barındırma sağlayıcınız arama motorlarına web sayfalarınızın taranıp taranmayacağını belirtmek amacıyla arama ayarları sayfası ya da bir başka araç kullanabilir.
Web sitenize ait sayfalardan birinin arama motorlarından gizlenmesini ya da arama motorları açısından görünür kılmak istiyorsanız, web sitenizin barındığı hizmet sağlayıcısının, web sayfaların arama motorlarındaki görünürlüğünü değiştirme noktasında verdiği talimatları izlemeniz gerekir. Söz konusu talimatlar, özellikle wix veya bloggler gibi site barındırma hizmetlerinden hizmet alan web site sahipleri için geçerlidir. Diğer sitelerin arama motorlarındaki görünürlüğünü değiştirmek içinse robot.txt dosyasına başvurulur.
İnternette yayınlanan bir web sitesinin Google, Yandex gibi arama motoru sonuçlarında üst sıralarda konumlanabilmesi, birçok parametre ve faktörün değerlendirilmesine bağlıdır. Arama motorları tarafından bir web sitesi taranırken ilk olarak robot.txt dosyası taranır. Dolayısıyla, bir web sitesinin gelen performansını ve SEO verimini artırmak için robot.txt dosyasının ne olduğu, nasıl oluşturulacağı ve hangi komut gruplarının ne anlama geldiği bilinmelidir.
Robot.txt dosyasının düzgün biçimde oluşturulamaması halinde, ilgili web sitesinin arama motorları botları tarafından başarıyla taranması ve gerekli değerlendirmelerin yapılması mümkün değildir. Dolayısıyla, işbu dosyanın doğru bir şekilde oluşturulması, tarama ve değerlendirme işlemi açısından son derece önemlidir. Robot.txt dosyası, bir web sitesinin dizininde bulunan ve web sunucularına eklenen son derece basit bir metin dosyasıdır. Bu dosya ile sayesinde web sitenizin hangi bölümlerinin görünmesine izin verileceği belirlenir.
Web sitenizin arama motorları ile ilişkisini kontrol etmek, belirlediğiniz ölçülerde ve sınırlamalarda bir ilişki kurulmasını sağlamak için robot.txt dosyası kullanılır. Burada mühim olan; robotx.txt dosyası içerisinde yer alan komutlar ile web sitenizin amacı arasında uyum olmasıdır. Oldukça önemli fonksiyonları bulunan robot.txt dosyasının oluşturulabilmesi için ileri seviye yazılımcı olmanız ya da bir programlama bilgisine vakıf olmanız şart değildir. Adımları takip ederek kolaylıkla robot.txt dosyası oluşturabilirsiniz.
Robot.txt dosyası ile SEO başarısı arasında sıkı bir ilişki vardır. Bu dosya, arama motoru optimizasyonuna etki eden faktörler arasında yer alır. Bu bakımdan, dosyanın doğru komutlar ile oluşturulması, ilgili web sitenin trafiği, etkileşimi, görünürlüğü ve amaçları açısından son derece verimli sonuçlar verir. Ancak, yanlış oluşturulan robot.txt dosyası nedeniyle web site başarısında gerileme yaşanır. Bu dosya, arama motorlarının web sitenize erişimi açısından sizin belirlediğiniz sınırlamalar koyulması adına oluşturulur.
Robots.txt dosyası; bir web sitenin hangi bölümlerinin arama motorları tarafından indekslenip hangi bölümlerinin indekslenmeyeceğini gösterir metin dosyasıdır. Oldukça işlevsel bir dosya olan robots.txt dosyası sayesinde web site sahibi ya da yöneticisi, web sitenin hangi bölümlerinin kısıtlanacağını kolaylıkla belirleyebilir. Site yöneticileri genellikle şifreli alanlar, özel fotoğraflar ve videolar, yapın süreci devam eden sayfalar, revize edilecek kısımlar gibi çeşitli sebepler dolayısıyla, indeksleme işleminin önüne geçebilir.
Robots.txt dosyası ile SEO (Search Engine Optimization – Arama Motoru Optimizasyonu) arasında sıkı bir ilişki vardır. Bu dosya, arama motoru optimizasyonu açısından da belirli avantajlar sunar. Bu avantajlardan birine örnek vermek gerekirse; robots.txt dosyası sayesinde, web sitede tekrarlanan içeriklerin engellenmesi mümkündür. Web sitenizin belirli bölümleri net bir şekilde belirlenir ve tekrar eden dosyaların arama motoru botlarına gösterilmemesi sağlanır.
Robots.txt dosyası; bu dosyayı oluşturan programlardan yardım alarak robots.txt dosyası oluşturmak ve manuel yöntemlerle robots.txt dosyası oluşturmak şeklinde iki farklı yöntemle oluşturulabilir. İlk yöntem; bu dosyanın otomatik olarak oluşturulabildiği programların kullanılmasıdır. İkinci yöntem ise; dosya oluşturma işleminin manuel yapılması ve kök dizinine eklenmesi şeklinde robots.txt dosyası oluşturulmasıdır. Bu konuda, robots.txt generatör gibi hazır dizinlerden istifade edebilirsiniz.
Web site sahibi/yöneticisi, oluşturacağı robots.txt dosyası için herhangi bir programdan yararlanmak istemiyor, bizzat kendisi oluşturmak istiyorsa; ilk olarak yeni bir metin belgesi açmalı ve metin belgesinin ismini “robots.txt” olarak değiştirmelidir. Söz konusu dosyalarda User – Agent ve Disallow değişkenleri bulunur. Arama motoru botlarının izin durumlarının belirlenmesi için kullanılan komut satırına Disallow; arama motoru adı belirlemek için kullanılan komut satırına ise User – Agent adı verilir.
Robots.txt dosyası oluştururken dikkat etmeniz gereken bazı standartlar vardır. Bu standartlardan en mühim olanı, robots.txt dosyasının site kök dizinine eklenmesidir. Öte yandan, söz konusu dosya ile web sitesinin URL formatlarının aynı olması da dikkat edilmesi gereken bir diğer standarttır. Hazırlanan robots.txt dosyasının UTF – 8 formatında kodlamaya uygun olması ve son olarak, dosya için kullanılan domain uzantısı ile ilgili web sitesine erişim sağlamak amacıyla kullanılan alan adının aynı biçimde düzenlenmesi gerekir.
Bir web sitesinin taranmasının tamamıyla engellenmesi | Kimi hallerde web sitesindeki URL’lerin, taransalar dahi dizine eklenebilecekleri unutulmamalıdır. Burada dikkat edilmesi gereke bir başka önemli husus; burada ifade edilen kural, bazı AdsBot tarayıcılar ile eşleşmez. Söz konusu tarayıcıların adlarının açıkça belirtilmesi şarttır. User-agent: * Disallow: / |
Bir dizin ve içeriğinin taranmasına izin verilmemesi | Tüm bir dizinin taranmasına izin vermemek adına dizin adının sonuna bir öne eğik çizgi eklemeniz gerekir. Bu noktada dikkat etmeniz gereken önemli bir husus bulunur: Gizli içeriğe erişimi engeli koymak adına robots.txt dosyasını kullanmamanız gerekir. Onun yerine uygun kimlik doğrulama yordamını kullanabilirsiniz. Robots.txt dosyasıyla taranmasına izin verilmeyen URL'ler, taranmadan dizine eklenebilir ve robots.txt dosyası başkaları tarafından görüntülenerek gizli içeriğinizin yerinin ortaya çıkmasına sebep olabilir. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
Tek bir tarayıcının erişimine izin verme | Sadece googlebot-news tüm siteyi tarayabilir. User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
Bir tarayıcı haricinde diğer tarayıcıların tamamının erişimine izin verme | Unnecessarybot hariç tüm botlar siteyi tarayabilir. User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
Tek bir web sayfasının taranmasına izin vermeme | Söz gelişi, https://example.com/useless_file.html adresinde yer alan useless_file.html sayfasına ve junk dizininde other_useless_file.html sayfasına izin vermeme. User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
Alt dizin dışında, sitenin taranmasını tamamen engelleme | Tarayıcılar sadece public alt dizinine erişim sağlayabilir. User-agent: * Disallow: / Allow: /public/ |
Google Görseller'den belirli bir görseli engelleme | Miras, dogs.jpg görselinin taranmasını engelleyebilirsiniz. User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
Google Görseller'den sitenizdeki tüm görselleri engelleme | Google, görselleri ve videoları taramadan dizine ekleyemez. User-agent: Googlebot-Image Disallow: / |
Belirli bir türdeki dosyaların taranmasına izin vermeme | Söz gelimi, tüm .gif dosyalarının taranmasını engelleyebilirsiniz. User-agent: Googlebot Disallow: /*.gif$ |
Sitenin tamamının Mediapartners-Google dışındaki tarayıcılar tarafından taranmasına izin vermeme | Bu uygulama ile web sayfalarınızı arama sonuçlarından gizlemeniz mümkün; fakat Mediapartners-Google web tarayıcısının sitenizde ziyaretçilere hangi reklamların gösterileceğini belirlemek amacıyla sayfalarınızı analiz etmesi engellenmez. User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Belirli bir dizeyle biten URL'leri eşleştirmek için * ve $ joker karakterleri kullanın | Söz gelimi, tüm .xls dosyalarının taranmasını engelleyebilirsiniz. User-agent: Googlebot Disallow: /*.xls$ |