Robots.txt Dosyası Nedir?
Robots.txt nedir, bir web sitesinin kök dizininde bulunan metin tabanlı bir dosyadır. Bu dosya, arama motorlarının (örneğin Google, Bing) ve diğer otomatik tarayıcıların web sitesinin hangi kısımlarına erişebileceğini veya erişemeyeceğini belirlemek için kullanılır.
İçindekiler
Robots.txt Dosyasının Önemi Nedir?
Robots.txt dosyası, arama motoru botlarının web sitenizi indekslemesi ve içeriğinizi tarayabilmesi için önemlidir. Bu dosya sayesinde istenmeyen sayfaların (örneğin, gizli veya yönetici panelleri) arama motorları tarafından görüntülenmesi engellenebilir. Aynı zamanda web sitesinin sunucu kaynaklarını daha etkili bir şekilde kullanmasına yardımcı olabilir.
Önemli Robots.txt Komutları:
-
- User-agent: Bu terim, belirli bir web tarayıcısını (örneğin, Googlebot) hedeflemek için kullanılır. Birden fazla User-agent terimi belirleyebilirsiniz.
- Disallow: Bu terim, belirli bir User-agent için hangi URL veya dizinlere erişimin engelleneceğini belirtir. Yani, bu dizinlere botlar girmeyecek veya indekslemeyecektir.
- Allow: Bu terim, genel bir Disallow kuralından sapmaya izin vererek belirli bir URL veya dizine erişimi sağlar. Googlebot gibi bazı botlar Allow komutunu destekler.
- Crawl-delay: Bu terim, tarayıcının sayfa içeriğini yüklemesi ve taraması arasında bir gecikme süresi belirtir. Ancak Googlebot bu komutu genellikle görmezden gelir.
- Sitemap: Bu terim, web sitesinin XML site haritasının konumunu belirtir. Bu harita, arama motorlarına sitenizin hangi sayfalarını indekslemeleri gerektiğini gösterir.
- Pattern-matching (Model Eşleştirme): Arama motorları, yıldız (*) ve dolar ($) gibi karakterleri kullanarak URL kalıpları üzerinden tarama talimatları oluşturabilir. Bu şekilde belirli tipteki URL’leri toplu olarak engellemek veya izin vermek mümkündür.
* Direktifi Nedir?
“*” direktifi, robots.txt dosyasında URL’lerin model eşleştirmesi yapılırken kullanılan bir karakterdir. Bu karakter, genellikle bir dizini veya alt dizini ifade etmek için kullanılır. Yani, bir URL içerisinde “*” kullanıldığında, bu karakter yerine herhangi bir metin veya karakter grubu gelebileceği anlamına gelir.
Örnek kullanımlardan biri, bir dizindeki tüm alt dizinleri veya dosyaları engellemek istediğinizde “*” karakterini kullanmaktır. Örneğin:
User-agent: *
Disallow: /gizli/*
Yukarıdaki örnekte, “*” karakteri, “/gizli/” dizininde yer alan tüm alt dizinleri ve dosyaları ifade eder. Böylece “/gizli/alt-dizin/” veya “/gizli/dosya.html” gibi tüm içerikler tarayıcılar tarafından engellenir.
Aynı şekilde “*” karakteri, bir dizindeki belirli bir türdeki dosyaları engellemek istediğinizde de kullanılabilir. Örneğin:
User-agent: *
Disallow: /*.pdf
Bu örnek, tüm PDF dosyalarını engellemek için kullanılır. Yani, “/dosya1.pdf” veya “/alt-dizin/dosya2.pdf” gibi tüm PDF dosyaları tarayıcılar tarafından engellenir.
Bu şekilde “*” karakterini kullanarak URL’lerin model eşleştirmesi yaparak, belirli tipteki veya belirli bir yapıdaki URL’leri grup olarak engellemek veya izin vermek mümkün olur.
$ Direktifi Nedir?
“$” direktifi, robots.txt dosyasında URL’lerin model eşleştirmesi yapılırken kullanılan bir karakterdir. Bu karakter, bir URL’nin sonunu ifade etmek için kullanılır. Yani, bir URL içerisinde “$” kullanıldığında, bu karakterin hemen sonrasındaki karakterlerin URL’nin sonuyla tam olarak eşleşmesi gerektiği anlamına gelir.
Bu karakter genellikle özellikle dosya uzantıları veya belirli türdeki dosyaları hedeflemek için kullanılır.
Örnek olarak, aşağıdaki kullanımı ele alalım:
User-agent: *
Disallow: /*.png$
Bu örnekte, “$” karakteri ile biten URL’lerdeki yani PNG uzantılı dosyalardaki tüm içerikler tarayıcılar tarafından engellenir. Örneğin, “/resim.png” veya “/alt-dizin/logo.png” gibi tüm PNG dosyaları engellenecektir.
Benzer şekilde, bir dizindeki belirli bir alt dizini hedeflemek için de kullanılabilir:
User-agent: *
Disallow: /gizli/alt-dizin/$
Bu örnek, “/gizli/alt-dizin/” dizininde yer alan tüm içeriklerin URL’sinin tam olarak “/gizli/alt-dizin/” ile bitmesi gerektiği anlamına gelir.
“$” direktifi, robots.txt dosyasında model eşleştirmesi yaparken daha spesifik kısımları hedeflemek için kullanılan önemli bir karakterdir.
Robots.txt Allow ve Disallow Nedir?
- Disallow: Bu komut, tarayıcı botunun belirtilen URL veya dizinlere erişmesini engeller. Örneğin, “Disallow: /gizli/” ifadesi, tarayıcı botunun “site.com/gizli/” dizinine erişmesini engeller.
- Allow: Bu komut, Disallow kuralının genel bir kuraldan sapmasına izin verir. Örneğin, “Disallow: /” komutu sitenin tamamına erişimi engellerken, “Allow: /icerik/” komutu sadece “/icerik/” dizinine erişime izin verir.
Robots.txt Nasıl Oluşturulur?
Robots.txt dosyası metin tabanlı bir dosya olduğu için basit bir metin düzenleyici ile oluşturulabilir. İlk adım olarak web sitenizin kök dizinine gidin ve “robots.txt” adında bir dosya oluşturun. Ardından, uygun komutlarla dosyayı düzenleyin.
Örnek bir robots.txt dosyası:
User-agent: *
Disallow: /gizli/
Allow: /icerik/
Ücretsiz robots.txt oluşturma aracına buradan ulaşabilirsiniz.
Robots.txt Dosyası Nerede Bulunur?
Robots.txt dosyası, web sitenizin kök dizininde bulunmalıdır. Yani, web sitenizin ana dizininde (örneğin, www.site.com/robots.txt) yer almalıdır.
Robots.txt Test Aracı Nedir?
Robots.txt dosyasının nasıl işlediğini test etmek için çeşitli araçlar ve test siteleri vardır. Google’ın robots.txt test aracı, sitenizin robots.txt dosyasının nasıl etkilediğini test etmek için kullanışlı bir araçtır.
SEO Açısından En Faydalı Robots.txt Nedir?
SEO açısından en faydalı robots.txt dosyası, arama motorlarının web sitenizi etkili bir şekilde tarayabilmesini sağlayan ve istenmeyen içeriğin indekslenmesini engelleyen bir dosyadır. Temelde, tüm kamusal içeriğe erişime izin veren ve gizli veya yönetici kısımları engelleyen bir yapı genellikle önerilir. Örnek robots.txt:
User-agent: *
Disallow: /gizli/
Disallow: /yonetici/
Allow: /
Bu şekilde, arama motorları genel içeriğe erişebilirken gizli ve yönetici bölgelere erişemez. Peki standart “robots.txt nasıl olmalı?” bunun net bir cevabı bulunmamaktadır. Engellemek istediğiniz dosylar, resimler veya sayfalara göre değişmektedir.
Robots.txt Dosyası Kullanımı:
Robots.txt dosyası, web sitenizin ana dizininde bulunan ve arama motoru botlarına hangi sayfaların taranabileceğini ve hangilerinin taranamayacağını belirten bir metin dosyasıdır. Bu dosya, arama motoru botlarının sitenizi tararken takip etmeleri gereken kuralları belirlemenizi sağlar.
Robots.txt Kullanım Örnekleri:
Tüm botlara tüm sayfaları taratmak:
User-agent: *
Disallow:
Tüm botları tamamen engellemek:
User-agent: *
Disallow: /
Sadece belirli bir botun belirli bir dizine erişmesine izin vermek (örneğin Googlebot):
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Robots.txt Kullanırken Dikkat Edilmesi Gerekenler:
- Doğru formatı kullanın: Robots.txt dosyasında hatalı bir format veya yanlış kullanmak, botların doğru şekilde anlamasını engelleyebilir.
- Büyük/küçük harf duyarlılığı: User-agent ve diğer komutlar büyük/küçük harfe duyarlıdır, bu nedenle dikkatli olun.
- Yanlış kullanım: Yanlış bir robots.txt kullanımı, istenmeyen sayfaların veya dizinlerin indekslenmesine yol açabilir.
- Gizli içeriğe dikkat edin: Robots.txt dosyasında gizli veya hassas bilgileri engellemek yerine, gizliliği daha güvenli yollarla sağlamak daha iyidir.
Google Bot Robots.txt Hata Uyarısı:
Eğer sitenizin tasarımı ve işlevselliği için gereken CSS ve JavaScript kodlarını robots.txt dosyasında engellerseniz, Googlebot’lar sitenizi düzgün bir şekilde taramakta zorluk yaşayabilir. Bu, Google’ın sitenizin içeriğini anlamasını ve dizine eklemesini etkileyebilir. Özellikle ana sayfanızda bu kısıtlamalar varsa, Google sistemleri yakın zamanda bu konuda bir sorun tespit ettiğinde size uyarı verebilir.
Googlebot’ların CSS ve JavaScript dosyalarına erişimine izin vermek, sitenizin doğru bir şekilde çalıştığını ve içeriğin düzgün bir şekilde görüntülendiğini anlamalarına yardımcı olur. Bu nedenle bu dosyaları engellemek, sitenizin sıralamasının istenilen şekilde oluşmasını zorlaştırabilir.
Subdomaini Robots.txt Tarafından Engelleme:
Eğer ana alan adınızın robots.txt dosyasında bir dizini engellerseniz, bu aynı zamanda alt alan adlarını da etkileyebilir. Subdomain’leri ayrı ayrı kontrol etmek isterseniz, onlar için ayrı bir robots.txt dosyası oluşturabilirsiniz.
Arama Sonuçlarında WordPress Dosya İçeriklerim Yer Alıyor:
Eğer arama sonuçlarında WordPress dosya içerikleriniz görünüyorsa, bu sitenizin güvenliği açısından sorun teşkil edebilir. WordPress dosya içeriklerinin gizliliğini korumak için robots.txt dosyasında bu tür dizinleri ve dosyaları engelleyebilirsiniz.
Nasıl Engellerim?
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /readme.html
Disallow: /license.txt
Yeni Açacağım Sitede Robots.txt ile Index Almasını Engelleme Zararlı mı?
Yeni bir site açarken, genellikle sitenin arama motorları tarafından taranmasını ve indekslenmesini istersiniz. Ancak geliştirme aşamasında veya sitenizi hazırlarken, tamamlanmamış veya hatalı sayfaların indekslenmesini engellemek için geçici olarak robots.txt ile index almasını engelleyebilirsiniz. Ancak bu durumu unutmamanız ve tamamen yayına hazır olduğunda robots.txt dosyasını düzeltilmiş bir şekilde güncellemeniz önemlidir.
Robots.txt ve Sitemap.xml Sitemde Görünmüyor:
Robots.txt ve sitemap.xml dosyaları web sitenizin ana dizininde bulunmalıdır. Eğer bu dosyalar arama motorları tarafından görünmüyorsa, dosyaların doğru yerde olduğundan emin olmalısınız. Ayrıca bu dosyaların herkese açık erişime izin verildiğinden emin olmalısınız, aksi takdirde arama motorları bu dosyalara erişemeyebilir.