Robots.txt Nedir?

Robots.txt nedir, bir web sitesinin kök dizininde bulunan metin tabanlı bir dosyadır. Bu dosya, arama motorlarının (örneğin Google, Bing) ve diğer otomatik tarayıcıların web sitesinin hangi kısımlarına erişebileceğini veya erişemeyeceğini belirlemek için kullanılır. 

robots.txt dosyası nasıl olmalıdır.

Robots.txt Dosyasının Önemi Nedir?

Robots.txt dosyası, arama motoru botlarının web sitenizi indekslemesi ve içeriğinizi tarayabilmesi için önemlidir. Bu dosya sayesinde istenmeyen sayfaların (örneğin, gizli veya yönetici panelleri) arama motorları tarafından görüntülenmesi engellenir. Aynı zamanda web sitesinin sunucu kaynaklarını daha etkili bir şekilde kullanmasına yardımcı olur.

robots.txt önemi google

Önemli Robots.txt Komutları:

    • User-agent: Bu terim, belirli bir web tarayıcısını (örneğin, Googlebot) hedeflemek için kullanılır. Birden fazla User-agent terimi belirleyebilirsiniz.
    • Disallow: Bu terim, belirli bir User-agent için hangi URL veya dizinlere erişimin engelleneceğini belirtir. Yani, bu dizinlere botlar girmeyecek veya indekslemeyecektir.
    • Allow: Bu terim, genel bir Disallow kuralından sapmaya izin vererek belirli bir URL veya dizine erişimi sağlar. Googlebot gibi bazı botlar Allow komutunu destekler.
    • Crawl-delay: Bu terim, tarayıcının sayfa içeriğini yüklemesi ve taraması arasında bir gecikme süresi belirtir. Ancak Googlebot bu komutu genellikle görmezden gelir.
    • Sitemap: Bu terim, web sitesinin XML site haritasının konumunu belirtir. Bu harita, arama motorlarına sitenizin hangi sayfalarını indekslemeleri gerektiğini gösterir.
    • Pattern-matching (Model Eşleştirme): Arama motorları, yıldız (*) ve dolar ($) gibi karakterleri kullanarak URL kalıpları üzerinden tarama talimatları oluşturabilir. Bu şekilde belirli tipteki URL’leri toplu olarak engellemek veya izin vermek mümkündür.

* Direktifi Nedir?

“*” direktifi, robots.txt dosyasında URL’lerin model eşleştirmesi yapılırken kullanılan bir karakterdir. Bu karakter, genellikle bir dizini veya alt dizini ifade etmek için kullanılır. Yani, bir URL içerisinde “*” kullanıldığında, bu karakter yerine herhangi bir metin veya karakter grubu gelebileceği anlamına gelir.

Örnek kullanımlardan biri, bir dizindeki tüm alt dizinleri veya dosyaları engellemek istediğinizde “*” karakterini kullanmaktır. Örneğin:

User-agent: *

Disallow: /gizli/*

Yukarıdaki örnekte, “*” karakteri, “/gizli/” dizininde yer alan tüm alt dizinleri ve dosyaları ifade eder. Böylece “/gizli/alt-dizin/” veya “/gizli/dosya.html” gibi tüm içerikler tarayıcılar tarafından engellenir.

Aynı şekilde “*” karakteri, bir dizindeki belirli bir türdeki dosyaları engellemek istediğinizde de kullanılabilir. Örneğin:

User-agent: *

Disallow: /*.pdf

Bu örnek, tüm PDF dosyalarını engellemek için kullanılır. Yani, “/dosya1.pdf” veya “/alt-dizin/dosya2.pdf” gibi tüm PDF dosyaları tarayıcılar tarafından engellenir.

Bu şekilde “*” karakterini kullanarak URL’lerin model eşleştirmesi yaparak, belirli tipteki veya belirli bir yapıdaki URL’leri grup olarak engellemek veya izin vermek mümkün olur.

$ Direktifi Nedir?

“$” direktifi, URL’lerin model eşleştirmesi yapılırken kullanılan bir karakterdir. Bu karakter, bir URL’nin sonunu ifade etmek için kullanılır. Yani, bir URL içerisinde “$” kullanıldığında, bu karakterin hemen sonrasındaki karakterlerin URL’nin sonuyla tam olarak eşleşmesi gerektiği anlamına gelir.

Bu karakter genellikle özellikle dosya uzantıları veya belirli türdeki dosyaları hedeflemek için kullanılır.

Örnek olarak, aşağıdaki kullanımı ele alalım:

User-agent: *

Disallow: /*.png$

Bu örnekte, “$” karakteri ile biten URL’lerdeki yani PNG uzantılı dosyalardaki tüm içerikler tarayıcılar tarafından engellenir. Örneğin, “/resim.png” veya “/alt-dizin/logo.png” gibi tüm PNG dosyaları engellenecektir.

Benzer şekilde, bir dizindeki belirli bir alt dizini hedeflemek için de kullanılabilir:

User-agent: *

Disallow: /gizli/alt-dizin/$

Bu örnek, “/gizli/alt-dizin/” dizininde yer alan tüm içeriklerin URL’sinin tam olarak “/gizli/alt-dizin/” ile bitmesi gerektiği anlamına gelir.

Robots.txt Allow ve Disallow Nedir?

  • Disallow: Bu komut, tarayıcı botunun belirtilen URL veya dizinlere erişmesini engeller. Örneğin, “Disallow: /gizli/” ifadesi, tarayıcı botunun “site.com/gizli/” dizinine erişmesini engeller.
  • Allow: Bu komut, Disallow kuralının genel bir kuraldan sapmasına izin verir. Örneğin, “Disallow: /” komutu sitenin tamamına erişimi engellerken, “Allow: /icerik/” komutu sadece “/icerik/” dizinine erişime izin verir.

Robots.txt Nasıl Oluşturulur?

Robot.txt oluşturma oldukça kolaydır çünkü metin tabanlı bir dosya olduğu için basit bir metin düzenleyici ile oluşturulabilir. İlk adım olarak web sitenizin kök dizine gidin ve “robots.txt” adında bir dosya oluşturun. Ardından, uygun komutlarla dosyayı düzenleyin. WordPress robots txt oluşturma işlemi için yapmanız gereken tek şey SEO eklentisi olan yoast veya rank math eklentilerini indirebilirsiniz. Daha sonra wordpress robots.txt oluşturma işlemini eklentiler otomatik olarak oluşturacaktır.

Örnek robots.txt dosyası;

User-agent: *

Disallow: /gizli/

Allow: /icerik/

ücretsiz robots.txt oluşturma aracı

Eğer robots.txt dosyasını manuel olarak oluşturmaya karar verdiyeseniz ücretsiz robots.txt oluşturma aracına buradan ulaşabilirsiniz. Dediğimiz gibi bu araçlara gerek kalmadan wordpress sitelerde wordpress robots txt oluşturma işlemini kolayca yapabilirsiniz.

Robots.txt Dosyası Nerede Bulunur?

Robots.txt dosyası, web sitenizin kök dizininde bulunmalıdır. Yani, web sitenizin ana dizininde (örneğin, www.site.com/robots.txt) yer almalıdır.

Robots.txt Test Aracı Nedir?

Dosyanın nasıl işlediğini test etmek için çeşitli araçlar ve test siteleri vardır. Google’ın robots.txt test aracı, sitenizin robots.txt dosyasının nasıl etkilediğini test etmek için kullanışlı bir araçtır.

ücretsiz robots.txt test aracı

SEO Açısından En Faydalı Robots.txt Nedir?

SEO açısından en faydalı robots.txt dosyası, arama motorlarının web sitenizi etkili bir şekilde tarayabilmesini sağlayan ve istenmeyen içeriğin indekslenmesini engelleyen bir dosyadır. Temelde, tüm kamusal içeriğe erişime izin veren ve gizli veya yönetici kısımları engelleyen bir yapı genellikle önerilir. Örnek robots.txt dosyası:

User-agent: *

Disallow: /gizli/

Disallow: /yonetici/

Allow: /

Bu şekilde, arama motorları genel içeriğe erişebilirken gizli ve yönetici bölgelere erişemez. Peki standart “robots.txt nasıl olmalı?” bunun net bir cevabı bulunmamaktadır. Engellemek istediğiniz dosylar, resimler veya sayfalara göre değişmektedir.

Robots.txt Dosyası Kullanımı:

Robots.txt dosyası, web sitenizin ana dizininde bulunan ve arama motoru botlarına hangi sayfaların taranabileceğini ve hangilerinin taranamayacağını belirten bir metin dosyasıdır. Bu dosya, arama motoru botlarının sitenizi tararken takip etmeleri gereken kuralları belirlemenizi sağlar.

Robots.txt Kullanım Örnekleri:

Tüm botlara tüm sayfaları taratmak:

User-agent: *

Disallow:

Tüm botları tamamen engellemek:

User-agent: *

Disallow: /

Sadece belirli bir botun belirli bir dizine erişmesine izin vermek (örneğin Googlebot):

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /

Robots.txt Kullanırken Dikkat Edilmesi Gerekenler:

  • Doğru formatı kullanın: Dosyanızda hatalı bir format veya yanlış kullanımı, botların doğru şekilde anlamasını engelleyebilir.
  • Büyük/küçük harf duyarlılığı: User-agent ve diğer komutlar büyük/küçük harfe duyarlıdır, bu nedenle dikkatli olun.
  • Yanlış kullanım: Yanlış bir kullanım, istenmeyen sayfaların veya dizinlerin indekslenmesine yol açabilir.
  • Gizli içeriğe dikkat edin: Dosyanızda gizli veya hassas bilgileri engellemek yerine, gizliliği daha güvenli yollarla sağlamak daha iyidir.

Google Bot Robots.txt Hata Uyarısı:

Sitenizin tasarımı ve işlevselliği için gerekli olan CSS ve JavaScript kodlarını robots.txt dosyasında engellerseniz, Googlebot’lar sitenizi düzgün bir şekilde taramakta zorluk yaşayabilir. Bu durum, Google’ın sitenizin içeriğini anlamasını ve dizine eklemesini etkileyebilir. Özellikle ana sayfanızda bu tür kısıtlamalar bulunuyorsa, Google sistemleri bu konuda bir sorun tespit ettiğinde sizi uyarabilir.

Googlebot’ların CSS ve JavaScript dosyalarına erişimine izin vermek, sitenizin doğru bir şekilde çalıştığını ve içeriğin düzgün bir şekilde görüntülendiğini anlamalarına yardımcı olur. Bu nedenle bu dosyaları engellemek, sitenizin sıralamasının istenilen şekilde oluşmasını zorlaştırabilir.

Subdomaini Robots.txt Tarafından Engelleme:

Eğer ana alan adınızın robots.txt dosyasında bir dizini engellerseniz, bu aynı zamanda alt alan adlarını da etkileyebilir. Subdomain’leri ayrı ayrı kontrol etmek isterseniz, onlar için ayrı bir dosya oluşturabilirsiniz.

Arama Sonuçlarında WordPress Dosya İçeriklerim Yer Alıyor:

Eğer arama sonuçlarında WordPress dosya içerikleriniz görünüyorsa, bu sitenizin güvenliği açısından sorun teşkil edebilir. Bu tür dizinleri ve dosyaları engellemek için robots.txt dosyanıza eklemeler yapabilirsiniz.

Nasıl Engellerim?

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/plugins/

Disallow: /wp-content/themes/

Disallow: /readme.html

Disallow: /license.txt

Yeni Açacağım Sitede Robots.txt ile Index Almasını Engelleme Zararlı mı?

Yeni bir site açarken, genellikle sitenin arama motorları tarafından taranmasını ve indekslenmesini istersiniz. Ancak geliştirme aşamasında veya sitenizi hazırlarken, tamamlanmamış veya hatalı sayfaların indekslenmesini engellemek için geçici olarak robots.txt ile index almasını engelleyebilirsiniz. Bu durumu unutmamalısınız. Dosyayı, düzeltilmiş bir şekilde güncellendiğinde, tamamen yayına hazır olması önemli.

Robots.txt ve Sitemap.xml Sitemde Görünmüyor:

Robots.txt ve sitemap.xml dosyaları web sitenizin ana dizininde bulunmalıdır. Eğer bu dosyalar arama motorları tarafından görünmüyorsa, dosyaların doğru yerde olduğundan emin olmalısınız. Bu dosyayı herkese açık erişime izin vermeniz gerekiyor; aksi takdirde arama motorları bu dosyalara erişemez. Bu yazımızda sizlere “robots.txt nedir” sorusunun cevabını verdik. Okuduğunuz için teşekkür ederim.

Yorum bırakın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir