หนึ่งในเครื่องมือสำหรับจัดการการจัดทำดัชนีของไซต์โดยเครื่องมือค้นหาคือไฟล์ robots.txt ส่วนใหญ่จะใช้เพื่อป้องกันไม่ให้โรบ็อตบางส่วนหรือทั้งหมดดาวน์โหลดเนื้อหาของกลุ่มเพจบางกลุ่ม วิธีนี้ช่วยให้คุณกำจัด "ขยะ" ในผลลัพธ์ของเครื่องมือค้นหา และในบางกรณี ปรับปรุงการจัดอันดับของทรัพยากรอย่างมาก สิ่งสำคัญคือต้องมีไฟล์ robots.txt ที่ถูกต้องสำหรับการสมัครที่ประสบความสำเร็จ
จำเป็น
โปรแกรมแก้ไขข้อความ
คำแนะนำ
ขั้นตอนที่ 1
ทำรายการโรบ็อตที่จะตั้งค่ากฎการยกเว้นพิเศษหรือคำสั่งของมาตรฐาน robots.txt แบบขยาย รวมถึงคำสั่งที่ไม่ได้มาตรฐานและเฉพาะเจาะจง (ส่วนขยายของเครื่องมือค้นหาเฉพาะ) ป้อนค่าของฟิลด์ User-Agent ของส่วนหัวคำขอ HTTP ที่ส่งโดยโรบ็อตที่เลือกไปยังเซิร์ฟเวอร์ของไซต์ลงในรายการนี้ ชื่อของโรบ็อตยังสามารถพบได้ในส่วนอ้างอิงของเว็บไซต์เครื่องมือค้นหา
ขั้นตอนที่ 2
เลือกกลุ่มของ URL ของทรัพยากรไซต์ที่โรบ็อตแต่ละตัวควรปฏิเสธการเข้าถึงในรายการที่คอมไพล์ในขั้นตอนแรก ดำเนินการแบบเดียวกันสำหรับโรบ็อตอื่นๆ ทั้งหมด (ชุดบ็อตการจัดทำดัชนีที่ไม่มีกำหนด) กล่าวอีกนัยหนึ่ง ผลลัพธ์ควรเป็นรายการหลายรายการที่มีลิงก์ไปยังส่วนต่างๆ ของไซต์ กลุ่มของหน้า หรือแหล่งที่มาของเนื้อหาสื่อที่ห้ามไม่ให้สร้างดัชนี แต่ละรายการจะต้องสอดคล้องกับหุ่นยนต์ตัวอื่น ควรมีรายการ URL ต้องห้ามสำหรับบอทอื่น ๆ ทั้งหมด สร้างรายการตามการเปรียบเทียบโครงสร้างเชิงตรรกะของไซต์กับตำแหน่งทางกายภาพของข้อมูลบนเซิร์ฟเวอร์ตลอดจนการจัดกลุ่ม URL ของหน้าตาม ลักษณะการทำงานของพวกเขา ตัวอย่างเช่น คุณสามารถรวมเนื้อหาของแค็ตตาล็อกบริการ (จัดกลุ่มตามสถานที่) หรือหน้าโปรไฟล์ผู้ใช้ทั้งหมด (จัดกลุ่มตามวัตถุประสงค์) ในรายการปฏิเสธ
ขั้นตอนที่ 3
เลือกเครื่องหมาย URL สำหรับแต่ละทรัพยากรที่มีอยู่ในรายการที่คอมไพล์ในขั้นตอนที่สอง เมื่อประมวลผลรายการยกเว้นสำหรับโรบ็อตโดยใช้คำสั่ง robots.txt มาตรฐานและโรบ็อตที่ไม่ได้กำหนดเท่านั้น ให้เน้นส่วน URL ที่ไม่ซ้ำกันซึ่งมีความยาวสูงสุด สำหรับชุดที่อยู่ที่เหลือ คุณสามารถสร้างเทมเพลตตามข้อกำหนดของเครื่องมือค้นหาเฉพาะได้
ขั้นตอนที่ 4
สร้างไฟล์ robots.txt เพิ่มกลุ่มคำสั่งเข้าไป ซึ่งแต่ละกลุ่มจะสอดคล้องกับชุดของกฎการห้ามสำหรับหุ่นยนต์ตัวใดตัวหนึ่ง ซึ่งรายการดังกล่าวได้รวบรวมไว้ในขั้นตอนแรก หลังควรตามด้วยกลุ่มคำสั่งสำหรับโรบ็อตอื่นๆ ทั้งหมด แยกกลุ่มกฎด้วยบรรทัดว่างเดียว ชุดกฎแต่ละชุดต้องเริ่มต้นด้วยคำสั่ง User-agent ที่ระบุโรบ็อต ตามด้วยคำสั่ง Disallow ซึ่งห้ามไม่ให้สร้างดัชนีกลุ่ม URL สร้างบรรทัดที่ได้รับในขั้นตอนที่สามด้วยค่าของคำสั่ง Disallow แยกคำสั่งและความหมายด้วยเครื่องหมายทวิภาค พิจารณาตัวอย่างต่อไปนี้ User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / ชุดคำสั่งนี้สั่งหุ่นยนต์หลักของ เครื่องมือค้นหา Yandex จะไม่สร้างดัชนี URL ซึ่งมีสตริงย่อย / temp / data / images / นอกจากนี้ยังป้องกันไม่ให้โรบ็อตอื่นๆ ทั้งหมดสร้างดัชนี URL ที่มี / temp / data /
ขั้นตอนที่ 5
เสริม robots.txt ด้วยคำสั่งมาตรฐานเพิ่มเติมหรือคำสั่งเครื่องมือค้นหาเฉพาะ ตัวอย่างของคำสั่งดังกล่าว ได้แก่ Host, Sitemap, Request-rate, Visit-time, Crawl-delay