ניר סריג דיגיטל

דיגיטל, תוכן, קידום אתרים ורשתות חברתיות

דיגיטלקידום אתרים

מה זה קובץ robots.txt ואיך מעדכנים אותו באתר

בכתבה הבאה אני אלמד אתכם מה זה בדיוק קובץ robots.txt למה הוא משמש אותנו בתור בעלי אתר אינטרנט ואיך ניתן לעדכן את הקובץ הזה.

נתחיל קצת ברקע שיסביר מה המטרה של הקובץ. מנועי חיפוש כמו לדוגמה גוגל מפעילים זחלנים (בוטים) שעוברים ברחבי הרשת, סורקים את כל העמודים השונים של אתרי אינטרנט ומאנדקסים אותם במנוע החיפוש. אך לעיתים אנחנו לא מעוניינים שהזחלנים של מנועי החיפוש יסרקו עמודים מסוימים של האתר שלנו.

בואו נחשוב על דוגמה בה לא נרצה שהזלחן יסרוק את העמודים של האתר – עמודים הקשורים למערכת הניהול של האתר אין צורך לסרוק אותם, אין שום סיבה לאפשר לגוגל לסרוק את העמודים הללו, שגם ככה אינם מוצגים לגולשים רגילים ואין סיבה שגוגל יאנדקס אותם.

על מנת למנוע מהזחלן לסרוק ולנסות לאנדקס סוגי עמודים ספציפיים אנחנו מגדירים בקובץ שנקרא robots.txt את ההרשאות שאנחנו נותנים לזחלן. בגדול יש שתי אופציות שאנחנו נותנים לזחלן: Disallow ו- Allow.

robots txt

איפה ניתן למצוא את הקובץ robots.txt ?

ניתן לגשת אל הקובץ במספר דרכים ושיטות. הקובץ נמצא לרוב בתיקייה הראשית של האתר שלכם בשרת (ספריית ה-root). כך שאם לדוגמה אנחנו מסתכלים על מפת האתר שלי https://nirsarig.com/ על מנת שנגיע אל קובץ ה-robots נקליד >> https://nirsarig.com/robots.txt.

מדובר בקובץ טקסט רגיל שעוקב אחר פרוטוקול אי הכללת רובוטים, הוא כולל מספר כללים שמנהל האתר קובע עבור בוטים/זחלנים, כל כלל חוסם או מאפשר גישה עבור סורק נתון לנתיב קובץ מוגדר בדומיין או בתת-הדומיין שבו מתארח קובץ robots.txt. אלא אם כן תציין אחרבת בקובץ robots.txt שלך, כל הקבצים מותרים אופן לסריקה.

אם יש לכם גישה לקבצי השרת עליכם להיכנס לתיקייה של האתר ולחפש קובץ בשם robots.txt ברגע שתכנסו אליו תוכלו לעדכן אותו ולשמור.

איך כותבים את קובץ ה-robots.txt ודגשים חשובים שכדאי להיות סגורים עליהם.

בקובץ הנתון מופיע הסינטקסט הבא:

User-agent: Googlebot

Disallow: /nogooglebot/

User-agent: *

Allow: /

Sitemap: http://www.example.com/sitemap.xml

חלק 1 : היוזר אייג'נט Googlebot אינו מורשה לסרוק אף URL שמתחיל ב-http://example.com/nogooglebot/

חלק 2: יוזר אייג'נט * (כוכבית) זה אומר כולם, משמע כל הזחלנים/בוטים רשאים (Allow) לסרוק את כל האתר. הערה הזו היתה מבוצעת גם בלי שיכתבו את זה מכיוון שזאת התנהגות הברירת מחדל לבוטים/זחלנים, לאפשר להם לסרוק את כל דפי האתר.

חלק 3: בסוף לשים הפניה אל מפת האתר (sitemap)

אם יש לכם שאלות בנוגע לנושא של robots.txt מוזמנים להוסיף אותן בשרשור התגובות לכתבה. כמו כן אם יש לכם נושאים אחרים הקשורים לעולם של SEO ו/או ניהול אתר אינטרנט בצורה אופטימלית מוזמנים להוסיף בתגובות.