בניית קובץ robots.txt אשכול נעול - לקריאה בלבד !

עכשיו במדריכים:

מלא מדריכי וידאו ללימוד מחשבים בחינם

לובי מדריכים, טיפים וטריקים אשכול מספר 47646
אין לך הודעות חדשות |

מלך הטריקיםתאריך: 24.10.06 - שעה: 22:06:16
חבר מתאריך: 21.10.06 - שעה: 05:18:47
154 הודעות.
שליחת הודעה פרטית צפה בפרופיל משתמש הוסף לרשימת החברים
#47646, "בניית קובץ robots.txt"


  

          

בניית קובץ robots.txt

חלק נכבד מן הרובוטים הפועלים כיום ברשת יחפשו קובץ בשם robots.txt בספרייה הראשית של האתר שלכם:
http://www.domain.com/robots.txt

קובץ זה אמור לסייע להם להחליט לאילו חלקים באתר הם יכולים להיכנס, ומאילו חלקים הם אמורים להימנע מלהיכנס.

שימו לב: איסור גישה של מנוע חיפוש לדף מסויים אמנם ימנע את איסוף התוכן של הדף, אך לעיתים, אם יש הפניות לאותו דף בדפים בהם מנועי החיפוש כן יכולים להיכנס, אז הדף כן יופיע בתוצאות החיפוש, אך ללא המידע לגביו (כותרת, תיאור וכו'). אם אתם רוצים למנוע את הופעת הדף לחלוטין, יש להשתמש בתג המטה Robots.
הכנת קובץ Robots.txt
את הקובץ יש להכין בעורך טקסט רגיל (notepad) ולא בתוכנה אחרת.
על מנת להבין יותר כיצד בנוי קובץ זה, הבה נבדוק דוגמא לקוד:



User-agent: *
Disallow: /cgi-bin/
Disallow: /images/


אם נסתכל על הקוד, נראה כי קיימים בו שני חלקים:


User-Agent: חלק זה מגדיר אל מי מופנות ההוראות שיגיעו מיד לאחריו.
Disallow: לאילו חלקים באתר אנו מעוניינים למנוע גישה ממי שהוגדר בשדה User-Agent.

במקרה שלמעלה, אנו ביקשנו מכל מנועי החיפוש (הסימון לכל מנועי החיפוש ביחד הוא (* להימנע מגישה לספריית cgi-bin ולספריית images.

הבה נבחן דוגמא נוספת לקוד:



User-agent: *
Disallow: /


דוגמא זו תמנע את הגישה של כל מנועי החיפוש אל כל האתר, כלומר מנועי החיפוש לא יסרקו את האתר כלל.

עתה נבחן דוגמא מסובכת יותר:



User-agent: googlebot
Disallow: /bonbons/
Disallow: bonbons.htm

User-agent: bonboncrawler
Disallow: /


בדוגמא זו נתנו הוראות שונות לשני רובוטים שונים. רובוט googlebot קיבל הוראה להימנע מגישה אל ספריית bonbons, ואל הקובץ bonbons.htm. ההוראה השניה מתייחסת לרובוט bonboncrawler, עליו אסרנו את הגישה לאתר כליל.


והדוגמא האחרונה:


User-agent: googlebot
Disallow:

User-agent: *
Disallow: /


שימו לב כי האיסור הראשון (googlebot) הוא ריק! לכן, בעצם המשמעות היא ש-googlebot יכול לסרוק את כל דפי האתר. האיסור השני מונע מכל הרובוטים מלסרוק את האתר. לכאורה סתירה בין שתי ההוראות, אך למעשה כאשר יש סימן *, הנוגד הוראה יותר ספציפית, אז ההוראה היותר ספציפית מנצחת.
המשמעות של הקוד הקודם היא למעשה - גוגלבוט סורק את כל האתר, כל השאר לא
מידע למפעילי פורומים
קובץ robots.txt יכול לסייע לכם למנוע מרובוטים לגלוש לחלקים בפורום שלכם שאינם כוללים מידע שימושי. דוגמא לדפים שכדאי למנוע אליהם גישה הוא דפי פרופיל משתמש, דף חיפוש, דף כתיבת הודעה חדשה ודף ההתחברות למערכת. כדי למנוע גישה לדפים אלו, אפשר לבנות קובץ כזה:



User-agent: *
Disallow: /forum/post.asp
Disallow: /forum/user_profile.asp
Disallow: /forum/search.asp
Disallow: /forum/password.asp


בהצלחה!


LOL


קרדית לשד 550



nirbar אתה מלך!!!!

  

אל ראש ההודעה התרע על הודעה זו
לובי מדריכים, טיפים וטריקים נושא #47646


הוסף למועדפים - קבע כאתר הבית

כל הזכויות שמורות ל- זבנג.נט © Zbeng@Zbeng.Net
ההשתתפות באתר מותנית בהסכמה להסכם השימוש.
השעה כעת: 16:04:31 - תאריך: 22.10.25



ספר טלפונים | ספר אנשים | אינדקס שירים