стрілка вверх

robpt txt

Що таке robots.txt та Sitemap.xml?

Казка про пошукового містера Краулса :)

лютий 2016

Зміст

  1. Інтро.
  2. Глосарій пошукової системи.
  3. Про пошукові системи
  4. Що таке robots.txt?
  5. Що таке Sitemap?
  6. Цікаво про пошукових павуків
  7. Висновок

ІНТРО.

Анатолій. З власного веб-життя,

- Навіщо взагалі мені потрібен цей файлик robot.txt чи навіть sitemap.xml? А хто з них головніший?

Справа в тому, що розвиваю власний сайт в мережі Інтернет, щось створюю, редагую, щось видаляю за рекомендаціями доброго друга google.com/webmasters/tools (правда він не відразу став мені другом, певний час я гордовито сам скидав в інтернет веб-сторінки, за що, чесно соромно й до цього часу прибираюсь). Враховуючи, що оптимізацією (СЕО) власного сайту я спочатку не займався, так як я про неї не знав, а якщо й знав, то не надав достатньо уваги, вважаючи що не варто витрачати час на щось таке незрозуміле: розкрутка сайту, пошукові системи, навіщо? Вважаючи, потрібно буде - самі знайдуть.

Що ж знайшли, хтось знайшов, щось знайшло, Воно мене знайшло, тепер питання:

- Може все ж краще пошукові системи будуть індексувати та видавати і в мережу Інтернет мої хороші веб-сторінки? А 404, чи ті, що мені самому вже не потрібні, та яку я власне сам видалив, якось заявити пане Круелс (Crawlers, англ. crawl- повзти) будь-ласка не враховуйте...

- Що ж давайте спробуємо розібратись, що ми можемо дізнатись з тієї ж мережі Інтернет стосовно robot.txt та sitemap.xml?



Глосарій пошукової системи.

пошукова система

Пошукова система (або скорочено пошуковик) певна база даних — онлайн-служба (програмно-апаратний комплекс з веб-інтерфейсом), що надає можливість пошуку інформації в Інтернеті. У просторіччі під пошуковою системою розуміють веб-сайт, на котрому розміщено інтерфейс системи. Програмною частиною пошукової системи є пошукова машина (пошуковий рушій) — комплекс програм, що забезпечує функціональність пошукової системи і, зазвичай, є комерційною таємницею компанії-розробника пошукової системи.

Відомі пошукові системи: Google, Яндекс, Yahoo!, Ask.com, Bing, ...

Індексація в пошукових системах сайтів здійснюється пошуковим роботом.

Пошуковий робот (також англ. web crawler, англ. web spider) — програма, що є складовою частиною пошукової системи та призначена для обходу сторінок інтернету з метою занесення інформації про них (ключових слів) до бази даних.

Павуки здійснюють загальний пошук інформації в Інтернеті. Вони повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму.

Sitemaps — це XML-файл з інформацією для пошукових систем про сторінки веб-сайту, які підлягають індексації. Sitemaps може допомогти пошуковикам визначити місцезнаходження сторінок сайту, час їхнього останнього поновлення, частоту оновлення та важливість щодо інших сторінок сайту для того, щоб пошукова машина змогла більш розумно індексувати сайт.

robots.txt – це файл обмеження доступу роботів до вмісту на http-сервері.

Файли Robots.txt служать лише для одного - "розповісти" спайдерам ПМ які сторінки не потрібно індексувати.

Про пошукові системи

Згідно статистики, близько 85% користувачів шукають інформацію за допомогою пошукових машин, які забезпечують від 70% до 85% від загальної відвідуваності ресурсу. Отже пошукова оптимізація сайту - це невід'ємна частина просування веб-сайту в мережі Інтернет.

Пошукові системи звичайно складаються з трьох компонентів:
- агент (павук чи кроулер), що переміщається по Мережі і збирає інформацію;
- база даних, що містить всю інформацію, що збирається павуками;
- пошуковий механізм, що люди використовують як інтерфейс для взаємодії з базою даних.

пошукова система

Рисунок 1. Формування пошукового запиту.

Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, що знаходяться в Мережі Інтернет. Це спеціальні програми, що займаються пошуком сторінок у Мережі, витягають гіпертекстові посилання на цих сторінках і автоматично індексують інформацію, що вони знаходять для побудови бази даних. Кожен пошуковий механізм має власний набір правил, що визначають, як збирати документи. Деякі випливають за кожним посиланням на кожній знайденій сторінці і потім, у свою чергу, досліджують кожне посилання на кожній з нових сторінок, і так далі. Деякі ігнорують посилання, що ведуть до графічних і звукових файлів, файлам мультиплікації; інші ігнорують посилання до ресурсів типу баз даних WAIS; інші проінструктовані, що потрібно переглядати найперше найбільш популярні сторінки.

Агенти - самі "інтелектуальні" з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати навіть трансакції від імені користувача. Уже зараз вони можуть шукати cайти специфічної тематики і повертати списки cайтів, відсортованих по їх відвідуваності. Агенти можуть обробляти зміст документів, знаходити й індексувати інші види ресурсів, не лише сторінки. Вони можуть також бути запрограмовані для витягу інформації з уже існуючих баз даних. Незалежно від інформації, що агенти індексують, вони передають її назад базі даних пошукового механізму.

Загальний пошук інформації в Мережі здійснюють програми, відомі як павуки. Павуки повідомляють про зміст знайденого документа, індексують його і витягають підсумкову інформацію. Також вони переглядають заголовки, деякі посилання і посилають проіндексовану інформацію базі даних пошукового механізму.

Кроулери переглядають заголовки і повертають лише перше посилання.

Роботи можуть бути запрограмовані так, щоб переходити по різним посиланнях різної глибини вкладеності, виконувати індексацію і навіть перевіряти посилання в документі. Через їхню природу вони можуть застрявати в циклах, тому, проходячи по посиланнях, їм потрібні значні ресурси Мережі. Однак, маються методи, призначені для того, щоб заборонити роботам пошук по сайтах, власники яких не бажають, щоб вони були проіндексовані.

Агенти витягають і індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово в документі, що зустрічається, у те час як інші індексують лише найбільш важливих 100 слів у кожнім, індексують розмір документа і число слів у ньому, назва, заголовки і підзаголовки і так далі. Вид побудованого індексу визначає, який пошук може бути зроблений пошуковим механізмом і як отримана інформація буде інтерпретована.

Агенти можуть також переміщатися по Інтернет і знаходити інформацію, після чого поміщати її в базу даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти чи типи сайтів агенти повинні відвідати і проіндексувати. Проіндексована інформація відсилається базі даних пошукового механізму так само, як було описано вище.

Коли користувач хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує інформацію, що йому необхідна. Тут можуть використовуватися ключові слова, дати й інші критерії. Критерії у формі пошуку повинні відповідати критеріям, використовуваним агентами при індексації інформації, що вони знайшли при переміщенні по Мережі.

База даних відшукує предмет запиту, заснований на інформації, зазначеної в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Щоб визначити порядок, у якому список документів буде показаний, база даних застосовує алгоритм ранжирування. В ідеальному випадку, документи, найбільш відповідному користувальницькому запиту будуть поміщені першими в списку.



Різні пошукові системи використовують різні алгоритми ранжирування.



Що таке robots.txt?

которко про призначення

Robots.txt – це файл обмеження доступу роботів до вмісту на http-сервері. Інакше кажучи, цей файл вказує, які файли індексувати, а які – ні. Файли Robots.txt служать лише для одного - "розповісти" спайдерам ПМ які сторінки не потрібно індексувати.

Пошукові роботи (crawlers) перед тим, як почати індексацію сайту, перевіряють, чи є у ньому файл robots.txt. Знайшовши цей файл, роботи поводяться відповідно до вказівок (директив) у цьому файлі.

В основному, якщо немає жодної користі від появи сторінки в результатах пошуку машин, то ви можете приховати ці сторінки від спайдерів використовуючи robots.txt. Це не лише збільшить ресурси ПМ, витрачені на ваші важливі сторінки, але також допоможе захистити ваш сайт від хакерів, які можуть в своїх цілях використовувати результати пошукової машини або роздобути важливу інформацію про вашу компанію або сайт. Спайдери ПМ досить охоче індексують що-небудь, що вони можуть знайти в мережі, включаючи такі речі як файли, де зберігаються паролі.

Файл повинен перебувати у корені сайту. При наявності декількох субдоменів файл повинен розташовуватися в кореневому каталозі кожного з них.

Використання файлу robots.txt є добровільним.

Наприклад, більшість адміністраторів не хочуть, аби індексувалася тека cgi-bin. В цьому випадку у файлі Robots.txt варто вказати:
User-agent: *
Disallow: /cgi-bin/

синтаксис файлу robots.txt

Синтаксис robots.txt має в своєму розпорядженні слідуючі інструкції:
- User-agent,
- Disallow,
- Allow,
- Crawl-delay,
- Request-rate,
- Visit-time,
- Host,
- Sitemap.


Формат запису інструкцій: <тип інструкції>: <значення>.


User-agent — тут вказується для якого пошукового робота призначені інструкції, описані нижче. Наприклад:
User-agent: YandexBot — всі інструкції нижче буде виконувати тільки YandexBot.
User-agent: Googlebot — всі інструкції нижче буде виконувати тільки Googlebot.
User-agent: * — інструкції вказані для всіх пошукових роботів.

У більшості випадків використовується саме User-agent: *, але бувають випадки коли необхідно для різних роботів вказувати різні інструкції. Наприклад у яндекса 11 роботів, а у google 8, вони використовуються для індексації різного типу сайтів і документів.

Disallow — найпопулярніша інструкція. Використовується для заборони індексації певних URL адрес. Наприклад:
Disallow:/ - заборонити індексацію всього сайту.
Disallow:/someurl — заборонити індексацію всіх адрес виду http://your-site.com/someurl*, тобто будь-яку адресу починається з / someurl (/ someurl /, / someurl1, / someurl123, / someurl.php і т.д .), буде заборонений до індексації.
Disallow: / someurl / — заборона індексації тільки розділу / someurl /. Адреси / someurl1, / someurl123 або /someurl.php будуть доступні для індексації, а адреси виду / someurl / item будуть заборонені для індексації.

Allow — інструкція протилежна Disallow, тобто за допомогою неї можна дозволити індексації URL адреси. Логічно використовувати, коли потрібно заборонити індексування адрес у певному каталозі, але залишити один або кілька адрес у цьому каталозі відкритим для індексування. Наприклад набір інструкцій:
Allow: / someurl / item1
Disallow: / someurl /
дозволить індексувати адреса http://your-site.com/someurll/item1, але всі інші адреси виду http://your-site.com/someurl/*будут заборонені для індексації.

Crawl-delay — вказує роботу час у секундах, який він повинен витримувати перед індексацією наступної сторінки. Використовується для зниження навантаження на сервер під час індексації сайту. Наприклад:
Crawl-delay: 10 — чекати 10 секунд, перед індексацією наступної сторінки. Проіндексував сторінку, почекав 10 секунд, можеш індексувати наступну і т.д.

Request-rate — вказує яку кількість сторінок можна індексувати за певний проміжок часу, використовується вкрай рідко. Наприклад:
Request-rate: 1/3 — дозволено індексувати одну сторінку за 3 секунди.

Visit-time — вказує час, коли можна індексувати сайту, використовується вкрай рідко. Наприклад:
Visit-time: 0930-1500 — індексувати сайт тільки з половини десятого ранку до третьої години дня.

Host — використовується для вказівки головного дзеркала для пошукових роботів яндекса (тільки вони розуміють цю інструкцію, google її пропускає). Якщо сайт доступний за різними адресами http://www.your-site.com/ і http://your-site.com/, то ця інструкція вкаже яке з дзеркал головне.
Host: your-site.com — головне дзеркало сайту your-site.com, а не www.your-site.com

Sitemap — вказує пошуковим роботам адресу карти сайту.
Sitemap: http://your-site.com/sitemap.xml
Також в файлі robots.txt можна використовувати регулярні вирази. Це дуже корисно, для заборони індексації URL адрес, які не можна вказати прямо, наприклад URL з параметрами. У багатьох cms є сторінки з версією для друку або rss стрічка, для пошукача така сторінка буде дублем основного контенту. Адресу кожної непотрібної сторінки окремо не вкажеш, та й не завжди це можливо, а регулярні вирази дуже просто вирішують проблему. Розглянемо як це працює, існує цілих 2 спеціальних символи, «*» і «$»:

«*» — зірочка, позначає будь-який набір символів або їх відсутність. Наприклад:
Disallow: * rss — заборонити індексацію всіх URL адрес, що містять послідовність символів rss, http://www.your-site.com/все-что-угодно.rss або http://www.your-site.com/rss123.
Disallow: /someurl/*.php — забороняє індексацію адрес, що мають розширення php в каталозі http://your-site.com/someurl.
Disallow: / * someurl — забороняє індексацію як URL адрес виду / someurl так і / catalog / someurl

Слід враховувати, що символ «*» за замовчуванням присутній в кінці будь-якої інструкції, тобто інструкції Disallow: / someurl іDisallow: / someurl * ідентичні. Якщо взяти перший приклад, Disallow: * rss, то в цьому випадку будуть заборонені до індексації будь-які URL адреси, що мають послідовність символів rss (http://www.your-site.com/будь-що.rss або http: / /your-site.com/some-rss-url/). Для того, що б обмежити це, існує наступний спеціальний символ.

«$» — знак долара, позначає кінець рядка, тобто він скасовує за замовчуванням символ «*» в кінці рядка.
Disallow: / someurl / $ — забороняє індексацію URL адреси http://your-site.com/someurl/, але дозволяє індексацію URL адреса http: //your-site.com/someurl/item1.
Disallow: * rss $ — забороняє індексацію всіх URL адрес, що закінчуються на rss. В той же час, адреси виду http://your-site.com/some-rss-url/ будуть доступні для індексування.



Файл Sitemap.xml

Що ми могли дізнатись про файл Sitemap.xml з Мережі?

Файл Sitemap це список посилань на всі або основні сторінки вашого web-майданчика. Через цей файл пошуковій системі набагато простіше вивчити сайт і пройти по посиланнях для перегляду контенту.

Створення карти сайту sitemap.xml - дуже важливий момент внутрішньої оптимізації. Пошукові роботи переміщаються по вашому сайту не аби як. Боти не можуть перескакувати зі сторінки на сторінку, тому вони переходять по посиланнях, які знайдуть на сторінках сайту. Для цього важливо грамотно вибудувати структуру веб-ресурсу, щоб винести основні матеріали в доступні сторінки, і подбати про внутрішні посилання. Чим менше глибина вложеності сторінок, тим вони більше доступні пошуковику. Оскільки під час свого одноразового відвідування пошукова програма проходить по невеликій кількості посилань, власнику ресурсу доводиться чекати поки вона обійде всі його сторінки і виведе їх в пошук. Залежно від обсягу веб-проекту на це може піти від декількох тижнів до декількох місяців (залежить це від кількості сторінок і якості наповнення).

Важливою властивістю файлу sitemap.xml є те, що він включає абсолютно всю структуру сайту, при цьому пошуковики бачать всі сторінки і не пропускають їх при індексації. Тепер пошуковому роботу легше працювати з сайтом, так як йому не треба переходити з однієї сторінки на іншу, коли він шукає не проіндексований контент.

Переваги застосування Sitemap:

- Збільшення ймовірності, що пошуковою системою проіндексовані будуть усі сторінки сайту;

- Cамостійне регулювання пріоритету індексації кожної сторінки.

- Після використання sitemap.xml швидкість індексації сайту збільшується.

Синтаксис файлу Sitemap

Формат протоколу Sitemap складається з XML-тегів. У файлі необхідно використовувати кодування UTF-8.

Приклад XML-файлу Sitemap:

<?xml version = "1.0" encoding = "UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 <url>
 <loc> http://example.com/</loc>
 <lastmod> 2005-01-01 </lastmod>
 <changefreq> monthly </changefreq>
 <priority> 0.8 </priority>
 </url>
</urlset>

, де
urlset - обов&$39;язковий - стандарт протоколу;
url - обов&$39;язковий - батьківський тег для кожного запису url-адреси;
loc - обов&$39;язковий - url-адреса веб-сторінки;
lastmod - необов&$39;язковий - елемент (останнє оновлення за датою);
changefreq- необов&$39;язковий - елемент (частота зміни сторінки: always, hourly, daily, weekly, monthly, yearly, never);
priority - елемент (відносна значимість сторінки, ступінь важливості).



Цікаво про пошукових павуків

Частота індексування сайтів

Логіка роботи пошукових систем з індексації документів (сторінок):
- Після знаходження і індексації нової сторінки, робот відвідує її наступного дня.
- Після порівняння вмісту сторінки з тим, що було вчора і не знайшовши відмінностей робот пошукової системи зайде на неї за три дні.
- Якщо і цього разу на даній сторінці нічого не змінитися, то робот навідується за тиждень і т.д.

З часом, частота відвідування пошукового робота до сторінки наблизиться до частоти її оновлення. Час повторного заходу робота пошукових систем може вимірюватися для різних сайтів як в хвилинах, так і в роках. Розумні пошукові системи встановлюють індивідуальний графік відвідування для різних сторінок різних сайтів.



Висновок

Переглядаючи матеріал про пошукові системи, можна стверджувати, так чи інакше матеріал Вашого сайту буде проіндексований пошуковими системами, проте задля правильної та більш швидкої індексації Вашого матеріалу варто використовувати вказівки (Robots.txt та Sitemap.xml) для пошукових роботів, та пам'ятаємо що:
Robots.txt - файл створений для дозволу або заборони індексації сторінок пошуковими роботами.
Sitemap.xml — сторінка використовувана пошуковими роботами для індексації сторінок сайту.

- Що ж на цьому лиш бажаю вдалої оптимізації Вашого сайту!


Анатолій, лютий 2016.

P.S.

Цікаво з поданого матеріалу можна дати відповідь на питання: