Как търсачката „вижда“ уеб страниците

юни 13, 2008 от Васил Тошков · 6 коментара
Категории: SEO, Програмиране 

Търсачките на практика „виждат“ страниците в Интернет подобно на хората, разбира се, когато умишлено не е представено друго и/или скрито съдържание на търсачката. Има обаче няколко различия относно това как хората и търсачките отсяват ценната информация от страницата. Ще се опитам да представя процеса структуриран във времето.

1. Търсачката сваля файла на страница.

Това най-често е файл с HTML структура, но може и да е използван друг език за форматиране, като XML, примерно. Възможно е търсачката да индексира и други видове файлове (документи), но в тази статия ще говоря за страници, форматирани с markup езици.

2. Извличане на съдържанието от страницата.

Общо взето всички markup езици са създадени с цел съдържанието от тях лесно да бъде извлечено. В общия случай това е текстът между символите „>“ и „<“. Всичко останало се смята за код или „meta“ данни. В зависимост от търсачката може да се извличат и данни от „meta“ данните.

3. Премахване на специалните символи от съдържанието.

До тук от страницата е останал само текстът и то форматиран на един ред. Следващата стъпка е търсачката да се отърве от всички специални символи, които не носят никаква полезна информация. Такива са, примерно: точки, тирета, удивителни, въпросителни, знак за процент и т.н. Специалните символи се заместват с интервали при някои търсачки.

4. Премахване на „Stop Words“.

До тук имаме съдържание на един ред, което представлява само думи, разделени с интервали. Време е да се отървем от думите, които не носят никаква информация. Такива са, примерно, английските: and, or, if, about и т.н. В зависимост от търсачката могат да се премахват и „Stop Words“ на кирилица.

5. Определяна на ключовите думи от текста.

До тук имаме само подбрани думи, разделени с интервали. Време е да се определи кои от тях са ценни и кои по-малко. За целта се сравняват думите всяка със всяка и се създава списък на повтарящите се думи, като тези, които се срещат най-често, са в началото на списъка.

В зависимост от търсачката, може да се изследват думите за положение, гъстота, подчертаване и т.н. Също така при сайтове с много страници, се отделя уникалната за всяка страница информация от тази, която се повтаря. Същото се прави и с изходящите връзки от страницата.

Оттук нататък всяка търсачка подхожда индивидуално с информацията, с която разполага. Един ефикасен метод е всички думи да се сортират в списък спрямо повторенията им. Така съдържанието на всяка страница ще е един вертикален списък с думи, всяка с индекс на повторенията й в текста.

Подобна структура е много лесно да бъде представена в релационна база данни. Оттам релационния модел подпомага бързото и лесно структуриране на информацията. Процеси, като търсене и сортиране при подобен списък в релационна база данни, са максимално бързи.

Някъде между всички тези точки се анализират изходящите връзки на страницата, за да може роботът да стигне и до други страница от конкретния или друг сайт. Този процес е по-сложен от процесът на „Data Mining“ (отсяване на ценното в съдържането) и ще бъде предмет на друга статия.

Линкове от вътрешни страници на сайтове

април 22, 2008 от Васил Тошков · 2 коментара
Категории: SEO 

Тази статия е допълнение на статията Всичко за купуването на връзки, защото се оказа, че не съм успял да напиша абсолютно всичко по темата. Статията е разработена от Драго (SEO пич), за което много му благодаря. Естествено, отново не можем да напишем всичко по темата, но поне се опитахме :) Ако и Вие имате да добавите нещо – ще сме Ви благодарни!

Линкове от вътрешни страници на други сайтове – Този метод също спомага за това бота по-бързо да мине през сайта. Благодарение на този метод, можете да окажете на бота точно през кои страници да мине и така да го манипулирате. Най-ефективен е метода, когато линковете водят на възловите страници. Сайтовете, които служат при този метод, се наричат „сайтове индексатори“.

Това е най-ефективната тактика от всички, описани в предишната статия. Сайтът индексатор е специален сайт, който тегли съдържанието от вашите сайтове, индексира своите вътрешни страници и след това се само обновява – затваря страниците, които попадат в индекса и на тяхно място вади нови, непроиндексирани.

Създаването на такъв сайт не отнема много време и даже, ако не умеете да програмирате, то писането на такъв скрипт не е скъпо и е оправдано като разход. В началото трябва да направите началната страница, която ще се обръща към 50-100 вътрешни страници. Всяка страница ще се пълни със съдържание от донора, който трябва да се проиндексира.

След това чрез командата cron, да тегли ежедневно информация от търсачките, които ни интересуват, напр. Google, Yahoo, MSN, чрез командата „site:mysite.com“. Трябва да се създаде скрипт, който да парства резултатите и да сравнява със списъка от страници, които имаме на сайта индексатор. В момента в който страницата се проиндексира в търсачките, скрипта трябва да постави редирект 301, който да води към страницата донор.

Такива сайтове работят на автомат, което ги прави ценни и работят докато проиндексират целият сайт или бъдат забранени от търсачките. За това се правят по няколко такива сайта, за по-бързо протичане на процеса. Лично аз ползвам друг вид сайт индексатор за своите проекти.

За да не бъде забранен сайта заради не уникално съдържание, скрипта взима текст, смесва го и на изхода имаме нечитаем текст с линкове в него. Линковете водят към непроиндексирани страници (може на собствения сайт, може на сайт, където сте купили линкове). Такъв сайт прилича на door, но не е door, той не е за хора, а за роботи.

Единственото, неудобство е, че трябва периодически да се проверяват кои линкове са в индекса и да се свалят и ако трябва, на тяхно място да се слагат нови. Ето един такъв сайт. Удобството на този метод е, че аз на локалния компютър чрез скрипт, генерирам съдържанието и след това само го заливам на хоста. Така че, този вариант работи на всички безплатни хостове, защото страниците са статични.