Всичко за Google PageRank
Има много статии в българското Интернет пространство, разясняващи какво е това Google PageRank, но нито една от тях не ми се видя пълна. Затова в тази статия ще се опитам да изкажа и моите виждания по въпроса и се надявам да научите нещо ново. Не твърдя, че всичко е напълно вярно, защото нещата се променят с времето.
Google Pagerank е алгоритъм на Google за оценка на страниците в Интернет по десетобалната система. Всяка страница може да има PageRank цяло число в затворения интервал [1,10] или да няма такъв. Самият алгоритъм е патент на Станфордския университет, а думата “PageRank” е запазена търговска марка на Google.
Алгоритъмът е изграден върху теорията на графите, като всеки възел получава стойност в зависимост от броя и тежестта на връзките към себе си. Тоест, всеки възел е страница в Интернет, която има ранг в посочения интервал и дава от този ранг на другите възли (страници), към които има връзки.
Това е системата за гласуване върху която се базира технологията на търсене на Google. Тя е иновативна за търсачките и затова Google е единствената за времето си търсачка, която въвежда този метод на оценяване на страниците. Примерно връзка от страница A към B е гласуване на възел A за възел B.
При създаването си всяка страница в Интернет получава известно количество PageRank по подразбиране. Това се случва само ако страницата не е в допълнителните резултати на Google, тоест има достатъчно съдържание уникален текст. Точната стойност на получавания ранг не е известна и най-вероятно се мени с времето.
Всяка страница дава ранг на страниците, към които сочи. Примерно страница A няма връзки към себе си и има Google PageRank по подразбиране на стойност 0,1 и сочи към страница B. Ако страница A няма други изходящи връзки, освен към B, то тя ще предаде ранг 0,1 на страница B.
Ако от страница A има n изходящи връзки, то всяка сочена страница получава 1/n от ранга на страницата A. От всяка страница имат значение само първите 100 изходящи връзки, така че няма как да се предаде повече от 1/100 от ранга на страницата A на сочените от нея страници.
Рангът на всяка страница е реално число, но в Google Toolbar се закръгля до цяло такова и няма начин да се разбере точната реална стойност на ранга на която и да е страница. Също така не може да се разбере и моментната стойност на ранга, защото тя се съхранява на външни информационни центрове, които се обновяват рядко.
При наблюдения е установено, че обновяването не информационните центрове е веднъж на 3 до 6 месеца. Това се прави с цел да се пести изчислителна мощ и в същото време е пречка да се изследват формули и системи, които биха повлияли на ранга. В Интернет има много формули за изчисление на Google PageRank, но не се заемам да Ви занимавам с тях.
Длъжен съм да подчертая, че Google PageRank отдавна не е основният фактор за оценка на страниците и Интернет, поради многото опити за манипулирането му. Той все пак е фактор, но сами при правилното му използване. Ако примерно една страница е с тематика “SEO” и към нея има само силни връзки с думата “оптимизация”, то тези връзки по никакъв начин няма да повлияят на класирането на страницата по думата “SEO”.
Също така, ако два сайта имат реципрочни връзки един към друг, но не са от еднаква тематика, тогава те ще си обменят ранг, но този ранг ще е напълно безсмислен и за двата сайта. Същото се отнася и за сайтове, които имат еднакъв C клас на IP адресите си. Така че, висок PageRank вече не означава непременно добро класиране на страницата.
Трябва да спомена и за това как се определя точната оценка на Google PageRank. Разпределението на тежестта по стойности не е равномерно. Примерно, ако за да имаме PageRank 4 са ни необходими 100 връзки с ранг 1, то за да имаме PageRank 5 са ни необходими 200 връзки с ранг 1. За всяко следващо ниво трябва да направим още толкова, колкото сме направили до момента за съответната страница.
Google PageRank зависи само и единствено от броя и качеството на връзките към дадена страница. По принцип стойността му се визуализира само от Google Toolbar, но съществуват и сайтове, които се представят за него и също могат за Ви го покажат. Пример за български сайт за визуализация на Google PageRank е Axeny. Това човече прави и невъзможното, за да извлече точния ранг от информационните центрове на Google.
Поради злоупотреби със SPAM с цел натрупване на PageRank, от Google въведоха нова стойност на rel атрибута на връзките, или по-точно rel=”nofollow”. Връзки с този атрибут не придават PageRank, но за сметка на това отново влияят до известна степен на класирането на сайта. Това е поради факта, че Google разпознава и URL адреси, споменати в текста, като връзки, без да са връзки.
И накрая искам да Ви посъветвам да не обръщате внимание на стойността на Google PageRank на Вашия сайт, а да се съсредоточите върху позициите му. Публикуването на ранга публично донесе само главоболия и на потребителите, и на самите Google (търгуване с връзки и т.н), но идеята им беше да си популяризират Toolbar-a. Да се надяваме, че са получили това, което искат през него :)
Преструктуриране на сайт (блог)
Вчера реших да преструктурирам два мои блога, защото връзките на статиите им не ме удовлетворяваха. Единият сайт беше много известен и посещаван, другият е този. Подобна промяна ми се струваше рискована, защото първият сайт имаше няколко статии, които се класираха много добре с ключовите си думи.
По принцип в такава ситуация се пренасочват старите връзки с грешка тип 301 към новите, но в първия случай това нямаше как да стане, защото връзките бяха на кирилица. Поне аз не успях да подкарам Apache-то да ги захапе и да ги пренасочи. От друга страна, публикациите в блога бяха прекалено много и ме чакаше голямо писане.
Какво направих: и в двата блога влязох в съответния контролен панел на Wordpress за управление на връзките и просто ги промених както аз ги искам. Качих и нови карти sitemap.xml на сайтовете и започнах да чакам. 24 часа след това установих, че при първия блог над 80% от старите връзки ги нямаше и бяха заменени с новите им еквиваленти.
При текущия блог положението е по-лошо, просто защото още не е разработен и бота на Google не стои постоянно тук. Но като цяло е впечатляващо за колко малко време се индексираха новите структури и изчезнаха старите такива. Даже статиите, които се класираха добре в първия блог си бяха на мястото в SERP-а с новите си адреси.
От всичко това си правя извода, че от Google са усъвършенствали системите за откриване на дублирано съдържание и оценяване кой е първоизточника и кое е копието. Това като цяло е добре, когато се отнася за преструктуриране на сайтове. Но дали няма да даде предимство на тези, които копират съдържание?
Примерно имаме блог, който бива копиран от някой друг сайт (блог). Ако от нашият блог поради някаква причина изчезнат статии или си сменят адресите, то дали няма за първоизточник да бъде обявен сайтът, който ни копира? Да се надяваме, че от Google са предвидили ситуацията и това не се случва.
До кога по този начин?
Днес, както си сърфирах из мрежата и оглеждах какво става с кърти.com, реших да проверя какво е положението с конкуренцията в други подобни ниши. Търсих за “хамали”, “ремонти” и още много подобни, като накрая нещо ми направи впечатление при търсене на “мебели”. Бях работил един сайт там, но някой го беше изместил.
Гледам, че лидер са станали mebeli.bg, което ми се стори малко странно, защото нямаха никакъв текст по страниците си. Гледам аз кода и какво да видя - пълно със скрит текст и връзки. И то скрит по възможно най-простия начин. Поне да бяха изнесли CSS-а във външен файл, за да не се вижда толкова лесно.
Продължавам да чета надолу (от толкова програмиране ми е по-лесно да чета кода, отколкото да гледам сайта) и виждам някакъв текст с бял цвят, а фона е бял, следователно нормалните хора не го виждат, а само ботовете като мен. И пише познато име на фирма, което сами ще видите. Каква е логиката да е там, така и не разбрах, защото няма връзка от него.
Сблъсквам се с колегите от тази SEO и дизайнерска фирма за втори път. Първият беше, когато преди година-две ми копираха повечето от текста на cloxy.com на техния сайт. Тогава най-любезно ги помолих да го махнат, защото вреди най-вече на тях, но може и на мен. Те за дублирано съдържание не са чували, но за скрито съдържание са чували.
Тогава един приятен женски глас ми каза, че проблемът ще бъде решен и наистина на другия ден почти всичко копирано го нямаше. Сега обаче се съмнявам да успеят да изчистят този сайт за един ден. Искам да попитам колегите: ДО КОГА ПО ТОЗИ НАЧИН? И аз съм го правил, но със съгласието на клиента и то когато не беше забранено.
Съмнявам се, че този клиент знае за начина, по който е оптимизиран сайтът му. Но да се надяваме е запознат с факта, че ако някой го изпорти ще си отиде от индекса минимум за две седмици. Чак когато сайтът бъде изчистен, ще се върне обратно. Но той ако се изчисти няма да е дори в ТОП10, защото няма текст.
И ако някой го изпорти (няма да съм аз), тогава от тази фирма ще върнат ли парите на клиента? Има още няколко “фирми”, които процедират така. На това ли, колеги, му викате SEO? Сега клиентът ще излезе виновен и неговият сайт ще го отнесе. Какво им обяснявате на клиентите, когато от челно място някой сайт прости изчезне?
Още по темата може да прочетете в блога на Огнян. Този блог се превърна само в негативни постове, което обещавам - ще променя. По принцип не съм такъв човек, даже съм страшен оптимист и веселяк, но напоследък около мен се случват все едни такива лоши неща. Не зависи от мен, а от околните фактори.
