Как да си пазим съдържанието от кражба
Всеки качествен сайт и най-вече блог, става жертва на кражба на съдържание. Това е напълно нормално - слабите сайтове искат да приличат на големите и им подражават. Също така много сайтове просто са създадени от копирано съдържание. Напоследък обаче кражбите на съдържание стават не с цел подражаване и изграждане, а с цел SEO.
Съдържанието е едно от най-апетитните неща за търсачките, защото те самите и потребителите печелят от него. Съдържанието е и един от най-големите фактори при SEO, именно затова борбата и гладът за качествено съдържание са огромни. Това е и целта на Интернет - да съдържа максимално количество качествено съдържание.
Обикновено, когато даден материал бива публикуван в Интернет, то той не се индексира веднага от търсачките. Необходимо е време той да бъде открит от роботите и да бъде причислен към съответния сайт. Оттам нататък това парче текст се счита за собственост на сайта на който е открито и всички негови копия се поставят в Supplemental Results.
Този сценарий изглежда справедлив, но често сайтовете, които крадат съдържание, го крадат с огромни количества и от много места. Следователно те биват много по-често индексирани от тези, които публикуват оригиналите. Съдържанието се намира по-бързо при тях и кражбата е на лице.
Съвременните блогове и CMS системи имат така наречените RSS канали, по които изнасят съдържанието си към програми за четене на потребителите. Тези канали се следят от търсещите машини и новото съдържание се индексира възможно най-бързо и се причислява към определения сайт.
Но тези канали се следят и от крадците на съдържание и именно през тях изтича и се публикува съдържанието в сайта крадец. Една възможна предпазна мярка е тези канали да излъчват само част от публикувания материал или само заглавието му. Така по-голямата част от текста се предпазва от кражба.
Разбира се, има и сайтове, които крадат съдържание на базата на скриптове и при тях единственото спасение е да се прихване IP адресът на злосторникът и да се блокира. Подобни скриптове за щастие се срещат рядко, поне за сега. Ако се пускат през proxy или през различни машини - шансовете ни да ги блокираме намаляват
Причисляването на съдържанието към даден сайт обаче не зависи само от това на кой сайт първо е намерено то. Старите сайтове и тези, които публикуват по-често, както и тези, които са по-големи като размер, се ползват с привилегии при определянето на оригинала на съдържание.
Много често сайтовете, които крадат съдържание са стари, големи и често индексирани. Срещу такива почти нямаме шансове. Единственото спасение е да успеем да накараме копиращия сайт да слага реални връзки към материалите от нашия сайт, които са копирани. Това за жалост се случва трудно и рядко.
Въпреки всичко има закони и лицензи, които се опитват да запазят правата на хората, които честно си пишат съдържание. Много хора изобщо не разбират, че са копирани и чрез труда си работят и изкарват пари за някой крадец, а техните сайтове не мърдат откъм SEO. Именно затова съветвам често да търсите изречения от сайта си и да се уверявате, че Вашия сайт излиза на първо място.
Как търсачката “вижда” уеб страниците
Търсачките на практика “виждат” страниците в Интернет подобно на хората, разбира се, когато умишлено не е представено друго и/или скрито съдържание на търсачката. Има обаче няколко различия относно това как хората и търсачките отсяват ценната информация от страницата. Ще се опитам да представя процеса структуриран във времето.
1. Търсачката сваля файла на страница.
Това най-често е файл с HTML структура, но може и да е използван друг език за форматиране, като XML, примерно. Възможно е търсачката да индексира и други видове файлове (документи), но в тази статия ще говоря за страници, форматирани с markup езици.
2. Извличане на съдържанието от страницата.
Общо взето всички markup езици са създадени с цел съдържанието от тях лесно да бъде извлечено. В общия случай това е текстът между символите “>” и “<”. Всичко останало се смята за код или “meta” данни. В зависимост от търсачката може да се извличат и данни от “meta” данните.
3. Премахване на специалните символи от съдържанието.
До тук от страницата е останал само текстът и то форматиран на един ред. Следващата стъпка е търсачката да се отърве от всички специални символи, които не носят никаква полезна информация. Такива са, примерно: точки, тирета, удивителни, въпросителни, знак за процент и т.н. Специалните символи се заместват с интервали при някои търсачки.
4. Премахване на “Stop Words”.
До тук имаме съдържание на един ред, което представлява само думи, разделени с интервали. Време е да се отървем от думите, които не носят никаква информация. Такива са, примерно, английските: and, or, if, about и т.н. В зависимост от търсачката могат да се премахват и “Stop Words” на кирилица.
5. Определяна на ключовите думи от текста.
До тук имаме само подбрани думи, разделени с интервали. Време е да се определи кои от тях са ценни и кои по-малко. За целта се сравняват думите всяка със всяка и се създава списък на повтарящите се думи, като тези, които се срещат най-често, са в началото на списъка.
В зависимост от търсачката, може да се изследват думите за положение, гъстота, подчертаване и т.н. Също така при сайтове с много страници, се отделя уникалната за всяка страница информация от тази, която се повтаря. Същото се прави и с изходящите връзки от страницата.
Оттук нататък всяка търсачка подхожда индивидуално с информацията, с която разполага. Един ефикасен метод е всички думи да се сортират в списък спрямо повторенията им. Така съдържанието на всяка страница ще е един вертикален списък с думи, всяка с индекс на повторенията й в текста.
Подобна структура е много лесно да бъде представена в релационна база данни. Оттам релационния модел подпомага бързото и лесно структуриране на информацията. Процеси, като търсене и сортиране при подобен списък в релационна база данни, са максимално бързи.
Някъде между всички тези точки се анализират изходящите връзки на страницата, за да може роботът да стигне и до други страница от конкретния или друг сайт. Този процес е по-сложен от процесът на “Data Mining” (отсяване на ценното в съдържането) и ще бъде предмет на друга статия.
Преструктуриране на сайт (блог)
Вчера реших да преструктурирам два мои блога, защото връзките на статиите им не ме удовлетворяваха. Единият сайт беше много известен и посещаван, другият е този. Подобна промяна ми се струваше рискована, защото първият сайт имаше няколко статии, които се класираха много добре с ключовите си думи.
По принцип в такава ситуация се пренасочват старите връзки с грешка тип 301 към новите, но в първия случай това нямаше как да стане, защото връзките бяха на кирилица. Поне аз не успях да подкарам Apache-то да ги захапе и да ги пренасочи. От друга страна, публикациите в блога бяха прекалено много и ме чакаше голямо писане.
Какво направих: и в двата блога влязох в съответния контролен панел на Wordpress за управление на връзките и просто ги промених както аз ги искам. Качих и нови карти sitemap.xml на сайтовете и започнах да чакам. 24 часа след това установих, че при първия блог над 80% от старите връзки ги нямаше и бяха заменени с новите им еквиваленти.
При текущия блог положението е по-лошо, просто защото още не е разработен и бота на Google не стои постоянно тук. Но като цяло е впечатляващо за колко малко време се индексираха новите структури и изчезнаха старите такива. Даже статиите, които се класираха добре в първия блог си бяха на мястото в SERP-а с новите си адреси.
От всичко това си правя извода, че от Google са усъвършенствали системите за откриване на дублирано съдържание и оценяване кой е първоизточника и кое е копието. Това като цяло е добре, когато се отнася за преструктуриране на сайтове. Но дали няма да даде предимство на тези, които копират съдържание?
Примерно имаме блог, който бива копиран от някой друг сайт (блог). Ако от нашият блог поради някаква причина изчезнат статии или си сменят адресите, то дали няма за първоизточник да бъде обявен сайтът, който ни копира? Да се надяваме, че от Google са предвидили ситуацията и това не се случва.
