Колко е важен текстът на главната страница?
Текстът на началната страница на сайт е особено важен елемент от неговата SEO оптимизация. Той няма значение единствено при блоговете, където на началната страница обикновено няма фиксирано закрепен текст и там са важни като цяло всички текстове от блога и тяхната тематика и ключови думи.
При останалите структури на сайтове, обаче, текстът на началната страница трябва да е добре подбран, полезен за потребителите и наситен с ключови думи/фрази за търсачките. Това се постига и лесно и трудно, в зависимост от много фактори, като тематика на сайта, опит на автора със SEO методите и други фактори.
В днешно време обаче е възможно сайтове със структури, близки до блог структурите, да се класират добре и без обемен текст на началната страница. Това се наблюдава при някои видове новинарски сайтове, Интернет магазини и общо взето сайтове, който генерират голямо количество информация ежедневно.
Но винаги е добре от SEO гледна точка и не само, на началната страница на сайт, да се постави обемен и описателен текст, който да е полезен за търсачките и за посетителите. Той ще Ви помогне да изградите добро първо впечатление за сайта си, което само по себе си е голямо постижение. Не е трудно да се направи.
Да предположим, че вече сте го направили – имате сайт с добра структура, SEO оптимизиран е, редовно добавяте нова информация и естествено, имате достатъчно текст на началната страница. На пръв поглед всичко изглежда добре, но нещо със SEO-то не ви върви. Имате връзки и съдържание, но не минавате конкуренцията.
Имах наскоро подобен случай с моя сайт за почистване. Оказа се, че проблемът е именно в текста на началната страница. Той беше информативен, беше наситен с ключови думи, но се оказа, че не е напълно уникален. По-точно, отделни фрази от по 3-4 думи вече се срещат в Интернет. Просто лош късмет, не че е копиран.
Естествено, смених думите със синоними, преразказах някои от изреченията (едно от тях се повтаряше на поне 5 сайта) и нещата се оправиха за по-малко от седмица. Сайтът буквално се лепна на първа позиция при търсене на „почистване“, сега се върти някъде в ТОП3. И всичко това само след промяна на няколко думи!
Текстът на началната страница може да е както полезен, така и много вреден, ако не се използва добре. Търсачката определя в проценти уникалността на всеки текст, а с времето става все по-прецизна. Вече се заяжда и за повтарящи се фрази, затова бъдете внимателни и използвайте само уникални SEO текстове.
Извличане на ключови думи/фрази от текст
Този текст е част от един мой проект по Компютърна лингвистика. Смятам, че може да е полезен за някой. До известна степен има общо с тематиката на блога. За останалите – не му обръщайте особено внимание.
Необходимост и приложения
Извличането на ключови думи от текст е една реална лингвистична задача, която няма еднозначно решение. Ключова дума/фраза е до известна степен относително понятие, което характеризира дума/фраза, която има значителна тежест в текста. Ключовите думи са ни необходими при решаването на редица задачи, ето някои от тях:
- синтезиране на текст
- търсене на текст от търсачки
- оптимизация на текст за търсачки
- преразказване на текст
- смяна на основните думи на текст с техни синоними
и т.н. …
Често срещани проблеми
Обикновено ключовите думи/фрази са тези думи/фрази, които се повтарят най-често в текста. Но това не е достатъчно условие за тяхното разпознаване. Тук фактор се оказва авторът на текста, като неговият стил може да е такъв, че той да не повтаря достатъчен брой пъти обектите, които целим. Също така авторът може да използва синоними и различни форми и членуване на думите.
При създаването на система, която да извлича ключовите думи от текст, трябва да се имат предвид тези и други факти (специални случаи). Текстовете се различават по размер, тематика, гъстота и разпределение на ключовите думи, и др. показатели. Много често ключовите думи и фрази са именувани обекти от думи или словосъчетания, които не се срещат като думи в речник или някаква база данни.
Примери:
- „Киров ООД“
- „Байкал пропърти груп“
- „Asus EEE PC 1000 H“
- „Историята на Google“
и т.н. …
Една система за извличане на подобни обекти трябва да разпознава и такива думи/словосъчетания. Друг често срещан проблем е кодировката на файла, от който ще бъде извличан текста, както и кодировката на знаците във файла. Ако документът е в Интернет, което е най-често срещаният пример, възможни кодировки за България са: UTF-8,CP1251,KOI8R … общо 12 кодировки само на Кирилица.
Основни принципи и технологии
В общия случай приемаме, че ключовите думи са такива думи/фрази, които се повтарят повече или поне един път в текста. Също така приемаме, че думите/фразите в заглавието на текста са ключови думи, ако те в оригиналната си и/или друга форма се съдържат в самия текст. Задължително подлагаме на подробен анализ и думи/фрази в текста, които са форматирани по различен начин.
Различните видови маркировки са: удебелен шрифт, наклонен шрифт, подчертаване, текст на връзка (при xHTML документи), „текст в кавички“ (може да са единични, двойни, Word формат или общо над 8 вида), текст от подзаглавие (независимо от нивото на подзаглавието) и т.н. Често текстовете имат и синтезиран индекс на съдържанието, който съдържа предимно ключови думи.
Психологическият фактор
От психологическа гледна точка е доказано, че ключовите думи имат най-голяма гъстота в началото и в края на текста. Причината е, че често, когато авторът започне да пише по дадена тема, той излага фактите и термините в началото, които най-често са ключовите думи. Към средата на текста обикновено настъпва „разсейване“, при което тематиката частично убягва.
Следователно, средната част на текста най-малко ни интересува при един подробен анализ. Към края на текста, авторът, в общия случай, се връща към основната тематика на текста и отново и несъзнателно увеличава честотата на повтаряне на ключови думи/фрази. Най-важната част на текста обаче си остава началото, където трябва да се съсредоточат най-много ресурси при анализ.
Този принцип важи само при обемни текстове – над 800 думи. При малки текстове се приема, че ключовите думи са разпределени равномерно из целия текст. Разбира се, логично е в началото на текста те да са повече. Възможно е текстът да съдържа въвеждащ увод, който при всяко положение е богат на ключови думи.
Психологически е доказано и, че всяка ключова дума се среща поне два пъти в едно или две съседни изречения. Хората пропускат използването на местоимения и това спомага за този факт. Тоест, за да докажем, че една дума е ключова, тя не само трябва да се повтаря в началото на текста, но задължително трябва да има такова повторение, че думите да са в непосредствена близост.
Как да си пазим съдържанието от кражба
Всеки качествен сайт и най-вече блог, става жертва на кражба на съдържание. Това е напълно нормално – слабите сайтове искат да приличат на големите и им подражават. Също така много сайтове просто са създадени от копирано съдържание. Напоследък обаче кражбите на съдържание стават не с цел подражаване и изграждане, а с цел SEO.
Съдържанието е едно от най-апетитните неща за търсачките, защото те самите и потребителите печелят от него. Съдържанието е и един от най-големите фактори при SEO, именно затова борбата и гладът за качествено съдържание са огромни. Това е и целта на Интернет – да съдържа максимално количество качествено съдържание.
Обикновено, когато даден материал бива публикуван в Интернет, то той не се индексира веднага от търсачките. Необходимо е време той да бъде открит от роботите и да бъде причислен към съответния сайт. Оттам нататък това парче текст се счита за собственост на сайта на който е открито и всички негови копия се поставят в Supplemental Results.
Този сценарий изглежда справедлив, но често сайтовете, които крадат съдържание, го крадат с огромни количества и от много места. Следователно те биват много по-често индексирани от тези, които публикуват оригиналите. Съдържанието се намира по-бързо при тях и кражбата е на лице.
Съвременните блогове и CMS системи имат така наречените RSS канали, по които изнасят съдържанието си към програми за четене на потребителите. Тези канали се следят от търсещите машини и новото съдържание се индексира възможно най-бързо и се причислява към определения сайт.
Но тези канали се следят и от крадците на съдържание и именно през тях изтича и се публикува съдържанието в сайта крадец. Една възможна предпазна мярка е тези канали да излъчват само част от публикувания материал или само заглавието му. Така по-голямата част от текста се предпазва от кражба.
Разбира се, има и сайтове, които крадат съдържание на базата на скриптове и при тях единственото спасение е да се прихване IP адресът на злосторникът и да се блокира. Подобни скриптове за щастие се срещат рядко, поне за сега. Ако се пускат през proxy или през различни машини – шансовете ни да ги блокираме намаляват
Причисляването на съдържанието към даден сайт обаче не зависи само от това на кой сайт първо е намерено то. Старите сайтове и тези, които публикуват по-често, както и тези, които са по-големи като размер, се ползват с привилегии при определянето на оригинала на съдържание.
Много често сайтовете, които крадат съдържание са стари, големи и често индексирани. Срещу такива почти нямаме шансове. Единственото спасение е да успеем да накараме копиращия сайт да слага реални връзки към материалите от нашия сайт, които са копирани. Това за жалост се случва трудно и рядко.
Въпреки всичко има закони и лицензи, които се опитват да запазят правата на хората, които честно си пишат съдържание. Много хора изобщо не разбират, че са копирани и чрез труда си работят и изкарват пари за някой крадец, а техните сайтове не мърдат откъм SEO. Именно затова съветвам често да търсите изречения от сайта си и да се уверявате, че Вашия сайт излиза на първо място.


