Извличане на ключови думи/фрази от текст

ноември 22, 2008 от Васил Тошков · Коментирай
Категории: Другo 

Този текст е част от един мой проект по Компютърна лингвистика. Смятам, че може да е полезен за някой. До известна степен има общо с тематиката на блога. За останалите - не му обръщайте особено внимание.

Необходимост и приложения

Извличането на ключови думи от текст е една реална лингвистична задача, която няма еднозначно решение. Ключова дума/фраза е до известна степен относително понятие, което характеризира дума/фраза, която има значителна тежест в текста. Ключовите думи са ни необходими при решаването на редица задачи, ето някои от тях:

- синтезиране на текст
- търсене на текст от търсачки
- оптимизация на текст за търсачки
- преразказване на текст
- смяна на основните думи на текст с техни синоними
и т.н. …

Често срещани проблеми

Обикновено ключовите думи/фрази са тези думи/фрази, които се повтарят най-често в текста. Но това не е достатъчно условие за тяхното разпознаване. Тук фактор се оказва авторът на текста, като неговият стил може да е такъв, че той да не повтаря достатъчен брой пъти обектите, които целим. Също така авторът може да използва синоними и различни форми и членуване на думите.

При създаването на система, която да извлича ключовите думи от текст, трябва да се имат предвид тези и други факти (специални случаи). Текстовете се различават по размер, тематика, гъстота и разпределение на ключовите думи, и др. показатели. Много често ключовите думи и фрази са именувани обекти от думи или словосъчетания, които не се срещат като думи в речник или някаква база данни.

Примери:
- “Киров ООД”
- “Байкал пропърти груп”
- “Asus EEE PC 1000 H”
- “Историята на Google”
и т.н. …

Една система за извличане на подобни обекти трябва да разпознава и такива думи/словосъчетания. Друг често срещан проблем е кодировката на файла, от който ще бъде извличан текста, както и кодировката на знаците във файла. Ако документът е в Интернет, което е най-често срещаният пример, възможни кодировки за България са: UTF-8,CP1251,KOI8R … общо 12 кодировки само на Кирилица.

Основни принципи и технологии

В общия случай приемаме, че ключовите думи са такива думи/фрази, които се повтарят повече или поне един път в текста. Също така приемаме, че думите/фразите в заглавието на текста са ключови думи, ако те в оригиналната си и/или друга форма се съдържат в самия текст. Задължително подлагаме на подробен анализ и думи/фрази в текста, които са форматирани по различен начин.

Различните видови маркировки са: удебелен шрифт, наклонен шрифт, подчертаване, текст на връзка (при xHTML документи), “текст в кавички” (може да са единични, двойни, Word формат или общо над 8 вида), текст от подзаглавие (независимо от нивото на подзаглавието) и т.н. Често текстовете имат и синтезиран индекс на съдържанието, който съдържа предимно ключови думи.

Психологическият фактор

От психологическа гледна точка е доказано, че ключовите думи имат най-голяма гъстота в началото и в края на текста. Причината е, че често, когато авторът започне да пише по дадена тема, той излага фактите и термините в началото, които най-често са ключовите думи. Към средата на текста обикновено настъпва “разсейване”, при което тематиката частично убягва.

Следователно, средната част на текста най-малко ни интересува при един подробен анализ. Към края на текста, авторът, в общия случай, се връща към основната тематика на текста и отново и несъзнателно увеличава честотата на повтаряне на ключови думи/фрази. Най-важната част на текста обаче си остава началото, където трябва да се съсредоточат най-много ресурси при анализ.

Този принцип важи само при обемни текстове - над 800 думи. При малки текстове се приема, че ключовите думи са разпределени равномерно из целия текст. Разбира се, логично е в началото на текста те да са повече. Възможно е текстът да съдържа въвеждащ увод, който при всяко положение е богат на ключови думи.

Психологически е доказано и, че всяка ключова дума се среща поне два пъти в едно или две съседни изречения. Хората пропускат използването на местоимения и това спомага за този факт. Тоест, за да докажем, че една дума е ключова, тя не само трябва да се повтаря в началото на текста, но задължително трябва да има такова повторение, че думите да са в непосредствена близост.

Как да си пазим съдържанието от кражба

юни 21, 2008 от Васил Тошков · 16 коментара
Категории: SEO, Блогове 

Всеки качествен сайт и най-вече блог, става жертва на кражба на съдържание. Това е напълно нормално - слабите сайтове искат да приличат на големите и им подражават. Също така много сайтове просто са създадени от копирано съдържание. Напоследък обаче кражбите на съдържание стават не с цел подражаване и изграждане, а с цел SEO.

Съдържанието е едно от най-апетитните неща за търсачките, защото те самите и потребителите печелят от него. Съдържанието е и един от най-големите фактори при SEO, именно затова борбата и гладът за качествено съдържание са огромни. Това е и целта на Интернет - да съдържа максимално количество качествено съдържание.

Обикновено, когато даден материал бива публикуван в Интернет, то той не се индексира веднага от търсачките. Необходимо е време той да бъде открит от роботите и да бъде причислен към съответния сайт. Оттам нататък това парче текст се счита за собственост на сайта на който е открито и всички негови копия се поставят в Supplemental Results.

Този сценарий изглежда справедлив, но често сайтовете, които крадат съдържание, го крадат с огромни количества и от много места. Следователно те биват много по-често индексирани от тези, които публикуват оригиналите. Съдържанието се намира по-бързо при тях и кражбата е на лице.

Съвременните блогове и CMS системи имат така наречените RSS канали, по които изнасят съдържанието си към програми за четене на потребителите. Тези канали се следят от търсещите машини и новото съдържание се индексира възможно най-бързо и се причислява към определения сайт.

Но тези канали се следят и от крадците на съдържание и именно през тях изтича и се публикува съдържанието в сайта крадец. Една възможна предпазна мярка е тези канали да излъчват само част от публикувания материал или само заглавието му. Така по-голямата част от текста се предпазва от кражба.

Разбира се, има и сайтове, които крадат съдържание на базата на скриптове и при тях единственото спасение е да се прихване IP адресът на злосторникът и да се блокира. Подобни скриптове за щастие се срещат рядко, поне за сега. Ако се пускат през proxy или през различни машини - шансовете ни да ги блокираме намаляват

Причисляването на съдържанието към даден сайт обаче не зависи само от това на кой сайт първо е намерено то. Старите сайтове и тези, които публикуват по-често, както и тези, които са по-големи като размер, се ползват с привилегии при определянето на оригинала на съдържание.

Много често сайтовете, които крадат съдържание са стари, големи и често индексирани. Срещу такива почти нямаме шансове. Единственото спасение е да успеем да накараме копиращия сайт да слага реални връзки към материалите от нашия сайт, които са копирани. Това за жалост се случва трудно и рядко.

Въпреки всичко има закони и лицензи, които се опитват да запазят правата на хората, които честно си пишат съдържание. Много хора изобщо не разбират, че са копирани и чрез труда си работят и изкарват пари за някой крадец, а техните сайтове не мърдат откъм SEO. Именно затова съветвам често да търсите изречения от сайта си и да се уверявате, че Вашия сайт излиза на първо място.