Качество текста является одним из основных показателей ценности информации, содержащихся на страницах сайтов в Интернете.
Качество текста
Со стороны пользователя, качество текста оценивается с точки зрения простоты и полноты изложения, читабельности, актуальности информации.

Другими словами человек, пришедший на сайт, должен получить полноценный ответ на интересующий его вопрос в простой, наглядной и доступной форме.

Поисковые системы пытаются подобрать для пользователя страницу, позволяющую наиболее полно удовлетворить его любопытство.

Для оценки качество текста на страницах используется целый набор сложных алгоритмов обработки, которые оценивают текст и формируют ключевые показатели, определяющие позиции страниц по тем или иным запросам.

К таким ключевым показателям относят релевантность текста, его естественность, уникальность и так далее.

В этой статье мы рассмотрим некоторые алгоритмы, по которым происходит оценка качества текста поисковыми системами.

Хочу сразу заметить, что эта информация дается Вам не как рекомендации к прямому действию, а, скорее, для общего развития.

Закон Ципфа

Закон Ципфа или Зипфа представляет собой метод оценки естественности текста.
Смысл его заключается в определении закономерности распределения частоты слов.

Для этого берется какой-то текст и подсчитывается число вхождений всех слов, которые в нем встречаются. Затем слова упорядочиваются по убыванию частоты их использования в этом тексте.

Так вот, по закону Ципфа второе слово должно встречаться в тексте в два раза реже, чем первое, третье – в три раза реже, чем первое и так далее.

Если эта закономерность соблюдается, то текст по закону Ципфа написан естественно.

В интернете для оценки естественности текста используются специальные программы и сервисы. Одним из них я периодически пользуюсь, его адрес – 1y.ru.

Этот сервис бесплатный и здесь можно проверить тексты для любой страницы своего сайта, либо любой текст, еще не размещенный в Интернете.

Я проверил текст этой статьи и получил вот какие результаты:
оценка текста по закону Ципфа
Вверху график частотности слов по закону Ципфа. А ниже заключение сервиса. Как видим, получилось 80%, что является хорошим показателем. Признаюсь честно, никакими доработками я не занимался. Написал, проверил и разместил.
Проверку текста на этом сервисе я делаю довольно редко, больше из любопытства.
Оценка качества текста

Таким же образом Вы можете оценить естественность текста на сайтах своих конкурентов и лидеров в Вашей нише бизнеса.
Практически сервис 1y.ru можно использовать для оценки своих текстов и их доработке. Но не стоит стремиться к стопроцентному результату, иначе можно исказить Ваш текст до потери смысла.

Реагировать следует лишь при очень низких показателях. Это может Вас уберечь от различных огрехов, таких как перенасыщении текста ключевыми фразами и т.п.

Оцените тексты лидеров поисковой выдачи и Вы увидите насколько они соответствуют показателям естественности и к чему следует стремиться.

Алгоритм TF-IDF

Алгоритм TF-IDF используется для расчета важности слова в документе или, говоря другими словами, веса слова.

Этот показатель прямо пропорционален количеству вхождений слова в анализируемый текст и обратно пропорционален частоте употреблению этого слова в других текстах интернета.

Например. Наша страница состоит из 2000 слов, из них 20 раз встречается слово «закон».

TF соответственно будет равен 20/2000 = 0.01.

Затем имеем количество страниц в интернете, к примеру, 8 000 000 000, и в 4 000 000 из них встречается слово «закон».

DF будет равен 4000000/8000000000 = 0.0005.

Вычисляем Вес слова TF/DF = 0.01/0,0005 = 20

В этом примере цифры я взял условные, но в каждой поисковой системе есть реальные цифровые показатели по каждому слову.

Оценивать Вес слов приходится не часто. Это следует делать при разбавлении ключевых фраз при заполнении тегов Title, метатегов, заголовков публикаций, околоссылочного текста.

В этом случае рекомендуют использовать слова с меньшим весом.

Для основного текста заниматься определением веса используемых слов заниматься нет смысла. Пишите как считаете нужным и не отвлекайтесь на эти расчеты.

Для определения веса слов можно воспользоваться сервисом tools.promosite.ru. Там есть еще различные функции, но в данном случае нас интересует раздел, который так и называется «Вес слов».

Алгоритм BM25 и BM25F

Формула или формулы расчета по этим алгоритмам значительно сложнее. Да и поисковые системы их постоянно дорабатывают и оптимизируют, поэтому копаться в этих формулах практического смысла нет. За поисковиками не угонишься, а мозги себе можно и перенапрячь.

Алгоритм BM25 пришел на смену TF-IDF. Он белее сложный и продвинутый и его суть заключается в оценке текста на странице, основываясь на количестве и месторасположении ключевых слов, без учета ссылок.

Алгоритм BM25F учитывает не только сам текст, но и его отдельные участки или зоны.

К таким участкам относят тег Title, метатеги, заголовки и подзаголовки, околоссылочный текст.

Подробнее о таких участках и о рекомендациях по их заполнению можно прочитать на странице «Структура страницы сайта».
Причем каждый участок текста имеет свою значимость для ранжирования страницы, что в конечном итоге влияет на окончательные позиции страницы в поисковой выдаче.

Поэтому просто грамотно заполнив Title, метатеги, заголовки, можно сразу повысить позиции сайта, особенно по НЧ запросам.

Комментарии (5) на “Качество текста, способы оценки”

  • Cветлана Владимировна пишет:

    Да, ни то текст писать, ни то обалгоритме думать…

  • Михаил пишет:

    Интересно было почитать. Спасибо за некоторую новую для меня информацию.

  • Татьяна пишет:

    Благодарю за статью. Конечно каждую публикацию проверять не будешь, а вот чтоб с конкурентами как то побороться, очень даже хороший сервис.

  • Василий пишет:

    Проверил пару статей на качество, в среднем вышло 50%. Теперь даже не знаю, так оставить или заново переделать(

    • Юрий Силин пишет:

      Если статьи важные для продвижения, то Вам решать, если же проходные, то оставляйте как есть.

Оставить комментарий

Популярные записи