Искусственная семантика для некоммерческих проектов

10.09.2016 ред (22.10.2023)
1302 просмотра

Понятие искусственной семантики

Существует множество определений термина «искусственная семантика», разные люди трактуют его совершенно по-разному. Поэтому, в первую очередь важно договориться о терминологии: что понимать под искусственной семантикой в данной статье?

Искусственная семантика – это семантическое ядро, сформированное искусственно, на основе изучения реальной семантики и формирования прогноза о том, как будут выглядеть поисковые запросы в реальности. Возможно, это не лучшее определение, поэтому обратимся к практическим примерам.

Итак, что же такое «прогноз, построенный на основе реальной семантики»?

Давайте представим ситуацию, в которой маркетолог работает с выборкой, собранной по запросу [ковш для погрузчика]. В этой ситуации стандартный алгоритм действий выглядит достаточно однотипно:

— собираем семантику из доступных источников (базы ключевых слов, Wordstat, подсказки, MOAB Pro & Suggest Pro)

— получаем некоторое количество расширенных поисковых запросов, содержащих [ковш для погрузчика]

— группируем и кластеризуем ключевые запросы

— получаем группы схожих запросов, на основе которых создаем посадочные страницы, контент, заголовки и прочее

В ходе кластеризации мы можем получить совершенно разные группы запросов, которые будут базироваться на неких реальных сущностях, вокруг которых группируется спрос в этой тематике:

[ножи для ковша погрузчика] + некоторое кол-во однотипных расширенных запросов

[ковш для погрузчика + %brand%] – т.е. ключевые слова, в которых пользователь уточняет, для какого именного бренда погрузчиков ему нужен ковш

[ремонт ковша для погрузчика] + некоторое количество однотипных расширенных запросов

[емкость/вместимость ковша для погрузчика] + некоторое количество однотипных расширенных запросов

Так или иначе, очевидно, что в рамках каждой тематики расширенные запросы формируются вокруг более мелких «подтем», которые, в свою очередь, зависят от тех реальных сущностей (ножи, ремонт, бренды), которые востребованные в оффлайне.

И, в случае тематики [ковш для погрузчика], мы не можем «заранее» предсказать или спрогнозировать эти сущности, не будучи специалистом по погрузчикам. Единственный способ выделить возможные пользовательские проблемы – получить статистически достоверный массив семантики, а затем выполнить ее кластеризацию.

Однако, в некоторых тематиках дело обстоит по-другому. Иногда у маркетолога появляется возможность, на основе изучения и анализа статистически достоверной выборки, спрогнозировать, как будут выглядеть запросы и спроектировать сайт и маркетинговую стратегию на основе этих данных.

Классический пример – туризм, в частности, и вообще все, что так или иначе базируется на «географических» запросах, связанных с перебором стран/городов как набора переменных:

а) Список стран на сайте 1001Тур

б) Для каждой конкретной страны контент довольно похож, различается только страна и собственно сами туристические предложения. Сравните, например, страницы про Мексику и Абхазию:

  • одинаковый, маленький, «неуникальный» в классическом смысле слова текст, от страницы к странице подменяется только страна. Адепты карго-культа о расчете количества употреблений каждого конкретного слова на странице могут испытать неприятные ощущения в области спины
  • все title созданы по единой схеме: <title>%страна% — туры, цены на отдых в Абхазии 2016 вылет из Москвы: путевки, новости, погода, курорты и достопримечательности — 1001 Тур. </title>
  • все h1 созданы по единой схеме: Туры в %страна% 2016 из Москвы
  • активно эксплуатируется тема прогнозирования запросов под «будущий» трафик.

Например, вряд ли кого-то удивят страницы формата:

Горящие туры за картошкой в раскладке по месяцам: страница 1, страница 2, страница 3

При этом самих по себе предложений горящих туров в Белоруссию на сайте нет, что однозначно говорит о том, что страницы были просто склонированы по шаблону, а затем на них были выведены туры «по соответствию» в поле «страна».

При этом страницы без предложений из индекса убирать не стали, что однако, не помешало им занять место в ТОПе Яндекса.

Однако многих, вероятно, может удивить наличие в индексе вот таких страниц:

Маркетологи 1001Тур грамотно клонируют страницы не только по переменным %город% и %страна%, но и по переменным %месяц%, %год%, так как знают, что даже создав «пустую» страницу без туров под «будущее» можно застолбить место в выдаче уже сейчас. Фактически, страницу с возрастом 1-2 года, появившуюся задолго до появления запроса [туры гоа 2017], в каком-нибудь условном феврале-декабре 2017 будет очень тяжело «подвинуть» в топе.

Таким образом, мы увидели главное – запросную базу в некоторых тематиках при необходимости можно разложить на составляющие (=переменные), спрогнозировать значение этих переменных, а затем получать как органический, так и контекстный трафик на основе этих переменных.

Искусственная семантика и уникальность текста

Зачастую использование искусственной семантики для получения органического трафика сталкивается не столько с какими-либо техническими или организационными трудностями, сколько с огромным набором предрассудков и предубеждений, существующих в головах оптимизаторов.

Один из ключевых предрассудков – так называемая уникальность текста. Уникальность текста в трактовке обычного оптимизатора – это уникальный набор слов. Уникальность набора измеряется при помощи специальных программ, использующих метод шинглов. Однако, когда речь идет об искусственной семантике, подразумевается, что тексты на всем сайте будут одинаковыми – на каждой конкретной странице будет подменяться только набор заранее заданных переменных – город, месяц, адрес, год, и так далее.

Чаще всего это вызывает подлинный испуг: как!?? Ведь тексты будут неуникальными!

Тут необходимо сделать разъяснение: уникальность текстов, измеренная по методу шинглов давно игнорируется Яндексом в любых тематиках, для Google существуют как позитивные (в большинстве случаев), так и негативные примеры, в зависимости от тематики. Оговорюсь, что под позитивными и негативными примерами я понимаю не столько сами позиции (неинформативная метрика), сколько получение или неполучение значительного количества трафика с поисковой системы при использовании как бы неуникальных текстов.

Еще раз: проверка текста на уникальность, которую стандартный оптимизатор выполняет при помощи Advego Plagiatus (или любого аналога) – не имеет смысла. Грамотное построение сайта и взаимодействие с поисковой системой в рамках ее правил может дать вам большое количество трафика, даже при использовании на 100% скопированного контента, «шаблонного» контента с использованием переменных или комбинации этих приемов.

Что же понимают поисковые системы под «уникальным текстом»?

Поисковые системы давно и хорошо умеют две вещи:

а) отслеживать взаимодействие пользователя с конкретным документом

б) составлять «фактическую» выжимку из документа

Работу «фактической» выжимки можно отлично видеть на примере Яндекс.Новостей, когда документы, описывающие одно и то же событие разными словами, приводятся к одному знаменателю: Выставку «Ван Гог. Ожившие полотна 2.0» продлили до 8 марта.

На поиске отрабатывает комбинация указанных факторов: с одной стороны, важно насколько успешно документ решает пользовательскую проблему, с другой – насколько уникален набор фактов, предложенный пользователю по его проблеме в данном документе.

Исходя из своего опыта, могу сказать, что сам не проверяю на уникальность тексты, которые пишут для меня копирайтеры. Однако, работая с постоянным набором копирайтеров и редакторов, даю им четкую установку: любое слово и фраза в тексте должно быть употреблено потому, что сообщает пользователю некий важный факт, связанный с его проблемой, ради решения которой он посещает страницу.

Ниже будет показано, что «неуникальные» тексты могут привлекать значительное количество трафика из поисковых систем – и при этом их, так называемая «неуникальность», не приводит к каким-либо негативным последствиям.

Искусственная семантика для некоммерческих проектов

В первую очередь представлю вниманию читателей реальный кейс проекта, построенного на искусственной семантике, а затем на примере расскажу, как сделать «проект» сайта на искусственной семантике своими руками и с минимальными затратами.

Кейс: сайт тематики «Отопление», некоммерческий сезонный трафик, 90% трафика – поисковые системы, примерно равное распределение между Yandex и Google. Сайт привлекает траффик по геонезависимым запросам. В индексе 3000 страниц (5526 загружено роботом, 3053 – страниц в поиске).

Для всех 3000 страниц используются 4 шаблона текста, тайтлов, дескрипшнов и h1. В шаблонах подменяется только город и область. Расходы на контент для этого сайта составили около 3000 рублей. Монетизация – открутка рекламы, как Adsense, так и прямые баннеры наших коммерческих партнеров. Ссылки не покупались.

Пик сезона, с точки зрения спроса, – конец весны, и затем плавный рост до октября-ноября:

На этом скриншоте из Метрики мы видим:

1. Суммарная посещаемость – почти 300 000 посетителей менее чем за 3 месяца

2. Пиковые значения – 12000 и 6000 посетителей в сутки из Google и Yandex соответственно

3. Отказы – чуть более 10%, то есть очевидно, что несмотря на «шаблонный» контент, пользователи вовлечены во взаимодействие с сайтом

4. Время просмотра – чуть более минуты в среднем, в зависимости от поисковой системы

На данный момент сайт в индексе, посещаемость на уровне 500 посетителей\сутки, плавно начинает расти в преддверии весеннего сезона. К сожалению, я не могу показать URL сайта, но предлагаю рассмотреть на простом примере алгоритм построения подобных сайтов.

Итак, возьмем для примера тематику «Бани». Тематика достаточно простая, в качестве переменной в запросах используется много географических обозначений. Предположим, что в итоге мы хотим создать сайт-агрегатор информации о банях и саунах в регионах России. Ниже будет показан упрощенная общая схема действий – в данном случае не преследуется цель сделать лучший в мире сайт о банях, важно лишь показать общий принцип обработки семантики на практике.

Будем придерживаться следующего плана:

1. Спарсим и проанализируем семантику

2. Разработаем структуру сайта в Excel на основе данных анализа

3. Закажем контент для страниц категорий и страниц описаний собственно банных комплексов

Парсинг и анализ семантики

Возьмем выборку из обновленной 6-миллиардной базы MOAB Suggest Pro (аккуратно, выборка с доп.данными – около 60 МБ), это все запросы с вхождением «Бани» с точной частотностью более 1, для региона «Россия».

Всего найдено 282 995 запросов.

Анализ файла в инструменте «Анализ групп» в Key Collector показывает, что выборка в высокой степени насыщена однотипными региональными запросами вида:

[бани + %что-то еще% + %регион%]

(Скриншоты: Воронеж, Клин, Тверь, Иркутск).

Это позволяет нам утверждать, что данная тематика подходит для наших целей: список регионов – это набор заранее известных переменных, а что скрывается под %что-то еще% — как раз сейчас мы и выясним.

Разработаем структуру сайта в Excel на основе данных анализа

Во-первых, сравним несколько выборок по запросам с городами: [бани воронеж], [бани самара], [бани спб]. В ходе сравнения нам необходимо выполнить кластеризацию – проще всего это делать при помощи инструмента «Анализ групп» в КК, но можно воспользоваться и любым другим удобным методом кластеризации. Наша задача – сравнивая кластеризованные выборки, найти группы пользовательских интересов, востребованные вне зависимости от города, то есть вычислить наиболее популярные «добавки», то самое «что-то еще», о котором мы говорили выше — [бани + %что-то еще% + %регион%]

Даже в результате поверхностного анализа выявляется следующий список групп:

— бани на дровах

— бани с вениками

— бани с бассейном

— бани со спа

— общественные бани

— бани с бочкой

— бани турецкие

— бани римские

— мобильные бани

Таким образом мы получили так называемый список категорий второго уровня. Пока оставим эту информацию в стороне и внимательно посмотрим, какие слова часто употребляются вместе с названием любой случайной бани, то есть вычислим наиболее стандартные «добавки» для формулы — [%название бани% + %город% + %что то еще%]

Для этого нам надо взять статистически достоверный массив запросов, состоящий только из названий бань – а затем снова кластеризовать его. В результате подобной операции выявлено, что чаще всего вместе с названием бани и городом употребляют следующие словосочетания:

— официальный сайт

— цена, прайс лист

— фото

— отзывы

— адрес

— телефон

— часы работы

Эта информация поможет нам при создании собственно каталога бань.

Теперь у нас есть вся информация, необходимая нам для создания структуры сайта. Полученную информацию можно преобразовать в файл плана сайта, который в Excel выглядит вот так.

Давайте вместе разберем этот файл более подробно, а также более подробно разъясним зачем нам понадобилось проводить анализ семантики, описанный выше.

Вкладка «Общая структура сайта»

На этой вкладке рассмотрена общая структура проектируемого сайта. Все страницы разбиты по уровням вложенности:

Обратите внимание, что существует два каталога второго уровня, дочерних от главной страницы:

— каталог с категорийными страницами

— каталог со страницами собственно банных комплексов

При помощи нехитрых скриптов, имеющихся в большинстве современных CMS, на более позднем этапе мы осуществим автоматический вывод релевантных банных комплексов на каждой странице.

Особо хотелось бы обратить ваше внимание на текстовые параметры сайта: тайтл, дескрипшн и H1 – они используют переменные %область%, %город%. Во всех текстовых тегах упомянуты синонимы слова «баня» — «парилка» и «сауна», для сбора большего количества низкочастотного трафика в соответствующем городе:

Важно правильно понимать, что на данной схеме дается лишь ограниченное количество страниц, чтобы схематически показать общую структуру сайта.

На боевом варианте сайта будет взята база всех областей РФ (а, возможно, и ex-СНГ), база всех городов в этих областях, будет создано соответствующее количество страниц.

Наконец, самое важное – столбец «Контент»:

Под словом «текст№ххх» в данном столбце подразумевается отдельный шаблон текста – то есть, как не трудно увидеть, всего на сайте будет использоваться 7 шаблонов текста. В самих шаблонах будут использоваться уже знакомые нам переменные – город, область, название бани.

Не рекомендуется делать тексты очень большими – в данной ситуации будет вполне достаточно объема в 1500-2000 символов, однако, постарайтесь заказать шаблон действительно профессиональному копирайтеру, возможно, бывшему журналисту – так, чтобы текст был на самом деле увлекательным, интересным, наполненным полезной информацией.

Почему именно 7 шаблонов? Как видно, используется отдельный шаблон на каждом уровне – ввиду того, что каждый уровень – это как бы немного другая реальная сущность, несущая немного другую смысловую нагрузку, поэтому лучше использовать шаблоны максимально адаптированные для каждого уровня в отдельности.

Вкладка «Таблица с информацией о банях»

В этой таблице приведены поля, которые необходимы нам в каталоге бань и саун, а также для примера выполнено заполнение этих параметров по одной выдуманной бане.

Итак, параметры в столбцах A-I появились в таблице неспроста:

Именно эти слова, как показывает наш анализ, чаще всего употребляют пользователи вместе с названием некоей случайно бани, а значит – наша задача – дать ответ на все вопросы вида — [%название бани% + %город% + %что то еще%].

В данном конкретном случае это означает, что в нашем огромном каталоге бань по каждой бане должна быть информация по сайту, телефону, часам работы, адресу бани, а также ее фотографии.

Откуда взять этот контент?

Здесь вариантов масса, в зависимости от того что предпочитаете лично вы: можно заказать программисту скрипт парсинга некоего публичного источника, либо воспользоваться базами данных организаций, которые в изобилии можно купить или скачать в интернете бесплатно в виде Excel. Там есть все эти данные, и не составит труда перенести их в нашу таблицу.

Несколько труднее обстоит дело со столбцами I-S.

Как вы помните, категоризация на уровне 6 в общей структуре сайта подразумевает создание страниц вида:

Чтобы решить эту задачу, нам необходимо сделать две вещи:

— создать поле «тип бани» на самой категорийной странице и внести туда значение drova=true или же veniki=false

— создать аналогичное поле на странице собственно бани, чтобы затем автоматически вывести все релевантные бани с фильтрацией по городу, области и типу на соответствующей странице.

То есть, например, к выводу бань на странице «Бани на дровах в Красноярске» будет автоматически применен фильтр city=Krasnoyarsk и drova=true.

Если с информацией о городе мы уже разобрались, то все несколько сложнее с категоризацией второго уровня. Здесь наиболее оптимальный путь – выдать таблицу с заполненными полями A-I фрилансеру (а лучше нескольким) и попросить их расставить значения «да-нет» в соответствующих полях за умеренную плату.

Поверьте, расходы будут невелики, особенно с учетом того что фриланс сейчас – это рынок покупателя, а не продавца.

Вкладки «Уровень 4,5,6»

Наиболее остро стоящая проблема для подобных сайтов на искусственной семантике – создание страниц.

90 областей + (1000 городов * 9 категорий) + как минимум несколько тысяч страниц с описанием банных комплексов = итого 4-5 тысяч страниц вам гарантированы.

Проблема создания страниц решается достаточно просто – для любой популярной CMS вы без труда найдете скрипт загрузки страниц из xlsx или csv. В этом представлении, 1 строка = 1 страница.

Давайте посмотрим, что происходит на наших вкладках с точки зрения массовой загрузки? На вкладке «Таблица с информацией о банях» — все просто. Сколько строк, столько и страниц, каждая страница обладает 18 полями с расширенной информацией о бане. Однако у нас остались еще категорийные страницы – с ними все то же самое, просто их нужно представить в аналогичном построчном виде.

Уровень 4 «Области»; уровень 5 «Города»; уровень 6 «Категории внутри города»

В таблицах представлено ограниченное количество городов и областей исключительно для понимания процесса. Значения переменных в таблицах берутся из столбцов, существующих в этой же таблице. В этой связи – можно обратить внимание на столбец H в таблице «уровень 6», где значение переменной city приводится в родительном падеже для использования в заголовке.

В итоге, можно резюмировать, что создание некоммерческих/информационных проектов на основе искусственной семантики состоит из нескольких этапов:

— сбор семантики и выявление в ее структуре прогнозируемых переменных (город, месяц, отель, курорт, баня, заправка и пр.)

— составление структуры сайта на основе информации о популярных переменных

— создание шаблонных текстов для каждого уровня

— представление текстового контента ( в т.ч. и текстовых тегов) в виде Excel-таблиц с переменными в разбивке по уровням

— замена переменных их реальными значениями на этапе обработки в Excel или после загрузки в CMS (нежелательно это делать при генерации страницы – излишняя нагрузка на базу, тогда как на практике такой контент редактируется редко и пользы и удобства от переменных немного)

— автоматизация загрузки контента в движок

Вторая часть статьи, которая рассматривает применение искусственной семантики для коммерческих проектов – для получения как контекстного, так и органического трафика.