В интернете довольно часто можно найти информацию о том, как составить частотный тематический словарь. Хотелось бы продолжить тему работы со словарями и рассказать о том, как подбирать синонимы, чтобы готовый словарь получился достаточно качественным. Все приведенные ниже правила — результат многочисленных опытов (как удачных, так и не очень) над базами к различным сервисам. А также пожелания людей, которые активно используют в своей деятельности подобные программы.

Правило первое.Нужно навсегда забыть о том, что у одного слова может быть больше двух синонимов. Как показывает практика, в рамках одного контекста у слова может быть не больше одного-двух синонимов. Лучше выбрать одно слово, которое подойдет в любой ситуации, чем десяток не слишком удачных синонимов. Все остальные синонимы просто затрудняют функционирование базы и вполне могут считаться мусором.

Правило второе. Нельзя заменять часто использующиеся слова на редкие. Эта ошибка характерна для очень многих баз синонимов, и на заре своего существования любая программа этим грешила. Подобные замены можно встретить в сервисах, которые редко обновляются. Это плохо по двум причинам: во-первых, большое количество редких слов в тексте сводит его читабельность к нулю, а во-вторых, вполне возможно, что Яндекс в скором времени научиться без труда вычислять такие тексты. При этом редкие слова на частые менять можно и даже нужно.

Правило третье. Синонимы должны иметь один и тот же род. К примеру, нельзя заменить слово «ад» на «пекло», т.к. если в тексте у этих слов будут зависимые, например «сущий ад», то такая замена окажется неадекватной. Это правило относится к разряду очевидных, но почему-то такие ошибки встречаются довольно часто. Выполнение этого правила позволит сохранить читабельность текста.

Правило четвертое. Учитывать возможность присутствия слова в устойчивых словосочетаниях. Если синонимайзер, с которым вы собираетесь работать, не предусматривает работы со словосочетаниями, то подбирая синоним к каждому слову, нужно прикидывать, может ли исходное слово оказаться частью фразеологизма. Если есть возможность работы со словосочетаниями, то такие изречения лучше заменять на простые слова. Например, «работать спустя рукава» лучше всего заменить на «работать плохо». А вот делать обратную замену не стоит, так как это сделает уникальность текста ниже. Копирайтерам стоит избегать устойчивых выражений.

Правило пятое. Нельзя расшифровывать сокращения и аббревиатуры. Почему? Например, «миллиметр» — это всегда «мм», но «мм» — это и «миллиметр», и «миллиметра», и «миллиметров», и т.п. Но, вполне можно делать эти сокращения.

Правило шестое. И не пытаться синонимизировать все. Конечно, можно взять отдельный текст и синонимизировать каждое слово, но тогда об универсальности полученной базы не будет и речи. К тому же, опыт показывает, что поисковики лучше относятся к не совсем уникальному тексту, чем к уникальному, но нечитабельному. Пожалуй это все. Действительно, правила простые и почти лежат на поверхности. Но есть и еще одно, даже не правило, а скорее закон: качество базы прямопропорционально количеству времени, затраченному на ее составление.