Почему так часто повторяются некоторые слова в сканвордах?

Истинные причины частых повторов некоторых слов вразных сканвордах
 
Для начала нужно уточнить, что повторяются, по большей части, короткие слова. Причем повторяются именно те слова, которые начинаются с гласных букв. Так в чем же дело? Почему так часто повторяются определенные слова, такие как АРА, АБАК, АТАКА, ЕРИКА и т.п.? Причин тут две:

1. Соотношение количества слов разной длины.
2. Особенности построения сетки сканвордов.

Начнем с первой причины. В русском языке порядка 3.000 - 4.000 разговорных слов. Добавляем сюда более-менее известные термины, названия, фамилии, географические названия и получаем 12.000 – 14.000 слов. Причем я не беру во внимание слова длиной более девяти букв. Чем длиннее слова, тем реже они используются в сканвордах. Это обусловлено особенностями построения сеток сканвордов (это мы разберем чуть позже).

Так вот, 14.000 – это примерно тот список слов, используя который составляются относительно разгадываемые сканворды, рассчитанные на широкий круг любителей сканвордов. Увеличение словаря приводит к тому, что к таким сканвордам читатели начинают терять интерес, потому что они слишком сложны в разгадывании. А это, в свою очередь существенно сказывается на тиражах. Такие сканворды можно печатать только тогда, когда они выступают в роли призовых сканвордов. То есть за разгадывание такого сканворда читатель имеет возможность получить какой-то приз. Уменьшение же словаря приводит, соответственно, к более частым повторам слов.

А теперь попытаемся "препарировать" какой-нибудь словарь, используемый для составления сканвордов. Проще всего провести такой анализ на основе словаря, содержащего в себе 15 648 слов, который использует ваш покорный слуга при составлении сканвордов среднего уровня сложности. Что мы и сделаем. Причем, разбирать будет только самые используемые длины слов - 3, 4, 5, 6 и 7 букв.

    трехбуквенных - 621 слово
    четырехбуквенных - 1622 слова
    пятибуквенных - 2972 слова
    шестибуквенных - 3228 слов
    семибуквенных - 3269 слов

Я намеренно не затрагивал здесь двухбуквенные слова, которые я в принципе не использую, и слова, длиннее семи букв, которые, как уже говорилось, - весьма нечастые гости в сканвордах, а посему погоды нам не делают.

Глядя на вышеприведенный список становиться ясно, что чем меньше в в слове букв, тем меньше таких слов, из чего следует, что более короткие слова и повторяться будут чаще - вариантов-то меньше. Кто-то может задать резонный вопрос: "А почему нельзя использовать только длинные слова, чтобы было меньше повторов? Или больше длинных, но меньше коротких?".  А дело в том, что специфика построения сканвордных сеток такова, что все они, как правило, имеют очень высокую плотность пересечения слов, что и не дает возможным "вплетать" в них достаточное количество этих самых длинных слов. А чтобы была понятнее моя мысль, приведу разные сетки сканвордов, для наглядности смакетированные для слов одинаковых длин, и вы поймете, насколько сложно, а, порой, и просто невозможно, увязывать между собой многобуквенные слова:
Сетка сканворда из трехбуквенных слов
Сетка сканворда из четырехбуквенных слов
Сетка сканворда из пятибуквенных слов
Сетка сканворда из шестибуквенных слов
Сетка сканворда из семибуквенных слов
 
Теперь разберем используемой мной словарь более подробно.Чуть ниже я привожу более подробный анализ моего словаря. Учитывая, что чаще всего повторяются слова, которые начинаются с наиболее часто используемых в русском языке гласных букв А, Е, И и О, то на них, в основном, и будет построен наш анализ. Причем, во внимание будут приниматься только 3-х, 4-х и 5-буквенные слова, как наиболее часто повторяющиеся Итак:

Трехбуквенных – 621 слов, из которых:
  • начинающихся с буквы «А» - 41 слов
  • начинающихся с буквы «Е» -   9 слов
  • начинающихся с буквы «И» - 23 слов
  • начинающихся с буквы «О» - 21 слов

Четырехбуквенных – 621 слов, из которых:
  • начинающихся с буквы «А» - 79 слов
  • начинающихся с буквы «Е» - 16 слов
  • начинающихся с буквы «И» - 43 слов
  • начинающихся с буквы «О» - 61 слов

Пятибуквенных – 621 слов, из которых:
  • начинающихся с буквы «А» - 156 шт.
  • начинающихся с буквы «Е» -   19 шт.
  • начинающихся с буквы «И» -   66 шт.
  • начинающихся с буквы «О» - 163 шт.

Как видите, таких слов (начинающихся на наиболее часто употребляемые гласные буквы) набирается всего 697. Почему же я делаю такой упор именно на слова, начинающиеся с гласных букв, и почему именно они чаще других повторяются? Начнем с того, что в русском языке 33 буквы, из которых гласных всего 9 штук, зато согласных - целых 24 (вместе с Й, Ь и Ъ), в то время, как в словах гласных букв применяется лишь ненамного больше, чем согласных. А что это значит? Это значит, что гласные буквы в словах повторяются почти в три раза чаще, чем согласные.

А теперь соотнесите количество гласных букв в словах с количеством слов, начинающихся на эти гласные буквы. И как тут быть, когда на начальную букву пересекаемого слова в сетке сканворда попадают бесконечные А, Е, И и О? Ведь слов, начинающихся с этих букв, как мы уже выяснили, крайне мало, тогда как внутри слов этих букв много.

Особенно трудно с буквой Е (она же Ё) - слов, начинающихся с этой буквы меньше всего (см. выше), в то время, как по частоте употребления внутри слов она стоит на четвертом месте после О, А и И. К примеру, такие слова, как СЕЛЕНИЕ, ПЕЧЕНЬЕ, ИСЦЕЛЕНИЕ, БЕРЕГ, СЕВЕР, ПЕРЕВЕС, ПЕРЕМЕТ, ПЕРЕБЕЖКА, ВЕТЕР, ЖЕЛАНИЕ, ПЕНИЕ, ТЕРПЕНИЕ и так далее, и тому подобное.

Теперь чуть подробнее рассмотрим другую причину частых повторов отдельных слов - это особенности построения сканвордных сеток.

Чтобы хоть в какой-то мере обойти слишком частые повторения отдельных слов, я стараюсь строить сетки сканвордов с минимальным количеством четырех-, а тем более трехбуквенных слов (двухбуквенные я вообще не использую). Но и тут свои сложности – чем больше по объему сканворд, тем труднее это делать и тем большее количество четырех- и пятибуквенных слов приходится вводить. Иначе программа может просто не справиться с заполнением партии сканвордов, к примеру, из 10 штук, в которых бы вообще не повторялись слова. Ну, а вручную это вообще нереально сделать.

Вы обратили внимание, что в классических кроссвордах повторения слов относительно редки? А причина тут как раз и кроется в этих самых пресловутых особенностях построения сеток, которые в классических и скандинавских кроссвордах строятся по совершенно разным принципам. Для примера приведу небольшие фрагменты из сеток классического и скандинавского кроссвордов:
Классический кроссворд
Сканворд
Как видно из приведенных фрагментов, сетки в обоих типах кроссвордов строятся по разным принципам. К примеру, в классическом кроссворде разделительные клетки (обычно черного цвета) могут ставиться где угодно, причем, необязательно симметрично. Основное здесь, присущее именно классике, - разделительные клетки и клетки для букв равномерно чередуются. Причем разделительные клетки редко соединяются попарно. Это позволяет вставлять в сетки слова практически любой длины, «пряча» часто повторяемые буквы (и вообще редко используемые, типа «Ь») между разделительными клетками. В сканворде же так не получится.

Все дело в том, что в роли разделительных клеток здесь выступают клетки с определениями к словам и эти клетки обязательно должны стоять в начале слов, к которым они относятся. Поэтому такие клетки уже не поставишь где душе угодно, и добиться равномерного чередования разделительных клеток с клетками для букв, как это легко получается в классическом кроссворде, уже не получится.

Проще сказать, в классических кроссвордах разделительные клетки можно ставить где угодно, так как они никак не связаны со словами, а в скандинавских же, все разделительные клетки жестко привязаны к словам, так как несут в себе определения к этим словам, а потому должны располагаться рядом с первыми буквами этих слов. Именно по этой причине в классических кроссвордах свободно используются слова любой длины и повторения относительно редки. В сканвордах же, в силу того, что слишком много гласных букв попадает на начало слов (а, как мы помним, таких слов немного), частых повторов отдельных, так называемых слов-паразитов, не избежать.

В заключении, предвосхищая ваше предложение просто выкинуть из словаря те слова, которые подвержены наиболее частым повторениям, замечу, что это только кажущаяся легкость выхода из положения, так как место этих слов тотчас же займут другие. В этом случае мы просто устраним следствие, а не саму причину, котрая кроется именно в частоте употребления тех или иных слов, а так же в специфике построения сканвордных сеток.