Для читателя, желающего детальнее познакомиться с числовым
материалом, в конце книги приведены таблицы 2 и 3, показывающие
распределение объемов по годам внутри книг Ливия и Барониуса.
ПРИЛОЖЕНИЕ 1. В.П.ФОМЕНКО, Т.Г.ФОМЕНКО.
АВТОРСКИЙ ИНВАРИАНТ РУССКИХ ЛИТЕРАТУРНЫХ ТЕКСТОВ
Комментарий А.Т.Фоменко.
Вниманию читателя предлагается исследование, выполненное
моими родителями Валентиной Поликарповной Фоменко и Тимофеем
Григорьевичем Фоменко в 1974-1981 годах. В полном объеме их
работа публикуется здесь впервые. В краткой форме она вошла в
1983 году в сборник "Методы количественного анализа текстов
нарративных источников", Москва, 1983, Академия Наук СССР, Ин-т
Истории СССР, с.86-109.
В настоящем тексте ссылки даются на список литературы к
данному Приложению 1.
Настоящее Приложение находится несколько в стороне от
основного русла нашей книги, поскольку не связано напрямую с
проблемами древней хронологии. Однако, этот материал показывает -
как могут ЭМПИРИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ использоваться при
решении не только хронологических, но и других смежных проблем,
например, - при установлении авторства письменного документа. А
поскольку центральным стержнем нашего анализа письменной истории
являются эмпирико-статистические методы, мы и решили познакомить
читателя с этим исследованием. Тем более, что проблема
установления авторства в современной и в древней литературе
является чрезвычайно актуальной и любые новые методы в этой
области могут оказаться полезными.
1. ВВЕДЕНИЕ. ВКРАТЦЕ ОБ ИСТОРИИ ПРОБЛЕМЫ.
В литературе, истории, лингвистике часто возникает вопрос об
атрибуции литературных произведений - действительно ли они
написаны одним автором. Действительно ли диалоги Платона
написаны одним человеком? Правда ли, что пьесы Шекспира -
творения одного гения? Или же они написаны разными людьми? Кто в
действительности скрывается под именем "Шекспир"? Специальный
интерес приобретает эта проблема, когда возникает подозрение в
плагиате.
Особое звучание задачи такого сорта приобретают при
исследовании ДРЕВНИХ текстов, данные об авторах которых утрачены
или сомнительны.
Укажем лишь на некоторые подходы к решению таких задач.
Например, в работе В.Фукса [1] изучался вопрос об авторстве
некоторых древних текстов на основе статистического анализа
различных ГРАММАТИЧЕСКИХ структур их языка.
Много исследований посвящено обнаружению количественных
закономерностей, позволяющих различать между собой РАЗНЫЕ
ЛИТЕРАТУРНЫЕ ЖАНРЫ - поэзию, драматургию, публицистику и пр. [2].
Попытка использования точных математических приемов для
решения проблемы плагиата изложена, например, в книге [10].
Проблеме обнаружения авторских инвариантов посвящена
значительная научная литература. Так например, структура языка
различных авторов изучалась с помощью отдельных распорядительных
слов, в частности, предлога "в", частицы "не" [3], или при помощи
длины предложений и слов [4]. Однако, как показали эксперименты,
использование лингвистических спектров ОТДЕЛЬНЫХ распорядительных
слов не позволяет обнаружить устойчивые инварианты. На это указал
еще в 1916 году академик А.А.Марков [5], отметивший что при
больших объемах выборок результаты такого типа должны "колебаться
около среднего числа, подчиняясь общим законам языка", что
естественно затрудняет различение авторов.
Полезный подход продемонстрирован в ряде работ В.Фукса, где
каждому автору сопоставляются такие его характеристики, как
среднене количество слогов и среднее количество слов в
предложении. Этот прием позволяет изобразить текст (автора)
точкой на плоскости в случае использования двух параметров, или
же точкой в многомерном пространстве (если число параметров
возрастает).
Интересные исследования ведутся и в отечественной филологии
(см., например, [6]-[9]).
Следует отметить общую характерную особенность этих и многих
других (не упомянутых нами здесь) исследований. Обычно изучаются
индивидуальные количественные параметры текстов и путем их
сравнения ученые старались выявить "значимые различия", опираясь
на которые можно было бы отличить друг от друга разных авторов.
Однако главным вопросом здесь является - какие различия следует
считать значимыми, а какие - нет. Тут открывается простор для
субъективизма. И здесь коренятся главные трудности применения
статистических методов к задачам такого сорта.
2. ЧТО ТАКОЕ АВТОРСКИЙ ИНВАРИАНТ?
Под АВТОРСКИМ ИНВАРИАНТОМ мы понимаем количественную
характеристику литературных текстов (некий параметр), который
а) однозначно характеризует своим поведением произведения
одного автора или небольшого числа "близких авторов", и
б) принимает существенно разные значения для произведений
разных групп авторов.
Желательно, чтобы число "разных групп" было достаточно
велико, и чтобы каждая группа объединяла относительно мало
похожих, близких по стилю авторов.
Однако многообразие грамматических структур, участвующих в
формировании литературных текстов, сильно затрудняет поиски таких
инвариантов. Уже простые вычислительные эксперименты показывают,
что обнаружение числовых характеристик, различающих разных
авторов, - сложная задача. Дело в том, что когда человек пишет
книгу, то существенную роль играют не только подсознательные, но
и сознательные факторы. Например, частота употребления автором
РЕДКИХ И ИНОСТРАННЫХ СЛОВ может, конечно, служить неким
показателем его стиля, эрудиции. Однако этот показатель ЛЕГКО
КОНТРОЛИРУЕТСЯ автором на СОЗНАТЕЛЬНОМ уровне, поскольку редкие и
иностранные слова вставляются в текст нечасто и каждый раз автор
специально отмечает про себя: "здесь я вставляю иностранное или
редкое слово". В результате, как неопровержимо свидетельствуют
конкретные подсчеты, использовать эту числовую характеристику в
качестве авторского инварианта НЕЛЬЗЯ. Она контролируется
автором, "скачет" и писатель может легко менять ее от
произведения к произведению.
Отсюда видно, что количественная оценка индивидуальных
отличительных особенностей автора - весьма нетривиальная задача.
Сформулируем точнее - какими свойствами должен обладать авторский
инвариант.
Искомая числовая характеристика должна удовлетворять
следующим естественным требованиям.
1) Она должна быть достаточно "массовой", интегральной,
чтобы СЛАБО КОНТРОЛИРОВАТЬСЯ автором на сознательном уровне.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187