Уильям Шекспир - Шекспировские чтения, 1977
Если раньше статистическими характеристиками в большинстве случаев избирали распределение частот букв и слогов в слове {Mendenhall T. A. Mechanical solution of a literary problem. - Popular Science Monthly, 1901, N 9, p. 59; Elderton W. P. A few statistics on the length of English words. - Journal of the Royal statistical society (Ser. A), 1949.} или частот слов в предложении {Yule G. U. On the sentence-length as a statistical characteristic of style in prose. - Biometrika, 1939, v. 30, N 4.}, то современные исследователи, убедившись в том, что вышеупомянутые характеристики обладают слабой или никакой дифференцирующей способностью, предпочитают считать слова и грамматические категории.
"На опыте предыдущих исследований, - пишут Мостеллер и Уоллес, - мы убедились, что единичная переменная, как бы тщательно ее ни выбирали, обладает незначительной дифференцирующей способностью, в то время как совокупность переменных предполагает наибольший успех. Поскольку частоту употребления слова можно рассматривать как переменную, слова дают нам совокупность из тысяч переменных. Слова, кроме того, легко распознавать и идентифицировать" {Mosteller F., Wallace D. Inference and disputed authorship. - The Federalist, Reading (Mass.), 1965, p. 6.}.
Однако, избирая слово в качестве единицы подсчета, исследователь должен учитывать одно, чрезвычайно неудобное при решении подобного рода задач, свойство: слова слишком зависят от контекста.
"Первое необходимое условие, - пишет Г. Сомерс, - это то, что критерии оценки должны быть абсолютно независимыми от контекста, иначе полученные результаты покажут только разницу в тематике" {Somers H. Statistical methods in literary analysis. - In: The computer and literary style. Kent, 1966, p. 129.}.
Лингвисты по-разному решают эту проблему. Некоторые, как А. Эллегорд {Ellegard A. A statistical method for determining authorship. Gotheburg, 1962.}, считают, что в текстах примерно одинакового характера (какого именно, не оговаривается) различия между авторами в употреблении слов и выражений должны быть сильнее различий, существующих между отдельными текстами одного и того же автора; другие ищут способы устранить влияние контекста.
Упомянутые уже Мостеллер и Уоллес, блестяще решившие загадку статей "Федералиста", а также Милич и Мортон {Milic L. T. Op. cit. Morion A., Levin M. Some indicators of authorship in Greek prose. - In: The computer and literary style.} высказываются в пользу грамматических, или "функциональных", слов, как менее зависимых от содержания текста.
Как следует из работы А. Шайкевича {Шайкевич А. Я. Опыт статистического выделения функциональных стилей. - Вопросы языкознания, 1968, э 1.}, статистические показатели употребительности тех или иных лингвистических элементов намного больше варьируют в текстах разных стилей, чем в текстах, написанных разными авторами, но относящихся к одному и тому же стилю.
Опыт исследования на материале драматургических и поэтических текстов английских авторов конца XVI - начала XVII в. показал, что и "функциональные" слова не являются исключением из общего правила. Большинство из них сильнее зависит от жанра и стиля, чем от принадлежности тому или иному автору {Подробное изложение этой работы см.; Каджазнуни Л. Опыт выделения и разграничения функциональных и индивидуальных стилей. УЧРП. зап. МГПИИЯ им. М. Тореза, 1970, вып. 54, с. 108-129.}.
Объектом исследования служили пьесы, поэмы и сонеты Шекспира, Марло, Чапмена, Лили и Бена Джонсона, за единицу подсчета принималось слово (как совокупность словоформ), а также словообразовательные классы слов (например, слова на -ed, -ing, dis- и т. д.).
С целью выявить факторы, оказывающие наибольшее влияние на употребительность лексических единиц, - это было задачей начального этапа исследования - тексты группировались, по сходству в употреблении определенных, специально отобранных признаков - слов и классов слов. Для этого использовался; метод корреляционного анализа.
После подсчета частот признаков в текстах между каждой парой исследуемых текстов вычислялся коэффициент корреляции, позволяющий установить, насколько данные тексты близки или же, напротив, расходятся по употребительности признаков, на основе которых производились вычисления. При анализе полученных таблиц коэффициентов корреляций выяснилось, что тексты, сходные по употребительности отобранных признаков, образуют группы (clumps или clusters), из которых пять, наиболее четких и хорошо поддающихся интерпретации, можно определить как жанровые и стилистические. Группа 1 "высокий", поэтический стиль, группа 2 - стиль "низкий", разговорный, (в эти группы вошли тексты разных авторов и разных жанров); группа А - поэтическая (ее составили три поэмы), группа В - трагедий политико-гражданского характера и группа С - комедий. Ни на одной из корреляционных таблиц, полученных на основе самых различных слов и классов слов, тексты не разбились по признаку авторства.
Поскольку некоторые тексты не вошли ни в одну из выделенных групп и полученная классификация оказалась слишком грубой, была разработана методика определения индексов, количественных характеристик, указывающих на большую или меньшую степень принадлежности данного текста к той или иной группе текстов. Индексы вычислялись на основе соотношения признаков, типичных и нетипичных для каждой группы. Таким образом, каждый текст получил количественную характеристику в каждой из стилистических или жанровых групп.
Например, пьеса Шекспира "Виндзорские кумушки" имеет следующие индексы {K1 - индекс группы "высокого" стиля, К2 - "низкого", разговорного стиля, Кa - поэтического жанра, Кb - жанра трагедии, Kc - жанра комедии.}.
К1 К2 Кa Кb Кс
-174,7 +132,4 -21,3 -76,9 +136,5
В то время как его поэма "Венера и Адонис":
К1 К2 Кa Кb Кс
+148,4 -159,6 +97,9 -29,6 -73,0
Из анализа приведенных выше данных со всей очевидностью следует, что "Виндзорские кумушки" - комедия, написанная разговорным, живым языком, а "Венера и Адонис" - поэтическое произведение, написанное "высоким" поэтическим стилем, - результат, способный поразить исследователя разве что своей тривиальностью. Оба эти текста, "Венера и Адонис" и "Виндзорские кумушки", относятся к наиболее ясным и простым случаям, и тот факт, что результаты формального анализа в простых случаях вполне совпадают с общепринятым мнением, говорит в пользу предлагаемой методики и дает исследователю право считать, что другие, неожиданные, результаты в более сложных случаях заслуживают самого серьезного рассмотрения.
Учитывая значения индексов, оказалось возможным погасить влияние жанра и стиля на употребительность лексических единиц и выяснить, какие слова и классы слов характерны для каждого из авторов вне зависимости от содержания текста. Анализ этих признаков позволил сделать некоторые выводы относительно особенностей творческой манеры исследуемых авторов.
На основе этих признаков вычислялись количественные характеристики текстов в каждой из авторских групп, причем допускалось, что большая часть текстов, приписываемых определенному автору, принадлежит именно этому автору. Данные этих вычислений дали частью банальные, а частью чрезвычайно интересные, порой совсем неожиданные, результаты. К результатам первого рода можно отнести индексы поэмы "Геро и Леандр", начало и конец которой написаны разными авторами. Несмотря на общность стиля, жанра и темы, индексы начала и конца поэмы сильно разнятся. Согласно полученным цифровым данным, начало поэмы принадлежит Марло, а конец - Чапмену, что вполне соответствует утвердившемуся в литературоведении мнению.
К самым неожиданным результатам относятся количественные характеристики пьесы "Укрощение строптивой", которая имеет отрицательное значение Кш индекса группы Шекспира. Является ли этот результат следствием ошибок методики, или правы были те шекспироведы, которые склонны были приписывать авторство пьесы другому лицу, пока сказать трудно, но несомненно то, что по употребительности лексических единиц, и прежде всего "функциональных" слов, пьеса "Укрощение строптивой" нехарактерна для Шекспира.
Ввиду необходимости проверить методику на текстах, не участвовавших в формировании жанрово-стилистических групп и выделении диагностирующих признаков, аналогичной статистической обработке были подвергнуты еще три пьесы, одна из которых, "Два знатных родственника", в течение вот уже почти ста лет является предметом разногласий между литературоведами.
Автор пьесы неизвестен. Титульный лист ее первого издания 1634 г. украшали имена Шекспира и Флетчера, но тот факт, что Хеминдж и Кондэлл не включили ее в фолио 1623 г., свидетельствует против возможного участия Шекспира в создании пьесы.
Впоследствии пьесу обычно включали в сборники Флетчера, но иногда издавали вместе с шекспировскими творениями, и в конце XIX в., когда проблема канона особенно занимала умы шекспироведов, появилась целая серия работ с доводами за и против сотрудничества Шекспира и Флетчера. Одной из самых обстоятельных была работа Сполдинга {Spalding W. A letter on Shakespeare's authorship of "The two noble kinsmen". London, 1876.}, где на основании сюжетных и лингвистических параллелей доказывалось, что Шекспир был одним из авторов "Знатных родственников".