11 Часть I. Компоненты 14 Глава Компьютерная

Компьютер в работе текстолога

жүктеу/скачать 4,29 Mb.

бет	175/197
Дата	19.03.2022
өлшемі	4,29 Mb.
	#136225
түрі	Литература

1 ... 171 172 173 174 175 176 177 178 ... 197

Байланысты:
nikolaev is mitrenina ov lando tm red prikladnaia i kompiute
Латын тілі 4,5 - дәріс 2, 169-182 фил, Вопросы на русском языке, 6 үж

Компьютерная классификация рукописей

Компьютер в работе текстолога

Автоматическое сравнение рукописей

Компьютерная текстология зародилась как дисциплина на рубеже 70– 80-х гг. XX в., когда некоторые этапы обработки большого количества ма- териала стали проводиться не вручную, а с помощью компьютеров.
Для автоматического сравнения рукописей английский ученый Питер Робинсон разработал программу Collate [Robinson 1989]. С ее помощью можно также выполнять статистическую обработку результатов сравнений и подготовить критическое издание текста. Работу над ней он начал в се- редине 1980-х гг., в ходе исследования 44 рукописей двух древнеисланд- ских песен. Программа непрерывно дорабатывалась и совершенствова- лась и была доведена до коммерческого продукта.
На первом этапе обработки рукописей их текст вводится в компьютер. Для дальнейшей работы необходимо нормализовать их орфографию, то есть привести различные варианты написания одного и того же слова к одному варианту. Нормализация осуществляется на базе авторитетного словаря соответствующего древнего языка. Нормализация позволяет так- же упростить процесс ввода большого числа рукописей: после введения базового текста каждый следующий получается через его корректуру, т. е. только введение разночтений.
Создание списка узлов разночтений после ручной коллации также происходит вручную. Но программа может формировать узлы разночте- ний для тех текстов, которые введенны в базу. Компьютер сопоставляет введенные рукописи и строит узлы разночтений. Однако ученые, рабо- тавшие с первым вариантом программы Collate, обнаружили, что компью- тер нередко неправильно проводит границы между узлами, поэтому в бо- лее поздней версии программы Collate был предусмотрен диалоговый ре- жим формирования узлов, позволяющий человеку корректировать работу компьютера.
При помощи программы Collate в 2007 г. на базе Бирмингемского университета было полностью подготовлено издание византийского текста

Евангелия от Иоанна (The Gospel According to John in the Byzantine Tradition) по 70 источникам в двух вариантах, печатном и электронном. Электронный вариант по сравнению с книгой обладает рядом дополни- тельных возможностей: он позволяет посмотреть текст каждой рукописи целиком, узлы разночтений расположены списком, а не идут подряд, как в книге, они снабжены гиперссылками к текстам рукописей и т. п.

Теоретически количество обрабатываемых программой рукописей и их объем не ограничиваются, но реально даже более поздний вариант мог обработать не более 200 рукописей. Поэтому, например, невозможно было использовать программу Collate для сравнения 650 рукописей славянского Евангелия от Иоанна и около 600 рукописей Евангелия от Матфея в рам- ках Славянского проекта, выполнявшегося в СПбГУ [Алексеев 1998].

Компьютерная классификация рукописей

Как только перед текстологами встал вопрос об анализе одновремен- но десятков и сотен рукописей, понадобился математический метод, по- зволяющий формализовать процедуру установления отношений между таким большим числом объектов. В зависимости от целей исследования существуют два основных направления для поисков метода — кладисти- ка и кластерный анализ. Кладистика — (от др.-греч. κλάδος — ветвь) — направление биологической систематики, разрабатывающей принципы классификации живых организмов, в котором при классификации учиты- ваются только генеалогически важные признаки. Второй метод классифи- кации — вариации кластерного анализа (от англ. cluster — пучок, группа связанных между собой объектов), когда объекты группируются по неко- торым признакам сходства или различия.
Результатом классификации объектов при помощи кластерного ана- лиза является некоторое количество групп, внутри которых объекты тесно связаны друг с другом. У каждой группы есть центр и периферия, границы между группами могут быть размыты. Кластерный анализ можно приме- нять к рукописной традиции, в которой присутствует контаминация, так как генеалогические отношения между отдельными рукописями не уста- навливаются. Различные текстологи используют различные коэффициен- ты близости или расстояния между объектами, отталкиваясь от базовой формулы — отношения числа совпадающих узлов в данной паре рукопи- сей к общему числу узлов разночтений.
Впервые кластерный анализ применительно к рукописям был исполь- зован двумя американскими текстологами — Эрнестом Колвеллом и Эр- нестом Тьюном в 1963 г. для греческой новозаветной традиции [Colwell 1969]. До них при изучении рукописной традиции все рукописи поочеред- но сравнивались с неким эталоном и далее на основании общности отли-

чий от эталона объединялись в группы. Колвелл и Тьюн предложили отка- заться от эталона, сравнивать все рукописи попарно между собой и оцени- вать их близость по общему тексту, а не по различиям.

Идеи Э. Колвелла и Э. Тьюна были развиты российским ученым А. А. Алексеевым в конце 1980-х — начале 1990-х гг. для первичной об- работки рукописей славянского Евангелия [Алексеев 1999].
Метод А. А. Алексеева основан на том, чтобы обнаружить, какие ру- кописи ближе всего друг к другу, то есть во всей совокупности традиции выявить несколько групп, в которых текст максимально идентичен. По- скольку рукописная традиция Евангелия контаминированная, компьютер позволяет быстро разбить на группы любое количество рукописей. Только опытный текстолог может грамотно выявить разночтения, определить границы между ними. Но когда узлы разночтений готовы, вручную вы- числить степень близости между тысячами рукописей уже нереалистично, для этой задачи и используется программное обеспечение. Создание нуж- ной программы может взять на себя текстолог, владеющий навыками про- граммирования.
Алгоритм кластеризации несложен: после вычисления степени сход- ства между всеми парами рукописей и построения исходной матрицы, где для каждой пары рукописей указан процент сходства, формируются кла- стеры рукописей, начиная с пары с самым высоким процентом сходства и двигаясь дальше строго в порядке убывания процента сходства. Процесс кластеризации заканчивается, когда все рукописи объединятся в один кла- стер. В результате мы получаем перестроенную матрицу, в которой руко- писи идут в том порядке, в каком они объединялись в кластеры. Двигаясь вниз по главной диагонали матрицы (см. рис. 5), мы обнаруживаем грани- цы элементарных кластеров: внутри кластера процент сходства вдоль главной диагонали убывает, увеличение процента сходства указывает на начало нового кластера. Элементарные кластеры следуют в матрице в том порядке, в каком они объединялись в более крупные кластеры в процессе кластеризации.

жүктеу/скачать 4,29 Mb.

Достарыңызбен бөлісу:

1 ... 171 172 173 174 175 176 177 178 ... 197

11 Часть I. Компоненты 14 Глава Компьютерная

Компьютер в работе текстолога

Компьютер в работе текстолога

Автоматическое сравнение рукописей

Компьютерная классификация рукописей