«Подсчеты легитимизируют гуманитарную науку»

В последние годы все больше исследователей, занимающихся традиционными гуманитарными науками, начинают смотреть на предмет своих трудов по-другому, применяя к нему методы анализа данных. Эта сравнительная новая область называется «цифровые гуманитарные науки», или . О том, на какие вопросы позволяет ответить новый подход к традиционным знаниям, а также о том, меняет ли он взгляд на гуманитарные науки в целом, мы побеседовали с доцентом Школы лингвистики и сотрудником Центра цифровых гуманитарных исследований НИУ ВШЭ Борисом Ореховым.


N + 1: Сегодня всем более или менее известно, что такое компьютерная лингвистика, появившаяся еще в середине прошлого века, на заре становления искусственного интеллекта. Мы знаем, что ее главная задача — описание и использование естественных языков при помощи компьютерных и математических методов. Гораздо меньше известно, что такое цифровые гуманитарные науки (здесь и далее — ). Связаны ли они как-то с компьютерной лингвистикой?

Борис Орехов: Если пытаться оценить существующее положение вещей, то научная составляющая компьютерной лингвистики, о которой вы говорите, не единственная и — по факту — не главная. Главное для современных компьютерных лингвистов — это деятельность, которую можно назвать инженерной, это создание технологий (например, для автоматического извлечения фактов или отношений из текста), которые можно было бы встроить в коммерческие продукты. То есть собственно описания языка там не так уж и много, а насколько вообще технологии опираются на научные описания, это вопрос философский.


Что касается DH, то эта область гораздо шире компьютерной лингвистики. В этой сфере ученые и разработчики имеют дело не только с текстами, но и с изображениями, 3D-моделями, реконструкциями в формате виртуальной реальности. Компьютерная лингвистика в числе прочих источников может только предоставить ученому-гуманитарию интересный материал для осмысления.

Чем занимаются специалисты в области DH? Какие у них главные цели и задачи?

Если говорить о DH вообще, то какое-то единство в плане предмета исследований увидеть в нем трудно. DH — во многом так называемый «зонтичный» термин: на посвященных ему конференциях встречаются люди, применяющие разные методы к очень разным вещам. Объединяются они, скорее, не целями и задачами, а материалом: кино, музыка, литература, живопись, исторические документы, культурно значимые тексты (например, труды философов).

Иногда специалисты по DH выходят за рамки и этого круга и погружаются в вопросы, близкие социологам и антропологам. Скажем, в одной статье исследователь пытается понять, насколько сходно критики оценивают фильмы. Это не совсем про кино, но и не в чистом виде социология, а компьютерной лингвистики там нет совсем. Вот такие «странные» исследования, как бы сделанные вне формата традиционной научной рубрикации, и оказываются «под зонтиком» DH.

Расскажите о методах, которые чаще всего применяются в DH-исследованиях помимо методов обработки естественного языка.

В DH чаще всего применяют не столько методы обработки естественного языка, сколько то, что называется анализом данных. Это широкий спектр инструментов, разработанных внутри математической статистики для поиска закономерностей внутри больших массивов формализованной информации. Это то, что помогает увидеть тенденцию, или «тренд». Это разного рода регрессии, расчет корреляций, кластерный, ковариационный анализ. Но это и визуализция данных, графики, которые делают статьи и доклады о DH — помимо собственно содержательной составляющей — привлекательными визуально:

COM_SPPAGEBUILDER_NO_ITEMS_FOUND