Автороведческая и лингвистическая экспертиза текста
Рассмотреть современные методы автороведческой и лингвистической экспертизы для определения авторства текста и их эффективность в судебной практике.
Философская рамка
Вопрос об авторстве текста, его уникальности и возможности идентификации автора по языковым особенностям глубоко укоренен в философских дискуссиях о природе языка и индивидуальности. Если рассматривать язык как систему, которая, по Блумфилду, является «набором привычек» [Bloomfield, 1933], то идиостиль автора становится уникальным проявлением этих привычек, своего рода лингвистическим отпечатком. Однако, как отмечал Хомский, язык — это не только набор привычек, но и генеративная система, позволяющая создавать бесконечное множество новых выражений [Chomsky, 1957]. Это поднимает вопрос о том, насколько устойчивы и идентифицируемы индивидуальные паттерны в такой динамичной системе.
В контексте судебной практики, где текст выступает как доказательство, мы сталкиваемся с проблемой перформативности языка, описанной Остином [Austin, 1962]. Слова не просто описывают реальность, но и совершают действия, что делает анализ их смыслового и прагматического содержания критически важным.экспертиза текста выходит за рамки простого сопоставления форм, требуя глубокого понимания того, как языковые средства используются для достижения определенных коммуникативных целей и как эти цели отражают индивидуальность автора.
Введение
В современном языкознании автороведческая и лингвистическая экспертизы текста играют ключевую роль в решении задач, связанных с установлением авторства, выявлением плагиата и анализом смыслового содержания в юридической практике. Эти экспертизы востребованы в условиях роста преступлений, совершаемых с использованием интернет-коммуникаций, где анонимность и дистанционный характер общения создают новые вызовы для правоохранительных органов [Litvinova et al., 2020]. Основная гипотеза заключается в том, что каждый автор обладает уникальным идиостилем, который может быть идентифицирован с помощью специализированных лингвистических и статистических методов.
Однако, несмотря на наличие апробированных методик, в этой области существуют нерешенные проблемы, особенно связанные с появлением новых объектов исследования, таких как короткие тексты из социальных сетей или тексты, созданные с использованием компьютерных программ [Litvinova et al., 2020]. Разграничение компетенций эксперта-лингвиста и эксперта-автороведа также остается дискуссионным вопросом, особенно в делах, касающихся нарушения авторских и смежных прав [Кузнецов et al., 2019]. Эффективность этих методов в судебной практике зависит от множества факторов, включая объем и качество исследуемого материала, а также квалификацию эксперта.
Обзор исследований
Разграничение компетенций лингвистической и автороведческой экспертиз
Вопрос о разграничении компетенций лингвистической и автороведческой экспертиз в судебной практике остается предметом активных дискуссий, несмотря на кажущуюся очевидность их предметных областей. Действительно, на первый взгляд, лингвистика занимается языком как системой и его функционированием, тогда как автороведение фокусируется на личности автора, проявляющейся через текст. Однако на практике эти сферы часто пересекаются, порождая методологические и процессуальные сложности.
Один из ключевых аргументов в пользу четкого разделения компетенций представлен В.О. Кузнецовым и Е.К. Крюк, которые утверждают, что «задачи, входящие в компетенцию эксперта-автороведа, связаны с исследованием письменно-речевого навыка и направлены на установление авторства текста и условий составления текста» [Кузнецов et al., 2019]. Это означает, что автороведческая экспертиза призвана ответить на вопросы типа «кто написал этот текст?» или был ли текст написан под диктовку?, исследуя индивидуальные особенности речевого поведения, которые формируют уникальный «авторский почерк» или идиостиль. Целью автороведческой экспертизы, по их мнению, является «установление автора документа на основе исследования общих и частных признаков письменной речи, отражающих степень развития его языковых навыков» [Кузнецов et al., 2019].
В то же время, лингвистическая экспертиза, согласно Кузнецову и Крюк, имеет иную цель: «установление особенностей того или иного языкового значения, выраженного в тексте или его составляющих (слове, словосочетании, высказывании и т.п.), вне зависимости от степени развития языковых навыков автора текста» [Кузнецов et al., 2019]. То есть, лингвист анализирует содержание текста, его семантику, прагматику, стилистику, чтобы определить, например, наличие оскорблений, угроз, призывов к противоправным действиям или факт плагиата. Задача установления плагиата, как подчеркивают авторы, «предполагает не исследование письменной речи автора и выявление признаков письменной речи, отражающих степень развития языковых навыков автора, а исследование как минимум двух текстов как продуктов речевой деятельности» [Кузнецов et al., 2019]. Это семантическое сравнение речевых произведений, направленное на выявление степени адекватности передачи смысла одного текста в другом, что является прерогативой лингвистической экспертизы [Кузнецов et al., 2019].
Однако, несмотря на эти, казалось бы, четкие разграничения, многие исследователи и практики не проводят столь строгого разделения. В.О. Кузнецов и Е.К. Крюк отмечают, что «ряд отечественных ученых не проводит разделения между автороведческой и лингвистической экспертизами по делам, связанным с нарушением авторских и смежных прав» [Кузнецов et al., 2019]. Такие исследования могут называться «лингвистической автороведческой экспертизой», «авторской экспертизой» или просто «экспертизой», при этом в ключевых словах указывается «автороведческая экспертиза» [Кузнецов et al., 2019]. Это свидетельствует о том, что на практике границы между этими видами экспертиз часто размываются, а их задачи могут рассматриваться как взаимодополняющие или даже интегрированные.
Например, Е.И. Галяшина, чьи работы часто цитируются в контексте судебной лингвистики, оставляет за лингвистической экспертизой вопросы установления или толкования смыслового содержания текста, его оригинальности, индивидуальности, новизны, а также степени смешения с противопоставленными обозначениями [Кузнецов et al., 2019]. Она допускает, что в зависимости от поставленных задач экспертиза может носить комплексный характер, объединяя автороведческое и лингвистическое исследования. Это указывает на признание междисциплинарного характера многих судебных задач, где для полного ответа требуется анализ как авторских особенностей, так и смыслового содержания.
А.Ю. Хоменко в своей работе 2014 года также говорит о лингвистической и автороведческой экспертизах, но при этом объединяет их задачи в рамках единого исследования, которое он называет лингвистическим анализом [Кузнецов et al., 2019]. В рамках такого анализа используются и автороведческие методы для установления оригинальности текста, его новизны (на основе индивидуально-авторских особенностей, идиостиля), коммуникативной направленности и интенции автора. Такой подход подчеркивает, что идиостиль, будучи объектом автороведческого анализа, одновременно является ключевым элементом для оценки оригинальности, что, в свою очередь, важно для лингвистической экспертизы в делах о плагиате.
Татьяна Литвинова и Анастасия Громова, исследуя проблемы судебной автороведческой экспертизы, отмечают, что ее объект – это «текст, являющийся воплощением идиолекта автора» [Litvinova et al., 2020]. Под идиолектом они понимают уникальную реализацию языковой системы, состоящую из устойчивых и вариабельных выборов, производимых автором. Это определение подчеркивает, что даже при решении задач, связанных с идентификацией автора, невозможно полностью абстрагироваться от языковых особенностей текста. Более того, они указывают, что анализ лингвистических признаков приобретает первостепенное значение для решения задачи идентификации и диагностирования личности автора текста [Litvinova et al., 2020], особенно в условиях отсутствия рукописных элементов.хотя теоретически можно провести границу между экспертизами, на практике они часто оказываются тесно переплетены. Автороведческая экспертиза, фокусируясь на идентификации автора, неизбежно опирается на лингвистические признаки, формирующие идиостиль. Лингвистическая же экспертиза, особенно в случаях плагиата или оценки оригинальности, также не может игнорировать индивидуальные речевые особенности, которые отличают авторский текст от заимствованного. Это создает потребность в комплексном подходе, где эксперт должен обладать компетенциями в обеих областях или же работать в составе междисциплинарной группы.
Проблема идентификации автора текста, как отмечают Литвинова и Громова, может иметь разные аспекты, включая «closed-set problem» (кто из ограниченного круга лиц является автором) и «verification problem» (является ли данное лицо автором криминалистически значимого текста) [Litvinova et al., 2020]. Решение этих задач, по сути, требует глубокого анализа лингвистических характеристик текста, которые могут быть как сознательными, так и бессознательными проявлениями идиолекта. Даже такие, казалось бы, незначительные параметры, как «последовательности символов, пунктуационные привычки», могут оказаться эффективными для идентификации автора, особенно в сложных кросс-жанровых сценариях [Litvinova et al., 2020].
В конечном итоге, разграничение компетенций лингвистической и автороведческой экспертиз, хотя и важно для методологической ясности, не должно препятствовать их синергетическому взаимодействию. Современные вызовы, такие как анализ текстов из социальных сетей или анонимных сообщений, требуют все более изощренных методов, которые часто находятся на стыке этих двух областей. Отсутствие четкого разделения, о котором говорят Кузнецов и Крюк, может быть не столько проблемой, сколько отражением естественной взаимосвязи между языком и его носителем. Ведь как можно изучать особенности текста, не учитывая, кто его создал, и как можно идентифицировать автора, не анализируя его речевую деятельность? Этот вопрос становится особенно актуальным в контексте развития компьютерных методов, которые позволяют обрабатывать огромные объемы текстовых данных, выявляя закономерности, невидимые человеческому глазу.
Эффективность компьютерных методов в автороведческой экспертизе
После того как мы разграничили компетенции лингвистической и автороведческой экспертиз, возникает закономерный вопрос: насколько современные технологии способны помочь эксперту в решении этих задач? Компьютерные методы, безусловно, обещают повышение объективности и воспроизводимости результатов, что особенно ценно в судебной практике, где интуиция эксперта, какой бы глубокой она ни была, всегда будет подвергаться сомнению. Действительно, многие исследователи, как отмечают Т.А. Литвинова и А.В. Громова, считают статистические методы, основанные на компьютерных технологиях, более объективными, поскольку они «базируются не на интуиции эксперта, а результаты, полученные на их основе, – более воспроизводимыми» [Litvinova et al., 2020].
Однако, несмотря на кажущуюся универсальность и точность, компьютерные методы в автороведческой экспертизе сталкиваются с рядом существенных ограничений, которые не позволяют рассматривать их как панацею. В.О. Кузнецов и Е.К. Крюк подчеркивают, что в судебной практике по делам о нарушении авторских и смежных прав часто отсутствует четкое понимание, в чью компетенцию — эксперта-автороведа или эксперта-лингвиста — входит решение задач, связанных с исследованием объектов авторского права [Кузнецов et al., 2019]. Это размывание границ усугубляется, когда речь заходит о применении сложных компьютерных алгоритмов, требующих глубоких знаний как в лингвистике, так и в информационных технологиях.
Основная проблема заключается в том, что большинство исследований, демонстрирующих высокую эффективность компьютерных методов, проводятся в условиях, далеких от реальных задач судебной автороведческой экспертизы. Литвинова и Громова указывают на несколько таких обстоятельств: «в таких работах исследуются далекие от задач автороведения проблемы, например задача идентификации автора из большого круга лиц (несколько сотен и даже тысяч)» [Litvinova et al., 2020]. Это означает, что модели, разработанные для выбора одного автора из тысячи, могут оказаться неэффективными, когда нужно подтвердить или опровергнуть авторство конкретного лица.
Кроме того, часто используются тексты большого объема — «несколько тысяч и даже десятков тысяч слов», либо анализируется «большое число текстов от каждого автора» [Litvinova et al., 2020]. В реальной судебной практике эксперт нередко имеет дело с фрагментами текста, анонимными сообщениями или короткими документами, что значительно усложняет применение статистических методов, требующих значительного объема данных для выявления устойчивых стилевых маркеров. Ким Люкс и Вальтер Делеманс, например, в своей работе 2008 года также отмечали, что большинство исследований по атрибуции авторства фокусируются на небольшом количестве авторов и используют объемы обучающих данных, нереалистичные для судебной стилометрии, что приводит к переоценке точности подходов [Luyckx et al., 2008].
Еще один критический момент, на который обращают внимание Литвинова и Громова, состоит в том, что «мало внимания уделяется собственно лингвистическим признакам и их различающей способности, поскольку ученые сфокусированы преимущественно на точности создаваемых ими моделей» [Litvinova et al., 2020]. Это приводит к тому, что компьютерные системы могут давать высокий процент совпадений, но при этом не способны объяснить, какие именно лингвистические особенности текста послужили основанием для такого вывода. Для судебной экспертизы, где требуется не только результат, но и его обоснование, такая «черноящичная» модель неприемлема. Как отмечает Джеральд Макменамин, атрибуция авторства должна основываться на совокупности маркеров, а не на одном признаке [Mcmenamin, 2001].
Тем не менее, нельзя отрицать потенциал компьютерных методов. Они могут выступать как мощный вспомогательный инструмент, расширяющий возможности эксперта. Литвинова и Громова подчеркивают, что компьютерные методы являются не панацеей, но дополнительным инструментом, расширяющим возможности эксперта [Litvinova et al., 2020]. Они предлагают не противопоставлять традиционные и компьютерные методы, а использовать преимущества каждого из них. Например, лингвистический анализ, основанный на корпусных данных и дополненный статистическими методами с визуализацией результатов, может значительно повысить точность выводов.
Современные исследования, особенно те, что проводятся лингвистами, начинают учитывать специфику судебной автороведческой экспертизы, фокусируясь на таких проблемах, как малый объем текста. Бенедикт Бённингхофф с соавторами, например, исследуют верификацию авторства в социальных сетях, где тексты часто очень короткие, и предлагают новые нейросетевые архитектуры для повышения эффективности в таких сложных условиях [Boenninghoff et al., 2019]. Это демонстрирует движение в сторону адаптации компьютерных методов к реальным задачам.
Важно понимать, что даже при использовании самых продвинутых компьютерных алгоритмов элемент субъективности эксперта полностью исключить невозможно. Выбор метода, языковых параметров, их количества и типа — все это остается на усмотрение специалиста.ни один метод не лишен субъективизма, как справедливо замечают Литвинова и Громова [Litvinova et al., 2020]. Это означает, что компьютерные инструменты должны быть в руках квалифицированного эксперта, способного интерпретировать результаты и соотносить их с лингвистической теорией.
В конечном итоге, эффективность компьютерных методов в автороведческой экспертизе зависит от того, насколько глубоко они интегрированы с лингвистическим анализом и насколько хорошо адаптированы к специфике судебных задач. Простое применение статистических моделей без учета лингвистической природы идиолекта и контекста создания текста может привести к ошибочным выводам. Арта Мисини с соавторами в своем обзоре отмечают, что стилометрические признаки могут быть лексическими, синтаксическими, семантическими, структурными и контент-специфическими, и все они требуют внимательного анализа [Misini et al., 2022].несмотря на значительные достижения в области компьютерной лингвистики и машинного обучения, автороведческая экспертиза не может быть полностью автоматизирована. Компьютерные методы предоставляют мощные инструменты для анализа больших объемов данных и выявления скрытых закономерностей, но их применение требует глубокого понимания лингвистических принципов и ограничений. Это подводит нас к следующему вопросу: как быть, когда данных для анализа крайне мало, и даже самые совершенные компьютерные методы не могут найти достаточно статистически значимых маркеров?
Проблемы идентификации автора при ограниченных данных
Эффективность компьютерных методов в автороведческой экспертизе, о которой мы говорили ранее, не является универсальной. Она существенно снижается, когда эксперт сталкивается с ограниченным объемом данных, что является одной из наиболее острых проблем в судебной автороведческой экспертизе. Большинство исследований в области статистического анализа или машинного обучения для атрибуции авторства традиционно фокусируются на небольшом числе авторов, что приводит к завышенной оценке значимости признаков, извлеченных из обучающих данных [Luyckx et al., 2008]. Эти исследования часто используют объемы обучающих данных, нереалистичные для реальных ситуаций, например, в криминалистике, что в итоге искажает представление о точности предлагаемых подходов.
Действительно, когда речь заходит о практическом применении, особенно в судебной экспертизе, объем доступного для анализа текста часто бывает крайне мал. Это создает серьезные методологические вызовы. Как отмечают Татьяна Литвинова и Анастасия Громова, существует значительный разрыв между задачами, которые ставят перед собой исследователи в области компьютерных наук, и реальными потребностями судебной автороведческой экспертизы (САЭ) [Litvinova et al., 2020]. Они подчеркивают, что при постановке исследовательских задач следует ориентироваться не на эффективность методов машинного обучения в обработке больших баз данных, а на те задачи, которые наиболее часто встречаются в практике эксперта-автороведа.
Одной из ключевых проблем является то, что традиционные методы, основанные на статистическом анализе большого количества текстовых признаков, теряют свою надежность при малом объеме текста. Например, Моше Коппель, Джонатан Шлер и Шломо Аргамон в своей работе [Koppel et al., 2009] описывают три класса подходов к атрибуции авторства: унитарный инвариантный подход, многомерный анализ и машинное обучение. Однако даже они признают, что для каждого из этих подходов возникают свои сложности при работе с ограниченными данными. Унитарный инвариантный подход, который ищет одну числовую функцию текста для различения авторов, оказался нестабильным и уступил место многомерным методам [Koppel et al., 2009].
Проблема усугубляется тем, что компьютерные программы, как отмечает Дэвид Вуллс, «читают» текст как поток символов, распознавая слова по границам, тогда как люди способны распознавать целые отрывки и использовать знания из своей предметной области [Кузнецов et al., 2019]. Это означает, что даже самые продвинутые алгоритмы машинного обучения могут быть ограничены в своей способности улавливать тонкие стилистические нюансы, которые становятся особенно важными при недостатке данных. В таких условиях, как утверждают зарубежные исследователи, более оправданным становится применение качественных методов анализа, таких как стилистический и семантический анализ, направленных на интерпретацию текстовых различий на разных языковых уровнях [Кузнецов et al., 2019].
Однако не все так безнадежно. Коппель, Шлер и Аргамон [Koppel et al., 2009] указывают на возможность адаптации методов машинного обучения для работы с ограниченными данными. Они исследуют различные сценарии, когда отсутствует небольшой закрытый набор кандидатов, и предлагают подходы к решению проблем профилирования, «иголки в стоге сена» и верификации. Это предполагает не просто применение существующих алгоритмов, а их модификацию с учетом специфики задачи. Например, для верификации авторства, когда нужно подтвердить, что данный текст написан конкретным автором, а не идентифицировать его из множества, могут использоваться методы, основанные на сходстве [MacLeod et al., 2012].
Никки Маклеод и Тим Грант [MacLeod et al., 2012] отмечают, что методы, основанные на сходстве, более подходят для случаев с большим количеством потенциальных авторов. Они предлагают верифицировать авторство, если сходство между анонимным документом и известными текстами автора превышает определенный порог. В качестве основы для анализа они используют 4-граммы (последовательности из четырех символов), которые, по их мнению, эффективны для атрибуции авторства и измеримы на любом языке без необходимости специальных фоновых знаний. Однако они признают, что для случаев с небольшими открытыми наборами кандидатов и ограниченным анонимным текстом удовлетворительного решения пока нет.
Берроуз также отмечает, что существующие методы в вычислительной стилистике лучше подходят для «закрытых» игр, чем для «открытых». Он предлагает метод атрибуции авторства, который подходит для случаев, когда мало или совсем нет внешних доказательств для идентификации наиболее вероятного кандидата. Его подход основан на том, что отличительная ‘стилистическая подпись’ обычно состоит из множества мельчайших штрихов. Он утверждает, что его процедура успешна в различении наиболее вероятного автора текстов объемом более 1500 слов, и, что более важно для нашей темы, еще более ценна для сокращения круга вероятных кандидатов для текстов объемом всего 100 слов.при ограниченных данных акцент смещается с поиска универсальных статистических закономерностей на выявление уникальных, пусть и малочисленных, маркеров идиостиля. Это требует более глубокого лингвистического анализа, а не только количественного подсчета. Эфстафиос Стаматос [Stamatatos, 2017] предлагает новый метод, который повышает эффективность атрибуции авторства за счет шага искажения текста перед извлечением стилометрических мер. Цель этого шага — маскировать тематическую информацию, не связанную с личным стилем автора, что особенно важно при кросс-тематических условиях, когда обучающие и тестовые корпуса не совпадают по теме.
В конечном итоге, решение проблемы идентификации автора при ограниченных данных лежит в междисциплинарном подходе. Литвинова и Громова [Litvinova et al., 2020] призывают к интеграции усилий лингвистов, автороведов и специалистов в области компьютерных наук. Они подчеркивают необходимость создания закрытой базы данных криминалистически значимых текстов, авторство которых установлено в ходе судебного исследования, что позволит более точно настраивать алгоритмы и проверять их эффективность на реалистичных данных. Без такой базы данных и без учета специфики судебной практики, компьютерные методы, несмотря на их потенциал, будут оставаться лишь теоретическими разработками, не способными в полной мере удовлетворить потребности экспертов.
В контексте ограниченных данных, особенно актуальным становится вопрос о применимости автороведческой экспертизы к коротким текстам, таким как сообщения в социальных сетях или СМС. Ведь именно в таких случаях объем доступной информации минимален, а задача идентификации автора может быть критически важной.
Применимость автороведческой экспертизы к коротким текстам
Если в предыдущем разделе мы говорили о проблемах идентификации автора при ограниченных данных, то вопрос применимости автороведческой экспертизы к коротким текстам является логическим продолжением этой дискуссии, но с особым акцентом на специфику самого материала. Короткие тексты, такие как SMS-сообщения, посты в микроблогах (например, Twitter) или мгновенные сообщения, представляют собой уникальный вызов для традиционных методов автороведческого анализа. Почему? Потому что эти методы, как правило, традиционно были ограничены размером сообщения, к которому они могли быть успешно применены, что делало их непригодными для анализа более коротких сообщений [MacLeod et al., 2012].
Действительно, классические подходы, основанные на анализе обширного идиостиля, частотности слов, синтаксических конструкций и пунктуации, требуют значительного объема текста для выявления устойчивых авторских маркеров. Когда объем данных сокращается до нескольких предложений или даже фраз, статистическая значимость многих признаков резко падает. Например, такие метрики сложности текста, как средняя длина слова или предложения, которые были в центре ранних исследований авторства, оказываются малоинформативными на коротких фрагментах. Moshe Koppel, Jonathan Schler и Shlomo Argamon отмечают, что ни одна из этих мер не оказалась особенно полезной сама по себе [Koppel et al., 2009], особенно когда речь идет о небольших выборках.
Однако это не означает, что автороведческая экспертиза полностью бессильна перед лицом коротких текстов. Напротив, активное развитие интернет-коммуникации и рост числа судебных автороведческих экспертиз, направленных на идентификацию в цифровой среде, стимулировали разработку новых подходов [Litvinova et al., 2020]. Исследователи начали искать иные, более тонкие маркеры, которые проявляются даже в условиях ограниченного объема. Например, Nicci MacLeod и Tim Grant описывают проект, целью которого было разработать и автоматизировать методы судебной лингвистики, успешно применявшиеся для анализа коротких сообщений в уголовных делах [MacLeod et al., 2012].
Одним из перспективных направлений стало использование статистических методов, способных работать с разреженными данными. Tim Grant, обсуждая атрибуцию авторства SMS-сообщений, подчеркивает, что лингвистическая отличительность и лингвистическая последовательность являются вопросами степени и могут быть исследованы с помощью статистических методов [MacLeod et al., 2012]. Он предлагает использовать коэффициент Жаккара (Jaccard’s coefficient) для оценки степени сходства между короткими сообщениями. Этот коэффициент позволяет сравнивать наличие или отсутствие определенных стилистических особенностей, закодированных как бинарные значения (1 или 0). Важное преимущество коэффициента Жаккара заключается в том, что совпадение двух нулевых значений (отсутствие признака) в двух текстах не влияет на общий показатель сходства [MacLeod et al., 2012], что критически важно для коротких текстов, где отсутствие многих признаков является нормой.
Развивая эту идею, MacLeod и Grant предлагают использовать расширение коэффициента Жаккара, называемое Delta-S (Δs), которое позволяет учитывать взвешивание переменных и их взаимосвязь [MacLeod et al., 2012]. Это особенно актуально для коротких сообщений, где, например, замена разных цифр в тексте может указывать на более схожие стилистические предпочтения, чем, скажем, акцентная стилизация. Такой подход позволяет распознавать схожие, но не идентичные стилистические выборы, что повышает точность метрики сходства.
Компьютерные методы играют здесь ключевую роль. Moshe Koppel, Jonathan Schler и Shlomo Argamon отмечают, что современные методы машинного обучения позволяют учитывать широкий спектр потенциально релевантных признаков без значительного снижения точности, даже если большинство этих признаков оказываются нерелевантными [Koppel et al., 2009]. Это открывает возможности для анализа таких микропризнаков, как использование эмодзи, специфические сокращения, паттерны пунктуации, характерные для конкретного автора в условиях ограниченного объема текста. Tatiana Litvinova и Anastasiya Gromova также подчеркивают, что «пунктуационные выборы как составляющая ортологического параметра идиолекта носителя современного русского языка» могут быть использованы в идентификационной автороведческой экспертизе [Litvinova et al., 2020].
Однако, несмотря на прогресс, остаются и сложности. Например, в коротких текстах часто встречаются неформальные языковые конструкции, сленг, ошибки, которые могут быть как случайными, так и намеренными. Это требует от эксперта глубокого понимания контекста коммуникации и социолингвистических особенностей. Кроме того, как отмечают В. О. Кузнецов и Е. К. Крюк, при анализе совпадений в текстах, даже если они короткие, важно различать полностью совпадающие, частично совпадающие и различающиеся фрагменты [Кузнецов et al., 2019]. Они предлагают проводить сравнение, начиная с тематики и композиции, а затем переходить к деталям, таким как дословные совпадения предложений или использование синонимических средств.применимость автороведческой экспертизы к коротким текстам не только возможна, но и активно развивается благодаря новым методологиям и компьютерным инструментам. Однако она требует более тонкого подхода к выбору признаков и их статистической обработке. Это подводит нас к следующему вопросу: если мы можем идентифицировать автора по мельчайшим деталям его стиля, то как быть с ситуациями, когда эти детали намеренно заимствуются или копируются?
Проблема плагиата и заимствований в текстах
После рассмотрения сложностей автороведческой экспертизы коротких текстов, где каждый элемент приобретает особую значимость, логично перейти к проблеме плагиата и заимствований, которая также требует тщательного анализа текстовых фрагментов, но уже с иной целью — установления факта некорректного присвоения авторства. Здесь фокус смещается с идентификации конкретного автора на выявление совпадений между текстами и оценку их правомерности.
Плагиат, как юридическое понятие, определяется как присвоение авторства, что может проявляться в объявлении себя автором чужого произведения, выпуске чужого текста под своим именем или издании произведения, созданного в соавторстве, без указания имен других авторов [Кузнецов et al., 2019]. Это определение, закрепленное в Уголовном кодексе Российской Федерации (статья 146) и разъясненное Пленумом Верховного Суда, подчеркивает не только факт заимствования, но и намерение выдать чужое за свое.
Выявление плагиата — это задача, которая требует комплексного подхода, выходящего за рамки исключительно лингвистического анализа. Как отмечают Кузнецов и Крюк, исследования только лингвистических особенностей сравниваемых текстов явно недостаточно для установления факта заимствования. Это означает, что эксперту необходимо не только обнаружить совпадающие фрагменты, но и оценить их смысловую значимость, объем заимствований относительно всего текста, а также корректность ссылок, если они присутствуют.
Лингвистическая экспертиза в делах о плагиате направлена на решение задач, связанных с выявлением особенностей текстов, соотносимых с фактом плагиата. Это включает сравнение текстов для обнаружения совпадающих фрагментов, установление факта заимствования и определение его направления [Кузнецов et al., 2019]. Например, эксперт может обнаружить дословные совпадения в формулировках, схожую композицию или идентичную фактологическую информацию, как это было показано в одном из примеров, где сравнивались тексты о питании [Кузнецов et al., 2019]. В этом случае, несмотря на незначительные изменения (удаление местоимений или глаголов), суть и лексическое наполнение оставались идентичными, что указывало на заимствование.
За рубежом, в рамках судебной лингвистики (Forensic Linguistics), проблема плагиата также активно исследуется, хотя и без традиционного для отечественной практики разделения на лингвистическую и автороведческую экспертизы [Кузнецов et al., 2019]. Выделяются различные типы плагиата: внутриязыковой, межъязыковой (плагиат перевода), плагиат словника в словаре и плагиат документов, фиксирующих следственные действия. Для их выявления используется комплекс количественных и качественных методов, включая статистический и стилеметрический анализ.
Количественные методы предполагают исследование таких показателей, как процент совпадающих слов, процент так называемых hapax legomena (слов, встречающихся в тексте только один раз), процент уникальных hapax legomena и другие [Кузнецов et al., 2019]. Эти методы часто реализуются с помощью специализированного программного обеспечения для обнаружения плагиата. Однако, как подчеркивает Дэвид Вуллс, компьютеры «читают» текст как поток символов, распознавая слова по границам, что указывает на несовершенство автоматизированных систем и необходимость ручного анализа больших объемов текста [Кузнецов et al., 2019].
Проблема имитации и маскировки идиолекта, о которой говорят Литвинова и Громова, также актуальна в контексте плагиата. Если автор намеренно изменяет свой стиль, чтобы скрыть заимствование или, наоборот, выдать чужой текст за свой, это существенно снижает точность классификационных моделей. Исследования показывают, что обнаружение попытки искажения идиолекта в принципе возможно, и важную роль в этом играет частотный анализ строевых слов (function words) [Litvinova et al., 2020]. Например, в текстах с искажением может быть больше наречий, частиц и личных местоимений, но меньше существительных, а предложения могут быть короче и проще.
Однако, как справедливо отмечают Литвинова и Громова, исследований, посвященных именно определению намерения исказить идиолект, крайне мало. Хотя существуют классификаторы, способные с высокой точностью определить наличие признаков сокрытия или имитации идиолекта, вопрос о том, какие именно языковые элементы вносят наибольший вклад в это разделение, остается открытым. Это особенно важно для судебной автороведческой экспертизы, где необходимо не просто констатировать факт совпадения, но и понять, было ли это совпадение случайным, намеренным или результатом имитации.
В контексте плагиата, особенно в академической среде, возникает вопрос о «самоплагиате» или повторном использовании собственных текстов. Хотя юридически это не всегда является плагиатом в строгом смысле присвоения чужого авторства, этические нормы и требования к оригинальности научных работ часто запрещают такое повторное использование без должного цитирования. Здесь лингвистическая экспертиза может помочь установить степень совпадения и определить, является ли повторное использование существенным или незначительным.проблема плагиата и заимствований представляет собой многогранную задачу, требующую не только лингвистического, но и содержательного анализа. Автоматизированные системы могут быть полезны для первичного выявления совпадений, но окончательное решение о наличии плагиата и его характере всегда остается за экспертом, который должен учесть все нюансы, включая возможное искажение идиолекта и контекст создания текста. Это подводит нас к необходимости критического осмысления возможностей и ограничений существующих методов, а также к пониманию того, что даже самые совершенные инструменты не могут заменить глубокую экспертную оценку.
Критика и ограничения
Ограничения, связанные с объемом и качеством данных
Одним из наиболее существенных ограничений автороведческой и лингвистической экспертиз является зависимость их эффективности от объема и качества исследуемого текстового материала. Как отмечают Литвинова и Громова, большинство исследований, демонстрирующих высокую точность компьютерных методов, используют тексты большого объема (тысячи и десятки тысяч слов) или большое число текстов от каждого автора [Litvinova et al., 2020]. В реальной судебной практике эксперт часто сталкивается с ограниченными данными, такими как короткие сообщения в социальных сетях, анонимные записки или фрагменты документов. В таких условиях традиционные статистические методы, требующие значительного объема данных для выявления устойчивых стилевых маркеров, теряют свою надежность. Например, для идентификации автора из большого круга лиц (несколько сотен или тысяч) точность компьютерных методов может быть значительно ниже, чем для небольшого числа кандидатов [Koppel et al., 2009]. Если бы объем данных всегда был достаточным, то проблема идентификации автора сводилась бы к задаче классификации текста, где машинное обучение демонстрирует высокую эффективность. Однако в условиях дефицита данных, как показывают Luyckx и Daelemans, точность подходов переоценивается, поскольку они не учитывают реалистичные объемы обучающих данных для судебной стилометрии [Luyckx et al., 2008].
Проблема имитации и маскировки идиостиля
Другое серьезное ограничение связано с возможностью имитации чужого стиля или намеренного искажения собственного идиостиля. Если автор сознательно пытается изменить свой «почерк», чтобы избежать идентификации или, наоборот, выдать себя за другого, это может существенно снизить эффективность экспертизы. Литвинова и Громова указывают, что обнаружение попытки искажения идиолекта в принципе возможно, и важную роль в этом играет частотный анализ строевых слов [Litvinova et al., 2020]. Однако, несмотря на наличие классификаторов, способных определить признаки сокрытия или имитации, вопрос о том, какие именно языковые элементы вносят наибольший вклад в это разделение, остается открытым. Если бы не было возможности имитации, то идентификация автора была бы гораздо более простой задачей, основанной на уникальных и неизменных маркерах. Однако, поскольку язык является динамичной системой, а человек способен к адаптации и манипуляции, эксперту приходится учитывать этот фактор, что усложняет процесс и требует более глубокого лингвистического анализа, а не только количественного подсчета. Например, исследования показывают, что стилометрия не является «серебряной пулей» для обнаружения фейковых новостей, поскольку стиль может быть намеренно изменен [Potthast et al., 2018].
Сложности интерпретации и отсутствие стандартизации
Наконец, даже при наличии достаточного объема данных и отсутствии намеренной имитации, интерпретация результатов экспертизы может быть затруднена. Отсутствие единых стандартов и методик, а также размытость компетенций между лингвистической и автороведческой экспертизами, о чем говорят Кузнецов и Крюк, создают проблемы для юридической значимости выводов [Кузнецов et al., 2019]. Компьютерные методы, дающие высокую точность, часто сложны для интерпретации, что критически важно для судебного экспертного исследования [Litvinova et al., 2020]. Если бы существовали универсальные, прозрачные и общепринятые методики, а результаты компьютерного анализа были бы легко интерпретируемы для неспециалистов (например, судей), то процесс принятия решений был бы значительно упрощен. Однако, поскольку лингвистическая экспертиза часто требует междисциплинарного подхода и учета контекста, стандартизация остается сложной задачей. Это приводит к тому, что выводы экспертов могут быть оспорены из-за методологических разногласий или сложности объяснения полученных результатов, что подрывает доверие к экспертизе в целом [Koehler, 2013].
Развёрнутое изложение
Разграничение автороведческой и лингвистической экспертизы
В судебной практике, где текст выступает в качестве доказательства, возникает необходимость в специальных знаниях для его анализа. Здесь на первый план выходят автороведческая и лингвистическая экспертизы, каждая из которых имеет свою специфику, но при этом тесно связана с другой. Понимание их различий и взаимосвязей критически важно для корректной постановки вопросов перед экспертом и адекватной интерпретации полученных результатов.
Автороведческая экспертиза, по своей сути, направлена на установление личности автора текста по его уникальным языковым особенностям, которые формируют так называемый идиостиль или «авторский почерк». Как отмечают В.О. Кузнецов и Е.К. Крюк, задачи эксперта-автороведа «связаны с исследованием письменно-речевого навыка и направлены на установление авторства текста и условий составления текста» [Кузнецов et al., 2019]. Это означает, что эксперт анализирует устойчивые, индивидуальные характеристики письменной речи, которые позволяют отличить одного автора от другого. Например, это могут быть особенности выбора лексики, синтаксических конструкций, пунктуации, а также частотность использования определенных слов или фраз.
Лингвистическая экспертиза, в свою очередь, фокусируется на смысловом содержании текста и его стилистике, независимо от того, кто является его автором. Ее цель — «установление особенностей того или иного языкового значения, выраженного в тексте или его составляющих (слове, словосочетании, высказывании и т.п.), вне зависимости от степени развития языковых навыков автора текста» [Кузнецов et al., 2019]. Это может быть анализ на предмет наличия оскорблений, угроз, призывов к противоправным действиям, а также выявление факта плагиата. В случае плагиата, лингвист сравнивает тексты как продукты речевой деятельности, чтобы обнаружить совпадающие фрагменты, определить направление заимствования и оценить степень оригинальности.
Однако, несмотря на эти теоретические разграничения, на практике между автороведческой и лингвистической экспертизами часто не проводится четкого разделения. Кузнецов и Крюк указывают, что «ряд отечественных ученых не проводит разделения между автороведческой и лингвистической экспертизами по делам, связанным с нарушением авторских и смежных прав» [Кузнецов et al., 2019]. Иногда их объединяют под общим названием «лингвистическая автороведческая экспертиза» или просто «авторская экспертиза». Это объясняется тем, что в задачах, связанных с нарушением авторских прав, часто требуется как установление авторства, так и анализ оригинальности текста, что находится на стыке компетенций.
Например, при установлении плагиата недостаточно просто обнаружить совпадающие фрагменты; необходимо также оценить, насколько эти совпадения являются результатом заимствования, а не случайного сходства или использования общепринятых формулировок. Здесь лингвистический анализ содержания и стилистики текста переплетается с автороведческим подходом, который может помочь определить, соответствует ли спорный текст идиостилю предполагаемого автора.комплексный подход, включающий привлечение специалистов из различных областей, становится необходимостью, особенно когда речь идет о содержательной стороне исследуемого текста [Кузнецов et al., 2019].
Методы автороведческой экспертизы
Автороведческая экспертиза, как мы уже выяснили, стремится установить личность автора через анализ его уникального идиостиля. Но как именно эксперт «читает» этот идиостиль? Методы, используемые в автороведческой экспертизе, можно условно разделить на традиционные и современные, хотя граница между ними становится все более размытой благодаря развитию компьютерных технологий.
Традиционные методы автороведческой экспертизы базируются на глубоком лингвистическом анализе текста и выявлении устойчивых признаков письменной речи, характерных для конкретного автора. К ним относятся: анализ идиостиля, который включает в себя изучение лексических, синтаксических, морфологических и стилистических особенностей текста. Например, эксперт может обращать внимание на частотность использования определенных слов (лексический уровень), предпочтение определенных типов предложений (синтаксический уровень), характерные ошибки или, наоборот, безупречное владение грамматикой (морфологический уровень), а также на общую тональность и регистр текста (стилистический уровень).
Частотный анализ слов является одним из наиболее распространенных методов. Он заключается в подсчете частоты употребления различных слов, особенно так называемых «служебных» слов (предлогов, союзов, частиц), которые, как считается, менее подвержены сознательному контролю и, следовательно, более надежно отражают индивидуальный стиль автора. Например, исследование может выявить, что один автор чаще использует союз «однако», а другой — «тем не менее». Эти, казалось бы, незначительные детали, накапливаясь, формируют уникальный статистический профиль.
Синтаксические конструкции также предоставляют богатый материал для анализа. Эксперт может изучать среднюю длину предложений, их структуру (простые, сложные, сложносочиненные, сложноподчиненные), использование инверсий, вводных слов и конструкций. Например, один автор может предпочитать короткие, рубленые фразы, а другой — длинные, развернутые предложения с множеством придаточных. Эти предпочтения, как правило, устойчивы и могут служить надежными маркерами идиостиля.
Пунктуация, на первый взгляд, кажется строго регламентированной, но и здесь проявляются индивидуальные особенности. Эксперт может анализировать частотность использования различных знаков препинания, их расстановку в нестандартных случаях, а также наличие или отсутствие пунктуационных ошибок. Например, чрезмерное использование тире или, наоборот, его отсутствие там, где оно требуется, может быть характерным признаком. Кэрол Часки в своем исследовании эмпирически подтвердила, что синтаксический анализ и синтаксически классифицированная пунктуация являются двумя гипотезами, которые успешно дифференцируют и кластеризуют документы [Chaski, 2001].
Современные методы автороведческой экспертизы все чаще включают использование компьютерных программ и методов корпусной лингвистики. Это позволяет автоматизировать процесс подсчета и анализа огромных объемов текстовых данных, выявляя скрытые закономерности, которые трудно обнаружить вручную. Например, компьютер
Источники
- Stephan Lewandowsky; Ullrich K. H. Ecker; John Cook. Beyond misinformation: Understanding and coping with the “post-truth” era. (2017) ↗ doi
- H. Andrew Schwartz; Johannes C. Eichstaedt; Margaret L. Kern; Lukasz Dziurzynski; Stephanie M. Ramones; Megha Agrawal; Achal Shah; Michał Kosiński; David Stillwell; Martin E. P. Seligman; Lyle Ungar. Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach (2013) ↗ doi
- Νικόλαος Αλέτρας; Dimitrios Tsarapatsanis; Daniel Preoțiuc-Pietro; Vasileios Lampos. Predicting judicial decisions of the European Court of Human Rights: a Natural Language Processing perspective (2016) ↗ doi
- Martin Potthast; Johannes Kiesel; Kevin Reinartz; Janek Bevendorff; Benno Stein. A Stylometric Inquiry into Hyperpartisan and Fake News (2018) ↗ doi
- Olivier De Vel; Alison Anderson; Malcolm Corney; George Mohay. Mining e-mail content for author identification forensics (2001) ↗ doi
- Moshe Koppel; Jonathan Schler; Shlomo Argamon. Computational methods in authorship attribution (2009) ↗ doi
- Maciej Eder; Jan Rybicki; Mike Kestemont. Stylometry with R: A Package for Computational Text Analysis (2016) ↗ doi
- Jiwei Li; Myle Ott; Claire Cardie; Eduard Hovy. Towards a General Rule for Identifying Deceptive Opinion Spam (2014) ↗ doi
- Hossein Hassani; Christina Beneki; Stephan Unger; Maedeh Taj Mazinani; Mohammad Reza Yeganegi. Text Mining in Big Data Analytics (2020) ↗ doi
- Miriam A. Locher; Richard J. Watts. Chapter 4. Relational work and impoliteness: Negotiating norms of linguistic behaviour (2008) ↗ doi
- Dong Nguyen; A. Seza Doğruöz; Carolyn Penstein Rosé; Franciska de Jong. Computational Sociolinguistics: A Survey (2016) ↗ doi
- Cati Brown; Tony Snodgrass; Susan Kemper; Ruth Herman; Michael A. Covington. Automatic measurement of propositional idea density from part-of-speech tagging (2008) ↗ doi
- Upendra Sapkota; Steven Bethard; Manuel Montes; Thamar Solorio. Not All Character N-grams Are Created Equal: A Study in Authorship Attribution (2015) ↗ doi
- Koen Luyckx; Walter Daelemans. The effect of author set size and data size in authorship attribution (2010) ↗ doi
- Kim Luyckx; Walter Daelemans. Authorship attribution and verification with many authors and limited data (2008) ↗ doi
- Kate Haworth. The dynamics of power and resistance in police interview discourse (2006) ↗ doi
- Norman Meuschke; Béla Gipp. State-of-the-art in detecting academic plagiarism (2013) ↗ doi
- Efstathios Stamatatos. Authorship Attribution Using Text Distortion (2017) ↗ doi
- Natasha Fernandes; Mark Dras; Annabelle McIver. Generalised Differential Privacy for Text Document Processing (2019) ↗ doi
- Patrick Juola; John Sofko; Patrick McKinley Brennan. A Prototype for Authorship Attribution Studies (2006) ↗ doi
- Tim Grant. TXT 4N6:method, consistency, and distinctiveness in the analysis of sms text messages (2013)
- Yanir Seroussi; Ingrid Zukerman; Fabian Bohnert. Authorship Attribution with Topic Models (2014) ↗ doi
- Jack Grieve; Isobelle Clarke; Emily Chiang; Hannah P. Gideon; Annina Heini; Andrea Nini; Emily Waibel. Attributing the Bixby Letter using n-gram tracing (2018) ↗ doi
- Nicci MacLeod; Tim Grant. Whose Tweet? Authorship analysis of micro-blogs and other short-form messages (2012)
- Heba El-Fiqi; Eleni Petraki; Hussein A. Abbass. Network motifs for translator stylometry identification (2019) ↗ doi
- Malcolm Coulthard. An Introduction to Forensic Linguistics (2016) ↗ doi
- Shlomo Argamon. Register in computational language research (2019) ↗ doi
- Benedikt Boenninghoff; Robert M. Nickel; Steffen Zeiler; Dorothea Kolossa. Similarity Learning for Authorship Verification in Social Media (2019) ↗ doi
- Carole E. Chaski. Empirical evaluations of language-based author identification techniques (2001) ↗ doi
- Graeme Hirst; Vanessa Wei Feng. Changes in Style in Authors with Alzheimer's Disease (2012) ↗ doi
- Gerald Mcmenamin. Style markers in authorship studies (2001) ↗ doi
- Nektaria Potha; Efstathios Stamatatos. Intrinsic Author Verification Using Topic Modeling (2018) ↗ doi
- David Wright. Stylistics versus Statistics: A corpus linguistic approach to combining techniques in forensic authorship analysis using Enron emails (2014)
- G. Heydon. Researching Forensic Linguistics (2019) ↗ doi
- Kelly Bodwin; Albert Yoon. A Statistical Approach to Judicial Authorship: A Case Study of Judge Easterbrook (2012)
- Arta Misini; A. Kadriu; Ercan Canhasi. A Survey on Authorship Analysis Tasks and Techniques (2022) ↗ doi
- Ahmed Alduais; Mohammed Ali Al-Khulaidi; Silvia Allegretta; Mona Mohammed Abdulkhalek. Forensic linguistics: A scientometric review (2023) ↗ doi
- Tatiana Litvinova; Anastasiya Gromova. Current Problems of Forensic Authorship Analysis and the Possibility of Their Solution with the Use of Computer Methods: Problems and Prospects (2020) ↗ doi
- Matthias Schlesewsky. Linguistische Daten aus experimentellen Umgebungen: Eine multiexperimentelle und multimodale Perspektive (2009) ↗ doi
- Jonathan J. Koehler. Linguistic Confusion in Court: Evidence From the Forensic Sciences (2013)
- В. О. Кузнецов; E. K. Kryuk. Demarcating a Linguistic Expert’s and an Authorship Investigator’s Competencies When Examining Copyright and Related Rights Objects (2019) ↗ doi
- Nishchal Sharma; Ajay Kumar. Deep Learning for Stylometry and Authorship Attribution: a Review of Literature (2024) ↗ doi
- Doru B, Maier C, Busse JS, Lücke T, Schönhoff J, Enax-Krumova E, Hessler S, Berger M, Tokic M.. Detecting Artificial Intelligence-Generated Versus Human-Written Medical Student Essays: Semirandomized Controlled Study. (2025) ↗ doi
- Juola P.. Verifying authorship for forensic purposes: A computational protocol and its validation. (2021) ↗ doi
- Rui Ribeiro; J. P. Carvalho; Luísa Coheur. Leveraging Fuzzy Fingerprints from Large Language Models for Authorship Attribution (2024) ↗ doi
- Mario Crespo Miguel. Analysis of parameters on author attribution of Spanish electronic short texts (2016) ↗ doi
- Juan Antonio Cutillas Espinosa; Juan Manuel Hernández Campoy. Historical sociolinguistics and authorship elucidation in medieval private written correspondence: (2021) ↗ doi
- Alison Johnson; Malcolm Coulthard. Introduction ↗ doi
- Leonard Bloomfield. Language (1933)
- Noam Chomsky. Syntactic Structures (1957)
- Noam Chomsky. Aspects of the Theory of Syntax (1965)
- John Langshaw Austin. How to Do Things with Words (1962)
- Dwight Fee; Norman Fairclough. Discourse and Social Change. (1993) ↗ doi
- Noam Chomsky. ASPECTS OF THE THEORY OF SYNTAX (1964) ↗ doi
- Μ. Α. Κ. Halliday; Christian M.I.M. Matthiessen; M.A.K. Halliday; Christian M.I.M. Matthiessen. An Introduction to Functional Grammar (2014) ↗ doi
- Noam Chomsky. The Minimalist Program (2014) ↗ doi
- Noam Chomsky. Syntactic Structures (1957) ↗ doi
- Norman Fairclough. Critical Discourse Analysis: The Critical Study of Language (1995) ↗ doi
- Norman Fairclough. Analysing Discourse: Textual Analysis for Social Research (2003)
- Μ. Α. Κ. Halliday. Language as social semiotic : the social interpretation of language and meaning (1978)
- Μ. Α. Κ. Halliday; Ruqaiya Hasan. Cohesion in English (2014) ↗ doi
- Norman Fairclough. Analysing Discourse (2003) ↗ doi
- James R. Bennett; Edward S. Herman; Noam Chomsky. Manufacturing Consent: The Political Economy of the Mass Media. (1989) ↗ doi