| |
Описание программной системы "Детектор плагиата"
«Детектор плагиата» - это программа поиска плагиата в Интернете, предоставляющая пользователю возможность проверки локальных текстовых документов для обнаружения заимствований из локальных документов, либо опубликованных в Интернете1.
Поддерживаемые форматы документов
Система поиска нарушения авторских прав позволяет осуществлять сравнение текстовой информации для поиска заимствований из документов следующих форматов:
- Plain Text (*.txt)
- Rich Text Format (*.rtf)
- Microsoft Word (*.doc)
- HTML подобные (*.htm, *.html, *.mht, *.mhtml, *.shtm, *.shtml)
Следует отметить, что при поиске заимствований в Интернете, анализу подвергаются также динамические web-страницы опубликованные в сети, такие как php, asp и пр.
Механизм поиска
Для поиска в Интернете документов, потенциально похожих на исходный текстовый документ, система "Детектор плагиата" использует ресурсы одной из крупнейших отечественных поисковых систем - Яндекс. Таким образом, поиск осуществляется по всем документам, проиндексированным поисковой машиной, что является более эффективным, чем использование собственной базы данных, по которой будет производиться поиск.
Сравнение исходного документа осуществляется с найденными поисковой машиной потенциально похожими документами, которые загружаются на компьютер пользователя. Формирование запросов в поисковую машину может осуществляться как в ручном, так и в автоматическом режиме. Уникальный механизм составления поисковых запросов, основанный на разработанных алгоритмах, позволяет генерировать эффективные автоматические запросы в поисковую систему. При этом у пользователя остаётся возможность указать поисковые запросы вручную.
Механизм сравнения
Перед сравнением, системой поиска нарушения авторских прав выделяется из документов текстовая составляющая. Далее, весь полученный текстовый материал разбивается на отдельные последовательности слов. В общем случае, последовательностью слов может являться: словосочетание, фраза, фрагмент предложения или целое предложение. Использование в качестве единицы сравнения последовательности слов показало большую эффективность, чем сравнение по отдельным словам, либо по отдельным предложениям.
Качество и эффективность механизма сравнения текстовых документов во многом определяется использованием нечёткого сравнения. Пользователь может изменять степень нечёткости в настройках системы, тем самым, задавая процент от длины сравниваемой строки, при несовпадении которого сравниваемые строки всё равно будут признаны совпадающими.
После проведения сравнения пользователю предоставляется возможность просмотреть подробную информацию о найденных фрагментах совпадения. Также пользователь может просмотреть сравниваемые документы, где совпавшие фрагменты оформлены в виде гиперссылок, что без труда позволяет осуществить переход к заимствованному фрагменту текстовой информации.
Основные возможности системы "Детектор плагиата"
Основные режимы проверки документов
Программа "Детектор плагиата" предоставляет возможность сравнения локальных текстовых документов с локальными, либо найденными в Интернете текстовыми документами. В системе поиска нарушения авторских прав предусмотрено 5 основных режимов проверки документов: 3 — предназначены для сравнения локальных документов, а 2 — для поиска заимствований в Интернете.
Режимы поиска заимствований в локальных документах
Файл — Файл
Сравнение одного исходного текстового документа со вторым текстовым документом.
Файл — Папка
Сравнение одного исходного текстового документа с текстовыми документами, расположенными в указанной папке.
Папка — Папка
Сравнение текстовых документов из исходной папки с текстовыми документами, расположенными во второй папке.
Режимы поиска заимствований в Интернете
Файл — Интернет
Сравнение одного исходного текстового документа с потенциально похожими текстовыми документами, найденными в Интернете.
Папка — Интернет
Сравнение текстовых документов из исходной папки с потенциально похожими текстовыми документами, найденными в Интернете.
1Для использования функции поиска заимствований в сети Интернет необходима регистрация в сервисе Яндекс.XML (http://www.xml.yandex.ru)
|
|