На главную| Скачать| Купить| Контакты
Главная страница Детектор плагиата - поиск плагиата и нарушений авторских прав в Интернете
 

Описание программной системы "Детектор плагиата"

«Детектор плагиата» - это программа поиска плагиата в Интернете, предоставляющая пользователю возможность проверки локальных текстовых документов для обнаружения заимствований из локальных документов, либо опубликованных в Интернете1.

 

Поддерживаемые форматы документов

Система поиска нарушения авторских прав позволяет осуществлять сравнение текстовой информации для поиска заимствований из документов следующих форматов:

  • Plain Text (*.txt)
  • Rich Text Format (*.rtf)
  • Microsoft Word (*.doc)
  • HTML подобные (*.htm, *.html, *.mht, *.mhtml, *.shtm, *.shtml)

Следует отметить, что при поиске заимствований в Интернете, анализу подвергаются также динамические web-страницы опубликованные в сети, такие как php, asp и пр.

 

Механизм поиска

Для поиска в Интернете документов, потенциально похожих на исходный текстовый документ, система "Детектор плагиата" использует ресурсы одной из крупнейших отечественных поисковых систем - Яндекс. Таким образом, поиск осуществляется по всем документам, проиндексированным поисковой машиной, что является более эффективным, чем использование собственной базы данных, по которой будет производиться поиск.

Сравнение исходного документа осуществляется с найденными поисковой машиной потенциально похожими документами, которые загружаются на компьютер пользователя. Формирование запросов в поисковую машину может осуществляться как в ручном, так и в автоматическом режиме. Уникальный механизм составления поисковых запросов, основанный на разработанных алгоритмах, позволяет генерировать эффективные автоматические запросы в поисковую систему. При этом у пользователя остаётся возможность указать поисковые запросы вручную.

 

Механизм сравнения

Перед сравнением, системой поиска нарушения авторских прав выделяется из документов текстовая составляющая. Далее, весь полученный текстовый материал разбивается на отдельные последовательности слов. В общем случае, последовательностью слов может являться: словосочетание, фраза, фрагмент предложения или целое предложение. Использование в качестве единицы сравнения последовательности слов показало большую эффективность, чем сравнение по отдельным словам, либо по отдельным предложениям.

Качество и эффективность механизма сравнения текстовых документов во многом определяется использованием нечёткого сравнения. Пользователь может изменять степень нечёткости в настройках системы, тем самым, задавая процент от длины сравниваемой строки, при несовпадении которого сравниваемые строки всё равно будут признаны совпадающими.

После проведения сравнения пользователю предоставляется возможность просмотреть подробную информацию о найденных фрагментах совпадения. Также пользователь может просмотреть сравниваемые документы, где совпавшие фрагменты оформлены в виде гиперссылок, что без труда позволяет осуществить переход к заимствованному фрагменту текстовой информации.

 

Основные возможности системы "Детектор плагиата"

  • автоматический поиск в исходном документе наиболее часто встречающихся словосочетаний и выражений, при этом в целом относительно редко употребляемых в текстовых документах;
  • автоматическое формирование поисковых запросов с использованием разработанного алгоритма, на основе найденных словосочетаний и выражений. В системе присутствует возможность составления поисковых запросов в ручном режиме;
  • автоматическое взаимодействие с одной из крупнейших отечественных поисковых машин, позволяющее получить список URL-адресов на документы, потенциально содержащие заимствования из исходного документа;
  • визуальное отображение информации о найденных URL: формат документа, размер, статус обработки данного документа автоматизированной системой;
  • автоматическая загрузка документов, по полученному списку URL-адресов, а также получение текстовой составляющей из загруженных документов;
  • автоматическое сравнение исходного документа с загруженными из Интернета документами, с использованием разработанного комплекса алгоритмов, для выявления фрагментов заимствований;
  • автоматическое сравнение исходного документа (папки документов) с документом (папкой документов), расположенным на локальном носителе данных, либо в сети Интранет;
  • визуальное отображение статистической информации о сравниваемых документах, а также информации о заимствованных фрагментах в соответствии с установленными пользователем настройками автоматизированной системы;
  • оформление заимствованных фрагментов текстовой информации в виде гиперссылок, что позволяет без труда осуществлять переход к заимствованному фрагменту в соответствующем документе;
  • возможность использования автоматизированной системы через Proxy-сервер;
  • возможность использования двух режимов настроек системы (обычного и расширенного);
  • управление настройками автоматизированной системы позволяет задавать ограничения, а также параметры работы автоматизированной системы.
  • К основным настройкам относятся:

    • определение количества загружаемых для сравнения документов из Интернета;
    • определение границ размера загружаемых документов из сети Интернет;
    • указание форматов сравниваемых документов (html-подобные, txt, doc и rtf);
    • определение параметра, характеризующего как для какого документа вычисляется процент совпадения (для исходного документа, либо для сравниваемого с исходным документа);
    • настройка параметров нечёткого сравнения, позволяющих задавать степень нечёткости при сравнении текстовых документов. Применение нечёткого сравнения значительно эффективнее обычного при поиске заимствований с незначительными изменениями в сравниваемых документах;
    • изменение визуальных параметров автоматизированной системы (цветовые решения для таблиц, а также для гиперссылок, которыми оформляются заимствованные фрагменты);
    • настройка, позволяющая избежать многократного преобразования одних и тех же doc или rtf-документов в txt при неоднократном сравнении;
    • группа параметров, отвечающая за максимально допустимое время выполнения определённых задач (загрузка HTML документа, загрузка DOC документа, конвертирование DOC документа в TXT, время ожидания ответа от web-сервера, время ожидания списка ссылок от поисковой машины и пр.);
    • настройки, определяющие механизм формирования поисковых запросов (ручной или автоматический режим); параметры автоматического формирования поисковых запросов;
    • возможность восстановления всех первоначальных (исходных) настроек.

 

Основные режимы проверки документов

Программа "Детектор плагиата" предоставляет возможность сравнения локальных текстовых документов с локальными, либо найденными в Интернете текстовыми документами. В системе поиска нарушения авторских прав предусмотрено 5 основных режимов проверки документов: 3 — предназначены для сравнения локальных документов, а 2 — для поиска заимствований в Интернете.

 

Режимы поиска заимствований в локальных документах

Файл — Файл
Сравнение одного исходного текстового документа со вторым текстовым документом.

Файл — Папка
Сравнение одного исходного текстового документа с текстовыми документами, расположенными в указанной папке.

Папка — Папка
Сравнение текстовых документов из исходной папки с текстовыми документами, расположенными во второй папке.

 

Режимы поиска заимствований в Интернете

Файл — Интернет
Сравнение одного исходного текстового документа с потенциально похожими текстовыми документами, найденными в Интернете.

Папка — Интернет
Сравнение текстовых документов из исходной папки с потенциально похожими текстовыми документами, найденными в Интернете.




1Для использования функции поиска заимствований в сети Интернет необходима регистрация в сервисе Яндекс.XML (http://www.xml.yandex.ru)

 

Поиск
О программе "Детектор плагиата"
Основные возможности программы
Описание программной системы
Кому и зачем нужна система
"Детектор плагиата"
Скриншоты программы
Скачать демо-версию программы
Купить программу
Законодательство
Контакты
 


© 2010, Директ-Медиа
На главную| Скачать| Купить| Контакты