- Определение плагиата
-
Ана́лиз плагиа́та или выявление плагиата — это компьютерные методы выявления плагиата [1].
Плагиат (англ. plagiarism) — это копирование, перефразирование и подведение итогов работы в любой форме без подтверждения ссылками на источники и представление её как своей собственной работы [2].
Плагиат — это заимствование чужой работы, будь то преднамеренно или непреднамеренно, как своей, ради собственной выгоды[3].
В настоящее время существует достаточно большое количество сервисов и программ, позволяющих каким-либо образом выявить плагиат. Так же существует ряд компьютерных методов обнаружения плагиата.
Содержание
Проблема плагиата
Плагиат с появлением Интернета превратился в серьёзную проблему. Попав в Интернет, знание становится достоянием всех, соблюдать авторское право становится всё труднее и даже невозможно[4]. Постепенно становится сложнее идентифицировать первоначального автора.
Стремительное развитие сети Интернет наряду с увеличивающейся компьютерной грамотностью способствует проникновению плагиата в различные сферы человеческой деятельности: плагиат является острой проблемой в образовании, промышленности и научном сообществе [5].
Плагиат является преступлением. Это вводит в заблуждение читателей, приносит ущерб автору, и предоставляет незаслуженные блага плагиатору [6].
Широкий доступ к отечественной и зарубежной литературе, многократное увеличение числа профессиональных изданий, публикаций в Интернете — всё это практически сводит на нет какие бы то ни было редакторские стремления «проверить» или «установить» подлинность и оригинальность аргументов и фактов, используемых в рукописях, предлагаемых к публикации [7].
Методы обнаружения плагиата
На иллюстрации представлена классификация методов компьютерного обнаружения плагиата с технической точки зрения.
- Методы характеризуются по типу оценки сходства.
Глобальная оценка использует большие части текста или документа для нахождения сходства в целом, в то время как локальные методы на входе проверяют ограниченный сегмент текста.
- В настоящее время наиболее распространённым подходом является Дактилоскопия:
Из ряда документов выбирается набор из нескольких подстрок, которые и являются «отпечатками». Рассматриваемый документ будет сравниваться с «отпечатками» для всех документов коллекции. Найденные соответствия с другими документами указывают на общие сегменты текста. [8]
- Проверка документа дословным перекрытием текста представляет собой классическое сравнение строк.
Проверка подозрительных документов в этой ситуации требует расчёта и хранения эффективно сопоставимые представления всех документов в справочной коллекции, которые сравниваются попарно. Как правило, используют модели, такие как суффиксное дерево или суффиксный массив, которые были адаптированы для выполнения этой задачи в контексте компьютерного обнаружения плагиата. Однако сопоставление подстроки является нежизнеспособным решением для проверки больших коллекций документов (алгоритм отрабатывает в среднем 2h сравнений, где h — длина строки, в которой ведётся поиск). [9]
Анализ "множества слов" (англ.)русск. является упрощением представления, используемого в обработке естественного языка и поиска информации. В этой модели текст представлен как неупорядоченный набор слов. Документы представлены в виде одного или нескольких векторов, которые используются для попарного вычисления сходства.[10] [11] [12]
- Цитирование — компьютерный метод выявления плагиата, предназначенный для использования в научных документах, позволяющий использовать цитаты и справочный материал. Определяет общие цитаты двух научных работ.
Шаблон цитат представляет собой подпоследовательности, содержащие не только общие цитаты для двух документов, но и подобный порядок и близость цитат в тексте, являющихся основными критериями для определения шаблона цитат. [13][14] [15] [16]
- Стилометрия или изучение языковых стилей — это статистический метод для выявления авторства анонимных документов и для компьютерной проверки на плагиат.
Строятся стилометрические модели для различных сегментов текста, отрывков, которые стилистически отличаются от других. И путём сравнения моделей можно обнаружить плагиат.[17]
Например, анализ на основе последовательностей частей речи. Рассматривается способ разбиения текста на фрагменты однородности. В качестве параметров разбиения берутся различные последовательности частей речи. Далее проводится анализ фрагментов. И в результате для текста находятся последовательности, которые выделяли из текстов фрагменты, то есть алгоритм выделяет из текста фрагменты неоднородности, имеющие разные частоты встречаемости выбранной последовательности частей речи, что показывает на возможный плагиат в данном месте.[18]
Обзор существующих систем
В настоящее время существует достаточно большое количество сервисов и программ, позволяющих каким-либо образом выявить заимствования.[19] В числе таковых можно назвать: систему «Антиплагиат», Advego Plagiatus, miratools.ru, istio.com, Praide Unique Content Analyser II, Plagiatinform, Copyscape (англ.)русск..
Система осуществляет онлайн поиск по большому количеству документов, хранящихся в собственной базе. Обладает рядом недостатков, таких как: отсутствие осуществления поиска по документам, доступным в сети Интернет; ограничение проверяемого текста 3000 символами и 5000 символами после регистрации и ограничение возможностью проверки только по базе имеющихся работ.
- Программа Advego Plagiatus осуществляет онлайн проверку с использованием поисковых систем.[21]
В отличие от аналогичных систем, Advego Plagiatus не использует Яндекс.XML (бесплатный сервис, предоставляющий возможность производить автоматические поисковые запросы к «Яндексу» и публиковать его выдачу у себя на ресурсе). Программа выдаёт процент совпадения текста и выводит найденные источники. Программа не преобразует буквы, то есть нет преобразования регистра, нет обработки и изменения латинских букв в русских словах на аналогичные буквы русского алфавита для текстов на русском языке. Также отсутствует поддержка поиска по собственной базе; из-за особенностей работы возникают ситуации, когда результаты проверки отличаются от раза к разу.
- Сервис www.miratools.ru позволяет осуществлять онлайн проверку текста на плагиат.[22]
Система использует результаты выдачи поисковых систем. К достоинствам можно отнести возможность замены английских букв на русские. Также имеется возможность изменения длины и шага шингла (англ.)русск., используемых для проверки. По результатам проверки выдаётся процент совпадений и найденные источники. Недостатком является то, что система не работает с собственной базой, существует ограничение на длину текста в 3000 символов и ограничение на число проверок в течение суток.
- Сервис www.istio.com осуществляет проверку текста на наличие заимствованного контента с использованием поисковых систем Яндекс.XML и Yahoo.com..[23]
Возможности сервиса несколько слабее по сравнению с Miratools. По результатам проверки выдаётся сообщение о том, является ли текст уникальным или нет, и выдаётся список подобных страниц сайтов. Сервис предоставляет дополнительные средства для анализа текстов, например, проверку орфографии, анализ наиболее частотных слов и т. д. У системы отсутствует преобразование букв и поиск по собственной базе.
- Программа Praide Unique Content Analyser II имеет широкие возможности по проверке текстов с использованием поисковых систем.[24]
Имеется возможность выбора используемых поисковых систем, содержит средства добавления новых поисковых систем. Проверка осуществляется шинглами, длину которых можно изменять. Можно задавать количества слов перекрытия шинглов. Выводится подробный отчёт по проверке в каждой поисковой системе. В программе отсутствует замены букв, обработка стоп-слов и нет поддержки работы с собственной базой.
- Система Plagiatinform проверяет документы на наличие заимствований как в локальной базе, так и в сети Интернет.[25]
Система умеет находить плагиат в виде документов, скомпонованных из «перемешанных» кусков текста нескольких источников. Проверка может осуществляться с использованием быстрого или углублённого поиска. Результаты проверки выдаются в виде наглядного отчёта. Недостатком является отсутствие преобразования букв. Также авторы не предоставляют возможности свободного использования или тестирования системы, и оценить качество её работы невозможно.
- Сервис Copyscape (англ.)русск. позволяет осуществлять поиск копий веб-страниц в Интернете.[26]
Система возвращает список веб-страниц, у которых есть похожий по содержанию текст. Сервис осуществляет проверку на наличие заимствованного контента с использованием поисковых систем Google и Yahoo!
Проверяется только контент веб страницы, то есть, для выяснения уникальности текста необходимо опубликовать текст на сайте и ввести в системе адрес страницы. Без регистрации существует ограничение на количество проверок в месяц и на количество отображаемых результатов — 10 сайтов. Для зарегистрированных пользователей нет ограничений на количество проверок и выводимых результатов, но каждый запрос стоит 5 центов.
См. также
Примечания
- ↑ Benno S., 2011
- ↑ ACT BSSS, 2011
- ↑ Johnston B., 2008
- ↑ Аушра А., 2006
- ↑ Дягилев В.В., 2011, pp. 23
- ↑ Bouville M., 2008, pp. 331
- ↑ Ушакин С., 2001
- ↑ Brin S., 2001, pp. 36-41
- ↑ Monostori K., 2000, pp. 226–227
- ↑ Leong A., 1997, pp. 70-77
- ↑ Dreher H., 2007, pp. 601-614
- ↑ Muhr M., 2009, pp. 47-55
- ↑ Gipp B., 2009, pp. 571–575
- ↑ Gipp B., 2010, pp. 273–274
- ↑ Gipp B., 2011, pp. 255–258
- ↑ Gipp, 2011, pp. 249–258
- ↑ Meyer zu Eissen S., 2006, pp. 565–569
- ↑ Седов А., 2013
- ↑ Шарапов Р.В., 2011
- ↑ antiplagiat.ru — Антиплагиат
- ↑ advego.ru — проверка уникальности текста
- ↑ miratools.ru — Сервис проверки уникальности контента
- ↑ istio.com — Сервис анализа текстов и сайтов
- ↑ Praide unique content analyzer — Проверка уникальности текста в Интернете
- ↑ plagiatinform.ru — Система для определения плагиата в документах
- ↑ copyscape.com — Copyscape Plagiarism Checker
Литература
- Дягилев В.В., Цхай А.А., Бутаков С.В. Архитектура сервиса определения плагиата, исключающая возможность нарушения авторских прав (рус.) // Вестник НГУ. Серия:Информационные технологии.. — 2011.
- Bouville M. Plagiarism: Words and ideas (англ.) // Science and Engineering Ethics. — 2008.
- Аушра А. Научная электронная библиотека, как средство борьбы с плагиатом (рус.) // Международный форум Educational Technology & Society 9(3). — 2006.
- Шарапов Р.В., Шарапова Е.В. Система проверки текстов на заимствования из других источников (рус.) // Всероссийская научная конференция Электронные библиотеки: Перспективные методы и технологии, электронные коллекции.. — 2011.
- Ушакин С. Плагиат? Об этике в науке (рус.) // Общественные науки и современность. — 2001.
- Johnston B. The concept of plagiarism (англ.). — 2008.
- Benno S., Moshe K. Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection PAN’07 (англ.) // ACM SIGIR Forum.. — 2011.
- ACT BSSS What is plagiarism? How can you avoid it. (англ.) // ACT Board of Senior Secondary Studies.. — 2011.
- Brin S., Davis J., Garcia-Molina H. Copy Detection Mechanisms for Digital Documents (англ.) // Vine.. — 2001.
- Monostori K., Zaslavsky A., Schmidt H. Document Overlap Detection System for Distributed Digital Libraries (англ.) // ACM. — 2000.
- Leong A., Lau H., Rynson W. H. Check: A Document Plagiarisment Detection System (англ.) // ACM. — 1997.
- Dreher H. Automatic Conceptual Analysis for Plagiarism Detection (англ.) // Information and Beyond: The Journal of Issues in Informing Science and Information Technology. — 2007.
- Muhr M., Zechner M. External and Intrinsic Plagiarism Detection. Using Vector Space Models (англ.). — 2009.
- Gipp B., Beel J. Citation Proximity Analysis (CPA) – A new approach for identifying related work based on Co-Citation Analysis (англ.) // International Society for Scientometrics and Informetrics. — 2009.
- Gipp B., Beel J. Citation Based Plagiarism Detection - A New Approach to Identify Plagiarized Work Language Independently. (англ.) // ACM. — 2010.
- Gipp B., Meuschke N., Beel J. Comparative Evaluation of Text- and Citation-based Plagiarism Detection Approaches using GuttenPlag. (англ.) // ACM. — 2011.
- Gipp B., Meuschke N. Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence. (англ.) // ACM. — 2011.
- Meyer zu Eissen S., Stein B. Intrinsic Plagiarism Detection. (англ.) // Springer. — 2006.
- Седов А. Рогов А. Анализ неоднородностей в тексте на основе последовательностей частей речи. (рус.) // Современные проблемы науки и образования.. — 2013.
Категории:- Аудиостатьи
- Плагиат
- Алгоритмы интернет-поиска
Wikimedia Foundation. 2010.