Извините, если это не по теме, но вот ваш шанс уменьшить количество "домашних" вопросов на этом сайте :-)
Я преподаю класс программирования C, где студенты работают над небольшой библиотекой числовых подпрограмм на C. В этом году исходные файлы нескольких групп студентов содержали значительное количество дублированного кода.
(Вплоть до идентично написанных с ошибками операторов отладки printf
. Я имею в виду, насколько вы тупой.)
Я знаю, что Git может определять, когда два исходных файла похожи друг на друга сверх определенного порога. но я никогда не пытаюсь заставить это работать с двумя исходными файлами, которых нет в репозитории Git.
Имейте в виду, что это не особо искушенные ученики. Маловероятно, что они потрудились бы изменить имена переменных / функций.
Можно ли использовать Git для обнаружения значительного и буквального дублирования кода, известного как плагиат? Или есть другой инструмент, который вы могли бы порекомендовать для этого