Плагиат Анализатор (сравненный с веб-контентом)

Question

Плагиат Анализатор (сравненный с веб-контентом)

Я сказал бы, что быстрые интерфейсы немного преувеличены, и я думал бы, что Вы выбрали всего один такой пример.

я нахожу быстрые интерфейсы особенно сильными, когда Вы создаете сложную модель с ним. С моделью я имею в виду, например, сложные отношения инстанцированных объектов. Быстрый интерфейс является тогда способом вести разработчика для корректного построения экземпляров семантической модели. Такой быстрый интерфейс является тогда отличным способом разделить механику и отношения модели от "грамматики", которую Вы используете для построения модели, по существу экранируя детали от конечного пользователя и уменьшая доступные глаголы до, возможно, просто релевантных в конкретном сценарии.

Ваш пример немного походит на излишество.

я в последнее время сделал некоторый быстрый интерфейс сверху SplitterContainer от Windows Forms. Возможно, семантическая модель иерархии средств управления несколько сложна для корректного построения. Путем обеспечения маленькому быстрому API разработчик может теперь декларативно выразить, как его SplitterContainer должен работать. Использование идет как

var s = new SplitBoxSetup();
s.AddVerticalSplit()
 .PanelOne().PlaceControl(()=> new Label())
 .PanelTwo()
 .AddHorizontalSplit()
 .PanelOne().PlaceControl(()=> new Label())
 .PanelTwo().PlaceControl(()=> new Panel());
form.Controls.Add(s.TopControl);

, я теперь уменьшил сложную механику иерархии управления к нескольким глаголам, которые важны для текущего вопроса.

Hope это помогает

5

java mysql web-crawler plagiarism-detection

задан Dave Jarvis 14 October 2009 в 16:17

3 ответа

1) Сделать свой собственный поисковый робот? похоже, вы легко можете использовать все свободное время только для этой задачи. Попробуйте использовать для этого стандартное решение: оно не является сердцем вашей программы.

У вас все равно будет возможность сделать свою собственную или попробовать другую после (если у вас останется время!). Ваша программа должна работать только с локальными файлами, чтобы не быть привязанной к конкретному сканеру / API.

Возможно, вам даже придется использовать разные сканеры для разных сайтов

2) Возможно хеширование целых абзацев. Вы можете просто хешировать любую строку. Но, конечно, это означает, что вы можете проверять только все скопированные параграфы. Может быть, предложения будут лучшей единицей для тестирования. Вероятно, вам следует «нормализовать» (преобразовать) предложения / параграфы перед хешированием, чтобы отсортировать незначительные различия, такие как верхний / нижний регистр.

3) MySQL может хранить много данных.

Обычный совет: придерживайтесь стандартного SQL. Если вы обнаружите, что у вас слишком много данных, у вас все равно будет возможность использовать другую реализацию SQL.

Но, конечно, если у вас слишком много данных, начните с поиска способов уменьшить их или, по крайней мере, уменьшить то, что находится в mySQL. . например, вы можете хранить хэши в MySQL, а исходные страницы (при необходимости) в простых файлах.

1

ответ дан 14 December 2019 в 19:18

Онлайн-код обычно распространяется по лицензиям OpenSource. И большая часть кода - это просто учебники. По вашей логике копирование чего-либо с любого сайта - плагиат. Это означает, что вы не можете принять и использовать любой полученный здесь ответ. Если вы действительно хотите завершить свой проект, просто напишите систему, которая сравнивала бы код учащихся того же класса и предыдущих классов. Это намного эффективнее. Примером такой системы является MOSS (есть также статья о том, как она работает). Эта штука действительно эффективна без каких-либо поисковых роботов.

0

ответ дан 14 December 2019 в 19:18

Другие вопросы по тегам:

java mysql web-crawler plagiarism-detection

Похожие вопросы:

score 4 · Accepted Answer

Есть несколько способов сделать это плохое упоминание 2

1- Если вы получаете только текстовый ответ, вы можете использовать [NSString stringWithContentOfURL: url] это заполнит строку ответом веб-запроса.

2- Вы можете использовать NSURLRequest / NSMutableURLRequest вместе с NSURLConnection, чтобы сделать свой запрос и вернуть данные, вот ссылка на NSURLRequest http://developer.apple.com/iphone/library/documentation/Cocoa/ Reference / Foundation / Classes / NSURLRequest_Class / Reference / Reference.html , вам нужно будет установить несколько свойств, таких как URL-адрес типа запроса (get, post) httpHeaders, если применимо, после того как вы это сделаете, вы можете использовать NSURLConnection для отправьте запрос здесь ссылку, http://developer.apple.com/iphone/library/documentation/Cocoa/Reference/Foundation/Classes/NSURLConnection_Class/Reference/Reference.html , Обречены на провал из-за нехватки доступных вам ресурсов?

Если вы действительно хотите сказать: «Эй, давай просканируем всю сеть!» route, вам нужно будет выделить такие вещи, как HBase, Hadoop и множество других машин. MySQL будет явно недостаточно. TurnItIn утверждает, что просканировал и проиндексировал 12 миллиардов страниц. Индекс Google больше похож на [отредактировано]. MySQL или любая РСУБД не могут масштабироваться до этого уровня.

Единственный реалистичный способ добиться этого - это сделать что-то удивительно умное и выяснить, как создавать запросы к Google. это выявит плагиат документов, которые уже присутствуют в индексе Google. Я бы рекомендовал использовать очередь сообщений и синхронно обращаться к поисковому API. Очередь сообщений также позволит вам снизить количество запросов до разумной скорости. Избегайте стоп-слов, но вы все равно ищете почти точные совпадения, поэтому запросы должны быть такими: «* быстрая коричневая лиса перепрыгнула * ленивая собака» Не беспокойтесь о выполнении запросов, которые заканчиваются примерно так: «* * пошел * * *» И игнорировать результаты, которые возвращаются с 94 000 000 обращений. Это не будет плагиатом, это будут известные цитаты или чрезмерно общие вопросы. Вы ищете либо менее 10 совпадений, либо несколько тысяч совпадений, которые полностью совпадают с вашим исходным предложением или с каким-либо аналогичным показателем. И даже в этом случае это должно быть просто эвристикой - не помечайте документ, если нет большого количества красных флажков. И наоборот, если все возвращается с нулевым количеством совпадений, они необычно оригинальны. Книжный поиск обычно требует более точных запросов. Достаточно подозрительные вещи должны запускать HTTP-запросы к исходным страницам, а окончательные решения всегда должны оставаться в компетенции человека. Если документ ссылается на свои источники, это не плагиат, и вы захотите это обнаружить. Ложные срабатывания неизбежны и, скорее всего, будут обычным явлением, если не постоянным.

Имейте в виду, что Условия использования запрещают постоянное хранение любая часть индекса Google.