алгоритмы для оценки пользовательских ответов

Я лично чувствую, что необходимо было бы перекомпилировать приложение с помощью 64-разрядного компилятора (очевидно, на 64-разрядной машине) для получения большинства Memcached на 64-разрядной платформе. Это не может быть легкой задачей в зависимости от кода. Если бы это было записано с 64-разрядной мобильностью в памяти тогда, то это могло бы быть простое, перекомпилировали. Если это не имеет, то Вы могли подлежать довольно мало исправления прежде, чем заставить его создавать.. и затем необходимо было бы проверить, что Вы ничего не повредили!

я не думаю, что Вы переоцениваете различия между 32 и 64-разрядные вообще. Частая ошибка состоит в том, чтобы предположить, что задание является простым, перекомпилировали, когда на самом деле это не. Существует больше проблем мобильности, чем большинство людей понимает. Просто, потому что сборки приложения и Вы заканчиваете с двоичным файлом, это не означает, что двоичный файл собирается вести себя, как это должно. Особенно, когда это может взаимодействовать с другим 32-разрядным кодом.

Однако могло бы стоить дать ему вращение!

Удача. За Ваше здоровье!

<час>

@Lars: Я рекомендую читать вопрос прежде, чем делать попытку ответа.

@John Родственно & @DannySmurf: учитывая природу Memcached и чего это имеет целью достигать, конечно, Вы не хотели бы выполнять 32-разрядную версию на 64-разрядной машине? Если бы у Вас была 64-разрядная способная машина, то имело бы смысл выполнять 64-разрядную версию, чтобы максимально использовать функции аппаратных средств.

5
задан Ralph 1 November 2009 в 21:28
поделиться

7 ответов

Я считаю, что то, что вы описали, решено с помощью обнаружения выбросов / аномалий . Существует ряд методов:

  • статистические методы
  • методы, основанные на расстоянии
  • методы, основанные на моделях

Я предлагаю вам взглянуть на эти слайды из прекрасной книги Введение в интеллектуальный анализ данных

2
ответ дан 14 December 2019 в 19:17
поделиться

Если вы знаете, каких ответов вы ждете, почему вы просите людей голосовать? Исключая некоторые значения, вы в основном превращаете голос во что-то, что вам нравится. На разных людей автомобили производят разное впечатление. Если 100 человек любили машину, то когда кто-то приходит и говорит, что она ему не нравится, вы исключаете голосование?

Но в любом случае, учитывая, что вы все еще хотите это сделать, вам в первую очередь понадобится большой установить данные от «доверенных» избирателей. Это даст вам представление о "хорошем" ответ, и с этого момента вы можете выбрать порог исключения.

Без начального набора данных вы не можете применить какой-либо алгоритм, потому что вы получите ложные результаты. Рассмотрим только один голос из 100 по шкале от 0 до 100. Второй голос - «1». Вы исключите этот голос, потому что он слишком далек от среднего.

0
ответ дан 14 December 2019 в 19:17
поделиться

Прочтите Элементы статистического обучения , это отличный сборник по интеллектуальному анализу данных.

Вы можете быть особенно интересуются неконтролируемыми алгоритмами, например кластеризацией. Если предположить, что большинство людей не лгут, то самый большой кластер верен, а остальные - нет. Отметьте людей соответственно, затем примените некоторую байесовскую статистику, и все готово.

Конечно, большинство технологий интеллектуального анализа данных довольно экспериментальны, поэтому не рассчитывайте, что они всегда будут правы ... или даже в большинстве случаев .

3
ответ дан 14 December 2019 в 19:17
поделиться

Что это за вопросы (Да / Нет или от 1 до 10?).

Возможно, вам удастся ничего не отбросить, используя среднее вместо среднего. При использовании средних значений, если в ответе есть экстремальные выбросы, это может повлиять на среднее значение, но если вы используете медиану, вы можете получить лучший ответ. Так, например, если у вас было 5 ответов, отсортируйте их и выберите средний.

0
ответ дан 14 December 2019 в 19:17
поделиться

Я думаю, что довольно простой алгоритм мог бы сделать это за вас. Вы можете попытаться стать более интересным, вычислив стандартные отклонения и тому подобное, но я бы не стал беспокоиться.

Вот простой подход, которого должно быть достаточно:

Для каждого из ваших пользователей подсчитайте количество вопросов, на которые они ответили, и сколько раз они выбирали самый популярный ответ на вопрос. Пользователи, у которых самый низкий коэффициент выбора популярного ответа по сравнению с общим количеством ответов, о которых вы можете догадаться, предоставляют фальшивые данные.

Вы, вероятно, не захотите выбрасывать данные пользователей, которые ответили только на небольшое количество вопросов, потому что скорее всего, они просто не согласились с некоторыми из них, а не предоставили фальшивые данные.

0
ответ дан 14 December 2019 в 19:17
поделиться

Я думаю, вы говорите о том, что вы обеспокоены тем, что определенные люди являются «выбросами», и они добавляют шум к вашим данным, делая категоризацию менее надежной. Итак, если у вас есть Chevy Camaro, и большинство людей говорят, что это либо пони-кар, либо маслкар, либо спортивный автомобиль, но у вас есть какой-то тупица, который говорит, что это семейный седан, вы бы хотели свести к минимуму влияние его

Вы могли бы сделать одну вещь - предоставить пользователям оценку репутации, подобную Stack Overflow:

  • Чем больше пользователь «соглашается» с другими пользователями, тем лучше будет его или ее оценка. Для данного пользователя (Пользователь X) это можно определить простым подсчетом того, какой процент пользователей, ответивших на вопрос, выбрали ту же категорию, что и Пользователь X, а затем усреднили это значение по всем отвеченным вопросам.
  • Вы можете умножить это значение на общее количество ответов на вопросы, чтобы побудить людей ответить на как можно больше вопросов. (Примечание: если вы решите сделать это, это будет эквивалентно простому суммированию баллов процентного соглашения, а не их усреднению.)
  • Вы можете представить пользователям окончательную оценку репутации, убедившись, что они будут вознаграждены насколько их ответы согласуются с ответами других пользователей. Это побудит людей отвечать на большее количество вопросов, а также проявлять осторожность в своих ответах.
  • Наконец, вы можете рассчитать оценку достоверности для данной категории, сложив общую оценку репутации всех людей, выбравших данную категорию.

] Некоторые из этих идей могут потребовать некоторой доработки, тем более что я не знаю вашей конкретной ситуации. Конечно,

0
ответ дан 14 December 2019 в 19:17
поделиться

Если бы вы собирали голоса типа «по шкале от 1 до 10, как бы вы оценили эту машину», вы, вероятно, могли бы использовать простое среднее значение и стандартное отклонение: чем меньше стандартное отклонение, тем более единодушно будет общее мнение среди ваших избирателей, и вы можете пометить пользователей, которые, например, являются разработчиками стандартных программ на 3 человека меньше среднего.

При множественном выборе вам нужно быть более осторожным. Простое отклонение всех вариантов, кроме наиболее проголосовавшего, не приведет ни к чему, кроме недовольства избирателей. Вам необходимо определить, насколько значим победитель по сравнению с другими вариантами, например, пометить пользователей, которые проголосовали за варианты с менее чем 1/3 количества выигравших вариантов.

Обратите внимание, что я написал «пометить пользователей», not отбрасывать голоса. Если вы отбрасываете голоса, вы не можете сказать, насколько вы уверены в результате ("

0
ответ дан 14 December 2019 в 19:17
поделиться
Другие вопросы по тегам:

Похожие вопросы: