Что некоторые хорошие методы состоят в том, чтобы найти “связанностью” двух тел текста?

Какие драйверы Nvidia Вы выполняете? (откройте "NVIDIA X Server Settings", ищите Версию драйвера NVIDIA под информацией о X-сервере).

версия 295.33 и 295.40 имеет ужасную регрессию производительности, которая делает мою человечность в значительной степени неприменимой из-за задержки. У меня есть GeForce 210, четырехъядерный i5, intel SSD и поршень на 8 ГБ. Системный монитор показывает compiz использование CPU на ~25% постоянно.

Установка 295.49 решает проблему .

7
задан Dima 31 August 2009 в 18:19
поделиться

7 ответов

Эти статьи о семантическом родстве и семантическом сходстве могут быть полезны. И этот ТАК вопрос о скрытом семантическом анализе .

Вы также можете изучить Soundex для слов, которые "звучат одинаково" фонетически.

2
ответ дан 7 December 2019 в 12:23
поделиться

Я никогда не использовал его, но вы можете изучить расстояние Левенштейна

2
ответ дан 7 December 2019 в 12:23
поделиться

Джефф говорил о чем-то подобном на кастинге, чтобы найти Связанные вопросы, перечисленные здесь справа. ( в подкасте 32 )

Один большой совет состоял в том, чтобы удалить все общеупотребительные слова , такие как «the» и «this» и т. Д. Это оставит вам более значимые слова сравнивать.

И вот аналогичный вопрос Есть ли алгоритм, который сообщает о семантическом сходстве двух фраз

1
ответ дан 7 December 2019 в 12:23
поделиться

См. Примечания к курсу Мэннинга и Рагхавана. о MinHashing и поиске похожих элементов, а также о версии C # (?) . Я полагаю, что эти методы взяты из исследования Уллмана и Мотвани.

0
ответ дан 7 December 2019 в 12:23
поделиться

Это вполне выполнимо для разумных больших текстов, но сложнее для меньших текстов.

Однажды я проделал вот так, и это сработало довольно хорошо:

  • Фильтровать все "общие" слова (например, a, an, the, in и т. Д.) (Фильтрует около 10-30% слов )
  • Подсчитайте частоты встречаемости оставшихся слов, сохраните x первых наиболее часто используемых слов, это ваши темы.
  • В качестве дополнительного шага вы можете создать группы из 2/3/4 последующих слов и сравнить их с группы в других текстах. Я использовал это как меру плагеризма.
0
ответ дан 7 December 2019 в 12:23
поделиться

Эта книга может быть актуальной.

Изменить: вот связанный вопрос SO

0
ответ дан 7 December 2019 в 12:23
поделиться

Фонетические алгоритмы

В статье Beyond SoundEx - Функции для нечеткого поиска в MS SQL Server показано, как установить и использовать SimMetrics библиотеку в SQL Server. Эта библиотека позволяет находить относительное сходство между строками и включает в себя множество алгоритмов.

Я в основном использовал Джаро Винклер для сопоставления имен. Вот дополнительная информация, где я спрашивал о сопоставлении имен в SO: Сопоставление записей на основе имени человека

Несколько алгоритмов, основанных на Расстояние Левенштейна , также доступны в библиотеке SimMetric и, вероятно, будут полезны в ваше приложение.

0
ответ дан 7 December 2019 в 12:23
поделиться
Другие вопросы по тегам:

Похожие вопросы: