Разрыв слова на языках без пробелов между словами (например, азиат)?

Поэтому Орбитальный аппарат Климата Марса врезался в поверхность на уровне 350 метров/секунда, когда было запланировано только обработать 350 футов/секунда (или что-то как этот).

, Хотя "Никогда не говорят 'Никогда' или 'Всегда'", в целом, хорошее эмпирическое правило, здесь я изогну свое правило и скажу, что думаю, что необходимо "всегда" прояснять, в каких единицах числовое значение находится.

16
задан Josh Lee 15 October 2010 в 05:37
поделиться

1 ответ

Разрыв слов для упомянутых языков требует лингвистического подхода , например, того, который использует словарь вместе с пониманием базовых основополагающих слов. rules .

Я слышал об относительно успешных приложениях полнотекстового поиска, которые просто разделяют каждый символ как отдельное слово на китайском языке, просто применяя ту же «токенизацию» критериев поиска, предоставленных конечными пользователями . Затем поисковая машина обеспечивает лучший ранжирование документов, которые предоставляют символы-слова в том же порядке, что и критерии поиска. Я не уверен, что это можно распространить на такие языки, как японский, поскольку наборы символов хиракана и катагана делают текст более похожим на европейские языки с коротким алфавитом.

РЕДАКТИРОВАТЬ :
Ресурсы
Эта проблема разбиения на слова, а также связанные с ней вопросы настолько нетривиальны , что о ней написаны целые книги. См., Например, Обработка информации CJKV (CJKV означает китайский, японский, корейский и вьетнамский; вы также можете использовать ключевое слово CJK, поскольку во многих текстах вьетнамский язык не обсуждается). См. Также Разбиение слов на японском языке затруднительно для одностраничного сообщения по этой теме.
Понятно, что большая часть материалов по этой теме написана на одном из основных родных языков и поэтому имеет ограниченное использование для людей, которые не владеют этими языками относительно свободно. По этой причине, а также для того, чтобы помочь вам проверить поисковую систему после того, как вы начнете реализовывать логику разбиения по словам, вам следует обратиться за помощью к одному или двум носителям языка.

Различные идеи
Ваша идея идентификации символов которые систематически подразумевают разрыв слова (например, кавычки, круглые скобки, символы, похожие на дефис и т. д.), хорошо, и это, вероятно, одна из эвристик, используемых некоторыми из профессиональных средств разбиения по словам. Тем не менее, вам следует искать авторитетный источник для такого списка, а не собирать его с нуля, основываясь на анекдотических находках.
Связанная с этим идея состоит в том, чтобы разбивать слова на переходах из Кана в Кандзи (но я не думаю, что наоборот) и, возможно, в Хирагана-Катакана или наоборот. обратные переходы.
Unrelated to word-breaking proper, the index may [ -or may not- ;-)] benefit from the systematic conversion of every, say, hiragana character to the corresponding katakana character. Just an uneducated idea! I do not know enough about the Japanese language to know if that would help; intuitively, it would be loosely akin to the systematic conversion of accentuated letters and such to the corresponding non-accentuated letter, as practiced with several European languages.

Maybe the idea I mentioned earlier, of systematically indexing individual character (and of ranking the search results based on their proximity order-wise to the search criteria) can be slightly altered, for example by keeping consecutive kana characters together, and then some other rules... and produce a imperfect but practical enough search engine.

Do not be disappointed if this is not the case... As stated this is far from trivial, and it may save you time and money, in the long term, by taking a pause and reading a book or two. Another reason to try and learn more of the "theory" and best practices, is that at the moment you seem to be focused on word breaking but soon, the search engine may also benefit from stemming-awareness; indeed these two issues are, linguistically at least, related, and may benefit from being handled in tandem.

Good luck on this vexing but worthy endeavor.

15
ответ дан 30 November 2019 в 22:43
поделиться
Другие вопросы по тегам:

Похожие вопросы: