Где я могу найти список еврейских стоп-слов?

У меня была эта проблема с моим R300. Вот то, что я сделал для фиксации его:

  1. Выключают принтер.
  2. Удаляют принтер из печати диалогового окна.
  3. Включают принтер.
  4. Добавляют новый принтер в печати диалогового окна

, я надеюсь, что это работает на Вас!

9
задан chema989 6 December 2016 в 22:38
поделиться

3 ответа

function getStopWords(){
return array(
'אני',
'את',
'אתה',
'אנחנו',
'אתן',
'אתם',
'הם',
'הן',
'היא',
'הוא',
'שלי',
'שלו',
'שלך',
'שלה',
'שלנו',
'שלכם',
'שלכן',
'שלהם',
'שלהן',
'לי',
'לו',
'לה',
'לנו',
'לכם',
'לכן',
'להם',
'להן',
'אותה',
'אותו',
'זה',
'זאת',
'אלה',
'אלו',
'תחת',
'מתחת',
'מעל',
'בין',
'עם',
'עד',
'נגר',
'על',
'אל',
'מול',
'של',
'אצל',
'כמו',
'אחר',
'אותו',
'בלי',
'לפני',
'אחרי',
'מאחורי',
'עלי',
'עליו',
'עליה',
'עליך',
'עלינו',
'עליכם',
'לעיכן',
'עליהם',
'עליהן',
'כל',
'כולם',
'כולן',
'כך',
'ככה',
'כזה',
'זה',
'זות',
'אותי',
'אותה',
'אותם',
'אותך',
'אותו',
'אותן',
'אותנו',
'ואת',
'את',
'אתכם',
'אתכן',
'איתי',
'איתו',
'איתך',
'איתה',
'איתם',
'איתן',
'איתנו',
'איתכם',
'איתכן',
'יהיה',
'תהיה',
'היתי',
'היתה',
'היה',
'להיות',
'עצמי',
'עצמו',
'עצמה',
'עצמם',
'עצמן',
'עצמנו',
'עצמהם',
'עצמהן',
'מי',
'מה',
'איפה',
'היכן',
'במקום שבו',
'אם',
'לאן',
'למקום שבו',
'מקום בו',
'איזה',
'מהיכן',
'איך',
'כיצד',
'באיזו מידה',
'מתי',
'בשעה ש',
'כאשר',
'כש',
'למרות',
'לפני',
'אחרי',
'מאיזו סיבה',
'הסיבה שבגללה',
'למה',
'מדוע',
'לאיזו תכלית',
'כי',
'יש',
'אין',
'אך',
'מנין',
'מאין',
'מאיפה',
'יכל',
'יכלה',
'יכלו',
'יכול',
'יכולה',
'יכולים',
'יכולות',
'יוכלו',
'יוכל',
'מסוגל',
'לא',
'רק',
'אולי',
'אין',
'לאו',
'אי',
'כלל',
'נגד',
'אם',
'עם',
'אל',
'אלה',
'אלו',
'אף',
'על',
'מעל',
'מתחת',
'מצד',
'בשביל',
'לבין',
'באמצע',
'בתוך',
'דרך',
'מבעד',
'באמצעות',
'למעלה',
'למטה',
'מחוץ',
'מן',
'לעבר',
'מכאן',
'כאן',
'הנה',
'הרי',
'פה',
'שם',
'אך',
'ברם',
'שוב',
'אבל',
'מבלי',
'בלי',
'מלבד',
'רק',
'בגלל',
'מכיוון',
'עד',
'אשר',
'ואילו',
'למרות',
'אס',
'כמו',
'כפי',
'אז',
'אחרי',
'כן',
'לכן',
'לפיכך',
'מאד',
'עז',
'מעט',
'מעטים',
'במידה',
'שוב',
'יותר',
'מדי',
'גם',
'כן',
'נו',
'אחר',
'אחרת',
'אחרים',
'אחרות',
'אשר',
'או'
);
}
11
ответ дан 4 December 2019 в 11:07
поделиться

I doubt that there is one openly available, but as a simple approximation, you could create a list of very frequent tokens in a reasonably large corpus. Then, depending on your need, you can use the list as such, or filter it manually, or do some trial-and-error with your algorithm to see how it works.

Here's a list of the 100 most common tokens from a pretty large news corpus I have. Note that for my purposes, I counted various punctuation characters as tokens. The number "1" represents all the numeric tokens, hence its high position in the list.

You would probably be aware of that stop list is a problematic concept in Hebrew due to the morphology & orthography - some of the useful ones are just attached to the words.

6
ответ дан 4 December 2019 в 11:07
поделиться

В центре Mila есть список высокочастотных токенов, собранный из крупных корпораций, с которыми они работают. См. Внизу страницы: http://www.mila.cs.technion.ac.il/hebrew/resources/corpora/index.html .

Еще одна вещь, которую следует принять во внимание, - это двусмысленность стоп-слов - когда определенное слово может быть либо без какого-либо значения, либо с очень важным значением. Например, слова אלה и אשר, оба являются предлогами на иврите и действительными личными именами. Более подробную информацию об этом явлении на иврите можно найти здесь: http://www.code972.com/blog/2010/05/challenges-indexing-hebrew/ (прокрутите до «Неопределенность стоп-слов»).

Из-за этого я не думаю, что возможно иметь полный и абсолютный стоп-лист на иврите - он слишком зависит от вашего корпуса и варианта использования.

2
ответ дан 4 December 2019 в 11:07
поделиться
Другие вопросы по тегам:

Похожие вопросы: