добавление другого языка в пакет nltk.stopwords [duplicate]

На самом деле, чтобы правильно поддерживать сортировку, фильтрацию и т. д., CollectionViewSource следует использовать как ссылку между DataGrid и списком, например:

  & lt; Window.Resources & gt;  & lt; CollectionViewSource x: Key = "ItemCollectionViewSource" CollectionViewType = "ListCollectionView" / & gt;  & Л; /Window.Resources>   

Линия DataGrid выглядит так:

  & lt; DataGrid DataContext = "{StaticResource ItemCollectionViewSource}" ItemsSource = "{Binding}" AutoGenerateColumns = "False  «& GT;   

В коде позади вы связываете CollectionViewSource со своей ссылкой.

  CollectionViewSource itemCollectionViewSource;  itemCollectionViewSource = (CollectionViewSource) (FindResource ("ItemCollectionViewSource"));  itemCollectionViewSource.Source = itemList;   

Подробный пример см. в моей статье о CoedProject: http://www.codeproject.com/Articles/683429/Guide-to-WPF-DataGrid-formatting-using-bindings

8
задан Jason Champion 26 January 2014 в 20:58
поделиться

1 ответ

Googling для «румынских стоп-слов» вызывает большое количество ресурсов.

Если вы хотите сделать это самостоятельно, вам просто нужно найти слова, которые являются общими во всех жанрах текста. (Статья, на которую вы ссылаетесь, имеет довольно плохое объяснение того, что означают стоп-слова.) Хорошими кандидатами являются статьи, частицы (если ваш язык имеет их, и они встречаются изолированно), союзы, местоимения и некоторые типы наречий.

Автоматическое построение списка интервалов для системы поиска информации (Rachel Tsz-Wai Lo, Ben He, Iadh Ounis, University of Glasgow, 2008) (PDF) содержит автоматический метод поиска остановить слова. Я не рассматривал метод или его результаты.

https://github.com/berkmancenter/mediacloud/blob/master/script/mediawords_generate_stopwords.pl похоже, имеет реализация. (В комментарии есть другие названия, кроме статьи, не знаю, что с этим.)

5
ответ дан tripleee 16 August 2018 в 04:41
поделиться
  • 1
    Тангенциально, раздел 2 из enroweb.com/IMG/pdf/StopwordList_preprint.pdf имеет приятное одностраничное историческое резюме. – tripleee 27 January 2014 в 07:46
  • 2
    Спасибо, что получает вторую часть вопроса. Любая идея, как идти о редактировании / изменении того, что находится в NLTK? – Jason Champion 14 February 2014 в 01:35
  • 3
    Если это github.com/mhawthorne/antonym/tree/master/lib/nltk-data/corpora/… , это просто простой текстовый файл, по одному слову в строке, имя файла - это язык. (Это, наверное, чей-то клоун, но слишком ленив, чтобы выследить мастера. Кроме того, README указывает, что он был скопирован из другого проекта.) – tripleee 14 February 2014 в 06:56
  • 4
    Чтобы уточнить, все, что мне нужно было сделать, это скопировать файл с именем «romanian». содержащее одно слово в строке в моем каталоге данных NLTK, и NLTK поднял его и начал использовать. В моем случае это было ~ / nltk_data / corpora / stopwords / – Jason Champion 28 February 2015 в 01:20
Другие вопросы по тегам:

Похожие вопросы: