Как установить Tokenizer Punkt Sentence [duplicate]

Question

Как установить Tokenizer Punkt Sentence [duplicate]

Gson легко учиться и реализовывать, что нам нужно знать, следуют двум методам

toJson () - Преобразование Java-объекта в формат JSON
fromJson () - преобразовать JSON в объект Java

`

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import com.google.gson.Gson;

public class GsonExample {
    public static void main(String[] args) {

    Gson gson = new Gson();

    try {

        BufferedReader br = new BufferedReader(
            new FileReader("c:\\file.json"));

        //convert the json string back to object
        DataObject obj = gson.fromJson(br, DataObject.class);

        System.out.println(obj);

    } catch (IOException e) {
        e.printStackTrace();
    }

    }
}

`

28

nltk

задан Q-ximi 7 March 2014 в 00:12

12 ответов

Другие вопросы по тегам:

nltk

TL; DR

Чтобы загрузить конкретный набор данных / модели, используйте функцию nltk.download(), например. если вы хотите загрузить токенизатор предложения punkt, используйте:

$ python3
>>> import nltk
>>> nltk.download('punkt')

Если вы не знаете, какие данные / модель вам нужны, вы можете начать с основного списка данных + моделей с:

>>> import nltk
>>> nltk.download('popular')

Он загрузит список «популярных» ресурсов, в том числе:

<collection id="popular" name="Popular packages">
      <item ref="cmudict" />
      <item ref="gazetteers" />
      <item ref="genesis" />
      <item ref="gutenberg" />
      <item ref="inaugural" />
      <item ref="movie_reviews" />
      <item ref="names" />
      <item ref="shakespeare" />
      <item ref="stopwords" />
      <item ref="treebank" />
      <item ref="twitter_samples" />
      <item ref="omw" />
      <item ref="wordnet" />
      <item ref="wordnet_ic" />
      <item ref="words" />
      <item ref="maxent_ne_chunker" />
      <item ref="punkt" />
      <item ref="snowball_data" />
      <item ref="averaged_perceptron_tagger" />
    </collection>

EDITED

В случае, если кто-либо избегает ошибок при загрузке больших наборов данных из nltk, из https://stackoverflow.com/a/38135306/610569

$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.zip
$ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite
$ python

>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('popular')

Обновлено

Из v3.2.5 NLTK имеет более информативное сообщение об ошибке , когда ресурс nltk_data не найден, например:

>>> from nltk import word_tokenize
>>> word_tokenize('x')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/l/alvas/git/nltk/nltk/tokenize/__init__.py", line 128, in word_tokenize
    sentences = [text] if preserve_line else sent_tokenize(text, language)
  File "/Users//alvas/git/nltk/nltk/tokenize/__init__.py", line 94, in sent_tokenize
    tokenizer = load('tokenizers/punkt/{0}.pickle'.format(language))
  File "/Users/alvas/git/nltk/nltk/data.py", line 820, in load
    opened_resource = _open(resource_url)
  File "/Users/alvas/git/nltk/nltk/data.py", line 938, in _open
    return find(path_, path + ['']).open()
  File "/Users/alvas/git/nltk/nltk/data.py", line 659, in find
    raise LookupError(resource_not_found)
LookupError: 
**********************************************************************
  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('punkt')

  Searched in:
    - '/Users/alvas/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
    - ''
**********************************************************************

Связанный

Чтобы найти каталог nltk_data (автоматически), см. https://stackoverflow.com/a/36383314/610569
Чтобы загрузить nltk_data в другую путь, см. https://stackoverflow.com/a/48634212/610569
К пути конфигурации nltk_data (т. е. установить другой путь для NLTK для поиска nltk_data) , см. https://stackoverflow.com/a/22987374/610569

score 5 · Answer 3

Попробуйте

nltk.download ('all')

, это загрузит все данные, не нужно скачивать отдельно

5

ответ дан B K 28 August 2018 в 11:12

1

– Domenico Monaco 24 November 2017 в 14:16
2

– desaiankitb 27 March 2018 в 17:36

score -3 · Answer 4

Вы можете попробовать:

>> $ import nltk
>> $ nltk.download_shell()
>> $ d
>> $ *name of the package*

happy nlp'ing.

-3

ответ дан CDspace 28 August 2018 в 11:12

score 2 · Answer 5

Если вы используете действительно старую версию nltk, тогда действительно нет доступного модуля загрузки ( reference )

Попробуйте это:

import nltk
print(nltk.__version__)

Согласно ссылке, все, что было после 0.9.5, должно быть штрафным

2

ответ дан feeling unwelcome 28 August 2018 в 11:12

1

– Michael Aquilina 6 March 2014 в 01:41
2

– Q-ximi 6 March 2014 в 01:42
3

– Miquel 6 March 2014 в 01:45
4

– Michael Aquilina 6 March 2014 в 11:25

score 0 · Answer 6

Я думаю, вы должны назвать файл как nltk.py (или папка состоит из файла с этим именем), поэтому измените его на любое другое имя и попробуйте выполнить его ....

score 1 · Answer 7

вы должны добавить python к вашему PATH во время установки python ... после установки .. откройте команду cmd prompt type- pip install nltk, затем перейдите к IDLE и откройте новый файл. Сохраните его как file.py..если откройте файл file.py следующим образом: import nltk

nltk.download()

score 2 · Answer 8

Это сработало для меня:

nltk.set_proxy('http://user:password@proxy.example.com:8080')
nltk.download()

2

ответ дан M. Mashaye 28 August 2018 в 11:12

score 2 · Answer 9

у вас не может быть сохраненного файла python с именем nltk.py, потому что интерпретатор читает это, а не из фактического файла.

Измените имя вашего файла, с которого считывается оболочка python, и попробуйте то, что вы делали изначально:

import nltk, а затем nltk.download()

score 2 · Answer 10

Install Pip: запустить в терминале: sudo easy_install pip

Установить Numpy (необязательно): выполнить: sudo pip install -U numpy

Установить NLTK: выполнить: sudo pip install - U nltk

Тестирование: запуск: python

, а затем введите: import nltk

Чтобы загрузить проект corpus

: python -m nltk.downloader all

score 6 · Answer 11

Не назовите свой файл nltk.py Я использовал тот же код и назову его nltk и получил ту же ошибку, что и у вас, я изменил имя файла, и все прошло хорошо.

score 1 · Answer 12

У меня была аналогичная проблема. Вероятно, проверьте, используете ли вы прокси.

Если да, настройте прокси-сервер перед загрузкой:

nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))

Как установить Tokenizer Punkt Sentence [duplicate]

12 ответов

TL; DR

EDITED

Обновлено

Связанный

Похожие вопросы: