Как установить Tokenizer Punkt Sentence [duplicate]

Gson легко учиться и реализовывать, что нам нужно знать, следуют двум методам

  • toJson () - Преобразование Java-объекта в формат JSON
  • fromJson () - преобразовать JSON в объект Java

`

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import com.google.gson.Gson;

public class GsonExample {
    public static void main(String[] args) {

    Gson gson = new Gson();

    try {

        BufferedReader br = new BufferedReader(
            new FileReader("c:\\file.json"));

        //convert the json string back to object
        DataObject obj = gson.fromJson(br, DataObject.class);

        System.out.println(obj);

    } catch (IOException e) {
        e.printStackTrace();
    }

    }
}

`

28
задан Q-ximi 7 March 2014 в 00:12
поделиться

12 ответов

Это очень просто ....

  1. Открыть pyScripter или любой редактор
  2. Создать файл python, например: install.py
  3. записать ниже кода в нем. import nltk nltk.download ()
  4. Появится всплывающее окно и щелкните по загрузке.

The download window] [/g0]

1
ответ дан Adalcar 28 August 2018 в 11:12
поделиться

TL; DR

Чтобы загрузить конкретный набор данных / модели, используйте функцию nltk.download(), например. если вы хотите загрузить токенизатор предложения punkt, используйте:

$ python3
>>> import nltk
>>> nltk.download('punkt')

Если вы не знаете, какие данные / модель вам нужны, вы можете начать с основного списка данных + моделей с:

>>> import nltk
>>> nltk.download('popular')

Он загрузит список «популярных» ресурсов, в том числе:

<collection id="popular" name="Popular packages">
      <item ref="cmudict" />
      <item ref="gazetteers" />
      <item ref="genesis" />
      <item ref="gutenberg" />
      <item ref="inaugural" />
      <item ref="movie_reviews" />
      <item ref="names" />
      <item ref="shakespeare" />
      <item ref="stopwords" />
      <item ref="treebank" />
      <item ref="twitter_samples" />
      <item ref="omw" />
      <item ref="wordnet" />
      <item ref="wordnet_ic" />
      <item ref="words" />
      <item ref="maxent_ne_chunker" />
      <item ref="punkt" />
      <item ref="snowball_data" />
      <item ref="averaged_perceptron_tagger" />
    </collection>

EDITED

В случае, если кто-либо избегает ошибок при загрузке больших наборов данных из nltk, из https://stackoverflow.com/a/38135306/610569

$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.zip
$ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite
$ python

>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('popular')

Обновлено

Из v3.2.5 NLTK имеет более информативное сообщение об ошибке , когда ресурс nltk_data не найден, например:

>>> from nltk import word_tokenize
>>> word_tokenize('x')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/l/alvas/git/nltk/nltk/tokenize/__init__.py", line 128, in word_tokenize
    sentences = [text] if preserve_line else sent_tokenize(text, language)
  File "/Users//alvas/git/nltk/nltk/tokenize/__init__.py", line 94, in sent_tokenize
    tokenizer = load('tokenizers/punkt/{0}.pickle'.format(language))
  File "/Users/alvas/git/nltk/nltk/data.py", line 820, in load
    opened_resource = _open(resource_url)
  File "/Users/alvas/git/nltk/nltk/data.py", line 938, in _open
    return find(path_, path + ['']).open()
  File "/Users/alvas/git/nltk/nltk/data.py", line 659, in find
    raise LookupError(resource_not_found)
LookupError: 
**********************************************************************
  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('punkt')

  Searched in:
    - '/Users/alvas/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
    - ''
**********************************************************************

Связанный

55
ответ дан alvas 28 August 2018 в 11:12
поделиться

Попробуйте

nltk.download ('all')

, это загрузит все данные, не нужно скачивать отдельно

5
ответ дан B K 28 August 2018 в 11:12
поделиться

Вы можете попробовать:

>> $ import nltk
>> $ nltk.download_shell()
>> $ d
>> $ *name of the package*

happy nlp'ing.

-3
ответ дан CDspace 28 August 2018 в 11:12
поделиться

Если вы используете действительно старую версию nltk, тогда действительно нет доступного модуля загрузки ( reference )

Попробуйте это:

import nltk
print(nltk.__version__)

Согласно ссылке, все, что было после 0.9.5, должно быть штрафным

2
ответ дан feeling unwelcome 28 August 2018 в 11:12
поделиться

Я думаю, вы должны назвать файл как nltk.py (или папка состоит из файла с этим именем), поэтому измените его на любое другое имя и попробуйте выполнить его ....

0
ответ дан GOKUL JAGANNATH 28 August 2018 в 11:12
поделиться

вы должны добавить python к вашему PATH во время установки python ... после установки .. откройте команду cmd prompt type- pip install nltk, затем перейдите к IDLE и откройте новый файл. Сохраните его как file.py..если откройте файл file.py следующим образом: import nltk

nltk.download()
1
ответ дан Jaffer Wilson 28 August 2018 в 11:12
поделиться

Это сработало для меня:

nltk.set_proxy('http://user:password@proxy.example.com:8080')
nltk.download()
2
ответ дан M. Mashaye 28 August 2018 в 11:12
поделиться

у вас не может быть сохраненного файла python с именем nltk.py, потому что интерпретатор читает это, а не из фактического файла.

Измените имя вашего файла, с которого считывается оболочка python, и попробуйте то, что вы делали изначально:

import nltk, а затем nltk.download()

2
ответ дан mrsrinivas 28 August 2018 в 11:12
поделиться

Install Pip: запустить в терминале: sudo easy_install pip

Установить Numpy (необязательно): выполнить: sudo pip install -U numpy

Установить NLTK: выполнить: sudo pip install - U nltk

Тестирование: запуск: python

, а затем введите: import nltk

Чтобы загрузить проект corpus

: python -m nltk.downloader all

2
ответ дан Noor 28 August 2018 в 11:12
поделиться

Не назовите свой файл nltk.py Я использовал тот же код и назову его nltk и получил ту же ошибку, что и у вас, я изменил имя файла, и все прошло хорошо.

6
ответ дан Touya D. Serdan 28 August 2018 в 11:12
поделиться

У меня была аналогичная проблема. Вероятно, проверьте, используете ли вы прокси.

Если да, настройте прокси-сервер перед загрузкой:

nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))
1
ответ дан Undo 28 August 2018 в 11:12
поделиться
Другие вопросы по тегам:

Похожие вопросы: