Есть ли алгоритм, который извлекает значимые теги английского текста

Что такое NullPointerException?

Хорошим местом для начала является JavaDocs . Они охватывают это:

Брошено, когда приложение пытается использовать null в случае, когда требуется объект. К ним относятся:

  • Вызов метода экземпляра нулевого объекта.
  • Доступ или изменение поля нулевого объекта.
  • Выполнение длины null, как если бы это был массив.
  • Доступ или изменение слотов с нулевым значением, как если бы это был массив.
  • Бросать нуль, как если бы это было значение Throwable.

Приложения должны бросать экземпляры этого класса для указания других незаконных видов использования нулевого объекта.

blockquote>

Также, если вы попытаетесь использовать нулевую ссылку с synchronized, который также выдаст это исключение, за JLS :

SynchronizedStatement:
    synchronized ( Expression ) Block
  • В противном случае, если значение выражения равно null, NullPointerException.
blockquote>

Как это исправить?

Итак, у вас есть NullPointerException. Как вы это исправите? Возьмем простой пример, который выдает NullPointerException:

public class Printer {
    private String name;

    public void setName(String name) {
        this.name = name;
    }

    public void print() {
        printString(name);
    }

    private void printString(String s) {
        System.out.println(s + " (" + s.length() + ")");
    }

    public static void main(String[] args) {
        Printer printer = new Printer();
        printer.print();
    }
}

Идентифицирует нулевые значения

. Первый шаг - точно определить , значения которого вызывают исключение . Для этого нам нужно выполнить некоторую отладку. Важно научиться читать stacktrace . Это покажет вам, где было выбрано исключение:

Exception in thread "main" java.lang.NullPointerException
    at Printer.printString(Printer.java:13)
    at Printer.print(Printer.java:9)
    at Printer.main(Printer.java:19)

Здесь мы видим, что исключение выбрано в строке 13 (в методе printString). Посмотрите на строку и проверьте, какие значения равны нулю, добавив протоколирующие операторы или используя отладчик . Мы обнаруживаем, что s имеет значение null, а вызов метода length на него вызывает исключение. Мы видим, что программа перестает бросать исключение, когда s.length() удаляется из метода.

Трассировка, где эти значения взяты из

Затем проверьте, откуда это значение. Следуя вызовам метода, мы видим, что s передается с printString(name) в методе print(), а this.name - null.

Трассировка, где эти значения должны быть установлены

Где установлен this.name? В методе setName(String). С некоторой дополнительной отладкой мы видим, что этот метод вообще не вызывается. Если этот метод был вызван, обязательно проверьте порядок , что эти методы вызывают, а метод set не будет называться после методом печати. ​​

Этого достаточно, чтобы дать нам решение: добавить вызов printer.setName() перед вызовом printer.print().

Другие исправления

Переменная может иметь значение по умолчанию setName может помешать ему установить значение null):

private String name = "";

Либо метод print, либо printString может проверить значение null например:

printString((name == null) ? "" : name);

Или вы можете создать класс, чтобы name всегда имел ненулевое значение :

public class Printer {
    private final String name;

    public Printer(String name) {
        this.name = Objects.requireNonNull(name);
    }

    public void print() {
        printString(name);
    }

    private void printString(String s) {
        System.out.println(s + " (" + s.length() + ")");
    }

    public static void main(String[] args) {
        Printer printer = new Printer("123");
        printer.print();
    }
}

См. также:

Я все еще не могу найти проблему

Если вы попытались отладить проблему и до сих пор не имеете решения, вы можете отправить вопрос для получения дополнительной справки, но не забудьте включить то, что вы пробовали до сих пор. Как минимум, включите stacktrace в вопрос и отметьте важные номера строк в коде. Также попробуйте сначала упростить код (см. SSCCE ).

8
задан jfs 16 September 2008 в 22:28
поделиться

6 ответов

Существуют существующие веб-сервисы для этого. Два Три примера:

6
ответ дан 5 December 2019 в 15:28
поделиться

То, когда Вы вычитаете человека (отмечающего), все, что оставляют, является частотой. "Проигнорируйте общие английские слова", следующий лучший фильтр, так как он имеет дело с исключением вместо включения. Я протестировал несколько сайтов, и это очень точно. Действительно нет никакого другого способа получить "значение", которое является, почему Семантическая паутина привлекает такое внимание в эти дни. Это - способ подразумевать значение с HTML..., конечно, который имеет человека к нему также.

2
ответ дан 5 December 2019 в 15:28
поделиться

В основном это - проблема проблемы/классификации документов классификации текстов. Если у Вас есть доступ ко многим уже отмеченным документам, Вы могли бы проанализировать, какое (содержание) триггер слов, который отмечает и затем использует эту информацию для меток новых документов.

Если Вы не хотите использовать подход машинного обучения, и у Вас все еще есть коллекция документов, то можно использовать метрики как tf.idf для отфильтровывания интересных слов.

Идя один шаг вперед, можно использовать WordNet для нахождения синонимов и слов замены их синонимом, если частота синонима выше.

Manning & Schütze содержит намного больше введения на классификации текстов.

1
ответ дан 5 December 2019 в 15:28
поделиться

В классификации текстов эта проблема известна как сокращение размерности. Существует много полезных алгоритмов в литературе по этому предмету.

1
ответ дан 5 December 2019 в 15:28
поделиться

Вы хотите сделать семантический анализ текста.

Анализ частотности слова является одним из самых легких способов сделать семантический анализ. К сожалению (и очевидно) это - наименее точное. Это может быть улучшено при помощи специальных словарей (как для синонимов или форм слова), "стоп-листы" с общими словами, другие тексты (чтобы найти те "общие" слова и исключить их)...

Что касается других алгоритмов они могли быть на основе:

  • Синтаксический анализ (как попытка найти основной предмет и/или глагол в предложении)
  • Анализ формата (анализирующий заголовки, полужирный текст, курсив..., где применимый)
  • Ссылочный анализ (если текст находится в Интернете, например, то ссылка может описать его в нескольких словах... используемых некоторыми поисковыми системами),

НО... необходимо понять, что эти алгоритмы являются mereley эвристикой для семантического анализа, не строгими алгоритмами достижения цели. Проблемой семантического анализа является одна из основных проблем в Искусственном интеллекте / исследования Машинного обучения, так как первые компьютеры появились.

1
ответ дан 5 December 2019 в 15:28
поделиться

Возможно, "Частотность термина - Обратный TF-IDF" Частоты Документа был бы полезен...

0
ответ дан 5 December 2019 в 15:28
поделиться
Другие вопросы по тегам:

Похожие вопросы: