Java рассчитывая # случаев слова в строке

Question

Java рассчитывая # случаев слова в строке

У меня есть файл крупного текста, из которого я читаю, и я должен узнать, сколько раз подходят некоторые слова. Например, слово the. Я делаю это линию за линией, каждая строка является строкой.

Я должен удостовериться, что только считаю законными the- the в other не рассчитал бы. Это означает, что я знаю, что должен использовать регулярные выражения в некотором роде. Что я пробовал, до сих пор это:

numSpace += line.split("[^a-z]the[^a-z]").length;

Я понимаю, что регулярное выражение не может быть корректным в данный момент, но я попробовал без этого и просто попытался найти случаи слова the и я получаю неправильные числа также. У меня создалось впечатление, это разделит строку на массив и сколько раз был разделен тот массив, был то, сколько раз слово находится в строке. Любые идеи я был бы благодарен.

Обновление: Данный некоторое представление, я придумал это:

numThe += line.split("[^a-zA-Z][Tt]he[^a-zA-Z]", -1).length - 1;

Все еще получая некоторые странные числа. Я смог получить точное общее количество (без регулярного выражения), теперь моя проблема с regexp.

5

java regex

задан Alan Moore 14 April 2010 в 12:03

6 ответов

Почему бы не пропустить строку через Java StringTokenizer , тогда вы сможете разбивать слова не только на пробелы, но и на запятые и другие знаки препинания. Просто просмотрите свои жетоны и посчитайте, когда встречается каждое «the» или любое слово, которое вы хотите.

Было бы очень легко немного расширить это и создать карту, в которой каждое слово использовалось бы в качестве ключа и велось подсчет каждого употребленного слова. Также вам может потребоваться пропустить каждое слово через функцию для основы слова, чтобы вы могли сосчитать более полезные вещи, чем просто слова.

4