strsplit в периоды не в кавычках [дубликат]

Question

strsplit в периоды не в кавычках [дубликат]

Что такое NullPointerException?

Хорошим местом для начала является JavaDocs . Они охватывают это:

Брошено, когда приложение пытается использовать null в случае, когда требуется объект. К ним относятся:

Вызов метода экземпляра нулевого объекта.

Доступ или изменение поля нулевого объекта.

Выполнение длины null, как если бы это был массив.

Доступ или изменение слотов с нулевым значением, как если бы это был массив.

Бросать нуль, как если бы это было значение Throwable.

Приложения должны бросать экземпляры этого класса для указания других незаконных видов использования нулевого объекта.

Также, если вы попытаетесь использовать нулевую ссылку с synchronized, который также выдаст это исключение, за JLS :
SynchronizedStatement:
    synchronized ( Expression ) Block
В противном случае, если значение выражения равно null, NullPointerException.

Как это исправить?

Итак, у вас есть NullPointerException. Как вы это исправите? Возьмем простой пример, который выдает NullPointerException:
public class Printer {
    private String name;

    public void setName(String name) {
        this.name = name;
    }

    public void print() {
        printString(name);
    }

    private void printString(String s) {
        System.out.println(s + " (" + s.length() + ")");
    }

    public static void main(String[] args) {
        Printer printer = new Printer();
        printer.print();
    }
}
Идентифицирует нулевые значения

. Первый шаг - точно определить , значения которого вызывают исключение . Для этого нам нужно выполнить некоторую отладку. Важно научиться читать stacktrace . Это покажет вам, где было выбрано исключение:
Exception in thread "main" java.lang.NullPointerException
    at Printer.printString(Printer.java:13)
    at Printer.print(Printer.java:9)
    at Printer.main(Printer.java:19)
Здесь мы видим, что исключение выбрано в строке 13 (в методе printString). Посмотрите на строку и проверьте, какие значения равны нулю, добавив протоколирующие операторы или используя отладчик . Мы обнаруживаем, что s имеет значение null, а вызов метода length на него вызывает исключение. Мы видим, что программа перестает бросать исключение, когда s.length() удаляется из метода.

Трассировка, где эти значения взяты из

Затем проверьте, откуда это значение. Следуя вызовам метода, мы видим, что s передается с printString(name) в методе print(), а this.name - null.

Трассировка, где эти значения должны быть установлены

Где установлен this.name? В методе setName(String). С некоторой дополнительной отладкой мы видим, что этот метод вообще не вызывается. Если этот метод был вызван, обязательно проверьте порядок , что эти методы вызывают, а метод set не будет называться после методом печати.

Этого достаточно, чтобы дать нам решение: добавить вызов printer.setName() перед вызовом printer.print().

Другие исправления

Переменная может иметь значение по умолчанию (и setName может помешать ему установить значение null):
private String name = "";
Либо метод print, либо printString может проверить значение null например:
printString((name == null) ? "" : name);
Или вы можете создать класс, чтобы name всегда имел ненулевое значение :
public class Printer {
    private final String name;

    public Printer(String name) {
        this.name = Objects.requireNonNull(name);
    }

    public void print() {
        printString(name);
    }

    private void printString(String s) {
        System.out.println(s + " (" + s.length() + ")");
    }

    public static void main(String[] args) {
        Printer printer = new Printer("123");
        printer.print();
    }
}
См. также:

Избегание операторов «! = null» в Java?

Я все еще не могу найти проблему

Если вы попытались отладить проблему и до сих пор не имеете решения, вы можете отправить вопрос для получения дополнительной справки, но не забудьте включить то, что вы пробовали до сих пор. Как минимум, включите stacktrace в вопрос и отметьте важные номера строк в коде. Также попробуйте сначала упростить код (см. SSCCE ).

29

r regex

задан Rohit Jain 31 October 2013 в 12:23

5 ответов

См. ниже фрагмент кода. Этот код учитывает только счастливый поток. Измените в соответствии с вашим требованием

public static String[] splitWithEscape(final String str, char split,
        char escapeCharacter) {
    final List<String> list = new LinkedList<String>();

    char[] cArr = str.toCharArray();

    boolean isEscape = false;
    StringBuilder sb = new StringBuilder();

    for (char c : cArr) {
        if (isEscape && c != escapeCharacter) {
            sb.append(c);
        } else if (c != split && c != escapeCharacter) {
            sb.append(c);
        } else if (c == escapeCharacter) {
            if (!isEscape) {
                isEscape = true;
                if (sb.length() > 0) {
                    list.add(sb.toString());
                    sb = new StringBuilder();
                }
            } else {
                isEscape = false;
            }

        } else if (c == split) {
            list.add(sb.toString());
            sb = new StringBuilder();
        }
    }

    if (sb.length() > 0) {
        list.add(sb.toString());
    }

    String[] strArr = new String[list.size()];

    return list.toArray(strArr);
}

0

ответ дан Abhijith Nagarajan 19 August 2018 в 09:54

Основываясь на ответе @ zx81, вы получите подходящую идею, я добавил Java 9 results call, который возвращает Stream. Поскольку OP хотел использовать split, я собрал String[], как это делает split.

Осторожно, если у вас есть пробелы после разделителей запятой (a, b, "c,d"). Затем вам нужно изменить шаблон.

Jshell demo

$ jshell
-> String so = "123,test,444,\"don't split, this\",more test,1";
|  Added variable so of type String with initial value "123,test,444,"don't split, this",more test,1"

-> Pattern.compile("\"[^\"]*\"|[^,]+").matcher(so).results();
|  Expression value is: java.util.stream.ReferencePipeline$Head@2038ae61
|    assigned to temporary variable $68 of type java.util.stream.Stream<MatchResult>

-> $68.map(MatchResult::group).toArray(String[]::new);
|  Expression value is: [Ljava.lang.String;@6b09bb57
|    assigned to temporary variable $69 of type String[]

-> Arrays.stream($69).forEach(System.out::println);
123
test
444
"don't split, this"
more test
1

Код

String so = "123,test,444,\"don't split, this\",more test,1";
Pattern.compile("\"[^\"]*\"|[^,]+")
    .matcher(so)
    .results()
    .map(MatchResult::group)
    .toArray(String[]::new);

Объяснение

Regex [^"] соответствует: цитата, ничего, кроме цитаты, цитата.
Regex [^"]* соответствует: цитата, ничего, кроме цитаты 0 (или более) раз, цитата.
Это регулярное выражение должно идти первым, чтобы «выиграть», в противном случае сопоставление ничего, кроме запятой 1 или более раз , то есть: [^,]+ - будет «побеждать».
results() требует Java 9 или выше.
Он возвращает Stream<MatchResult>, который я сопоставляю с помощью вызова group() и собираю в массив строк. Вызов Parameterless toArray() возвратит Object[].

0

ответ дан LIttle Ancient Forest Kami 19 August 2018 в 09:54

Вы можете сделать это очень легко без сложного регулярного выражения:

Разделить на символ ". Вы получаете список строк
Обработать каждую строку в списке: Разделить каждую строку, которая находится на четной позиции в Списке (начиная индексирование с нулем) на «,» (вы получаете список внутри списка ), оставляйте каждую нечетную позиционную строку в одиночку (прямо вставляя ее в список внутри списка).
Присоединитесь к списку списков, чтобы получить только список.

Если вы хотите обрабатывать цитирование '' ', вам нужно немного адаптировать алгоритм (присоединение к некоторым частям, некорректное разделение или изменение разделения на простое регулярное выражение), но основная структура остается.

Итак, в основном это что-то вроде этого:

public class SplitTest {
    public static void main(String[] args) {
        final String splitMe="123,test,444,\"don't split, this\",more test,1";
        final String[] splitByQuote=splitMe.split("\"");
        final String[][] splitByComma=new String[splitByQuote.length][];
        for(int i=0;i<splitByQuote.length;i++) {
            String part=splitByQuote[i];
            if (i % 2 == 0){
               splitByComma[i]=part.split(",");
            }else{
                splitByComma[i]=new String[1];
                splitByComma[i][0]=part;
            }
        }
        for (String parts[] : splitByComma) {
            for (String part : parts) {
                System.out.println(part);
            }
        }
    }
}

Это будет намного чище с лямбдами, обещано!

1

ответ дан stefan.schwetschke 19 August 2018 в 09:54

Почему Split, если вы можете совместить?

Воскрешая этот вопрос, потому что по какой-то причине простое решение не было упомянуто. Вот наше красиво компактное регулярное выражение:

"[^"]*"|[^,]+

Это будет соответствовать всем желаемым фрагментам ( см. Демонстрацию ).

Пояснение

С "[^"]*" мы сопоставляем полный "double-quoted strings"
или |
, мы сопоставляем [^,]+ любые символы, которые не являются запятой.

Возможная доработка заключается в том, чтобы улучшить строчную сторону чередования, чтобы позволить цитированным строкам включать экранированные кавычки.

6

ответ дан zx81 19 August 2018 в 09:54

1

Поскольку мне понравилось это больше, чем расщепление, я объединил это с усовершенствованиями Java 9 в Matcher, позволяя потоковое воспроизведение. Мой ответ содержит сеанс jshell, демонстрирующий его. – LIttle Ancient Forest Kami 5 March 2018 в 07:17

Другие вопросы по тегам:

r regex

Похожие вопросы:

Поскольку мне понравилось это больше, чем расщепление, я объединил это с усовершенствованиями Java 9 в Matcher, позволяя потоковое воспроизведение. Мой ответ содержит сеанс jshell, демонстрирующий его. — LIttle Ancient Forest Kami, 5 March 2018 в 07:17

score 64 · Accepted Answer

Вы можете попробовать это регулярное выражение:

str.split(",(?=(?:[^\"]*\"[^\"]*\")*[^\"]*$)");

Это разделяет строку на ,, за которой следует четное число двойных кавычек. Другими словами, он разбивается на запятую вне двойных кавычек. Это будет работать, если у вас есть сбалансированные кавычки в вашей строке.

Объяснение:

,           // Split on comma
(?=         // Followed by
   (?:      // Start a non-capture group
     [^"]*  // 0 or more non-quote characters
     "      // 1 quote
     [^"]*  // 0 or more non-quote characters
     "      // 1 quote
   )*       // 0 or more repetition of non-capture group (multiple of 2 quotes will be even)
   [^"]*    // Finally 0 or more non-quotes
   $        // Till the end  (This is necessary, else every comma will satisfy the condition)
)

Вы даже можете ввести такой код в своем коде, используя модификатор (?x) с вашим регулярным выражением. Модификатор игнорирует любые пробелы в вашем регулярном выражении, поэтому становится легче читать регулярное выражение, разбитое на несколько строк:

String[] arr = str.split("(?x)   " + 
                     ",          " +   // Split on comma
                     "(?=        " +   // Followed by
                     "  (?:      " +   // Start a non-capture group
                     "    [^\"]* " +   // 0 or more non-quote characters
                     "    \"     " +   // 1 quote
                     "    [^\"]* " +   // 0 or more non-quote characters
                     "    \"     " +   // 1 quote
                     "  )*       " +   // 0 or more repetition of non-capture group (multiple of 2 quotes will be even)
                     "  [^\"]*   " +   // Finally 0 or more non-quotes
                     "  $        " +   // Till the end  (This is necessary, else every comma will satisfy the condition)
                     ")          "     // End look-ahead
                         );

Этот ответ по-прежнему ценен после всех этих лет! — Cheeso, 12 October 2016 в 19:22
Получил мою программу для работы с вашими объяснениями. Благодаря! Теперь, есть ли способ добавить к этому новые строки? \n и\r? — Henry Lee, 1 February 2017 в 22:36
Привет, моя строка такая: \ & quot; не разделить, это \ & quot; вместо этого (у этого есть эти обратные косые черты перед ". Как изменить регулярное выражение для этого? — GeneCode, 31 October 2017 в 07:53