Использование Java - игнорирование запятых (без разделителей) в файле csv [duplicate]

В следующем примере, который я написал, показано, как

  • обрабатывать асинхронные HTTP-вызовы;
  • Подождать ответа от каждого вызова API;
  • Использовать шаблон promise ;
  • Используйте шаблон Promise.All для объединения нескольких HTTP-вызовов;

Этот рабочий пример является автономным. Он будет определять простой объект запроса, который использует объект window XMLHttpRequest для совершения вызовов. Он будет определять простую функцию, чтобы дождаться завершения кучи обещаний.

Контекст. В этом примере запрашивается конечная точка Spotify Web API для поиска объектов playlist для заданного набора строк запроса:

[
 "search?type=playlist&q=%22doom%20metal%22",
 "search?type=playlist&q=Adele"
]

Для каждого элемента новый Promise запустит блок - ExecutionBlock, проанализирует результат, заплатит новый набор обещаний на основе массива результатов, который представляет собой список объектов Spotify user и выполняет новый HTTP-вызов в ExecutionProfileBlock асинхронно.

Затем вы можете увидеть вложенную структуру Promise, которая позволяет вам генерировать множественные и полностью асинхронные вложенные HTTP-вызовы и присоединять результаты к каждому подмножеству вызовов через Promise.all.

NOTE Recent Spotify search API-интерфейсам потребуется указать токен доступа в заголовках запроса:

-H "Authorization: Bearer {your access token}" 

Итак, вы должны запустить следующий пример, вам нужно поместить маркер доступа в заголовки запроса:

var spotifyAccessToken = "YourSpotifyAccessToken";
var console = {
    log: function(s) {
        document.getElementById("console").innerHTML += s + "
" } } // Simple XMLHttpRequest // based on https://davidwalsh.name/xmlhttprequest SimpleRequest = { call: function(what, response) { var request; if (window.XMLHttpRequest) { // Mozilla, Safari, ... request = new XMLHttpRequest(); } else if (window.ActiveXObject) { // Internet Explorer try { request = new ActiveXObject('Msxml2.XMLHTTP'); } catch (e) { try { request = new ActiveXObject('Microsoft.XMLHTTP'); } catch (e) {} } } // State changes request.onreadystatechange = function() { if (request.readyState === 4) { // Done if (request.status === 200) { // Complete response(request.responseText) } else response(); } } request.open('GET', what, true); request.setRequestHeader("Authorization", "Bearer " + spotifyAccessToken); request.send(null); } } //PromiseAll var promiseAll = function(items, block, done, fail) { var self = this; var promises = [], index = 0; items.forEach(function(item) { promises.push(function(item, i) { return new Promise(function(resolve, reject) { if (block) { block.apply(this, [item, index, resolve, reject]); } }); }(item, ++index)) }); Promise.all(promises).then(function AcceptHandler(results) { if (done) done(results); }, function ErrorHandler(error) { if (fail) fail(error); }); }; //promiseAll // LP: deferred execution block var ExecutionBlock = function(item, index, resolve, reject) { var url = "https://api.spotify.com/v1/" url += item; console.log( url ) SimpleRequest.call(url, function(result) { if (result) { var profileUrls = JSON.parse(result).playlists.items.map(function(item, index) { return item.owner.href; }) resolve(profileUrls); } else { reject(new Error("call error")); } }) } arr = [ "search?type=playlist&q=%22doom%20metal%22", "search?type=playlist&q=Adele" ] promiseAll(arr, function(item, index, resolve, reject) { console.log("Making request [" + index + "]") ExecutionBlock(item, index, resolve, reject); }, function(results) { // Aggregated results console.log("All profiles received " + results.length); //console.log(JSON.stringify(results[0], null, 2)); ///// promiseall again var ExecutionProfileBlock = function(item, index, resolve, reject) { SimpleRequest.call(item, function(result) { if (result) { var obj = JSON.parse(result); resolve({ name: obj.display_name, followers: obj.followers.total, url: obj.href }); } //result }) } //ExecutionProfileBlock promiseAll(results[0], function(item, index, resolve, reject) { //console.log("Making request [" + index + "] " + item) ExecutionProfileBlock(item, index, resolve, reject); }, function(results) { // aggregated results console.log("All response received " + results.length); console.log(JSON.stringify(results, null, 2)); } , function(error) { // Error console.log(error); }) ///// }, function(error) { // Error console.log(error); });

Я подробно рассмотрел это решение здесь .

208
задан Jason S 30 October 2014 в 03:24
поделиться

9 ответов

Попробуйте:

public class Main { 
    public static void main(String[] args) {
        String line = "foo,bar,c;qual=\"baz,blurb\",d;junk=\"quux,syzygy\"";
        String[] tokens = line.split(",(?=(?:[^\"]*\"[^\"]*\")*[^\"]*$)", -1);
        for(String t : tokens) {
            System.out.println("> "+t);
        }
    }
}

Вывод:

> foo
> bar
> c;qual="baz,blurb"
> d;junk="quux,syzygy"

Другими словами: разбивается на запятую только в том случае, если эта запятая имеет нуль или четное число кавычки перед ним .

Или немного дружелюбнее для глаз:

public class Main { 
    public static void main(String[] args) {
        String line = "foo,bar,c;qual=\"baz,blurb\",d;junk=\"quux,syzygy\"";

        String otherThanQuote = " [^\"] ";
        String quotedString = String.format(" \" %s* \" ", otherThanQuote);
        String regex = String.format("(?x) "+ // enable comments, ignore white spaces
                ",                         "+ // match a comma
                "(?=                       "+ // start positive look ahead
                "  (?:                     "+ //   start non-capturing group 1
                "    %s*                   "+ //     match 'otherThanQuote' zero or more times
                "    %s                    "+ //     match 'quotedString'
                "  )*                      "+ //   end group 1 and repeat it zero or more times
                "  %s*                     "+ //   match 'otherThanQuote'
                "  $                       "+ // match the end of the string
                ")                         ", // stop positive look ahead
                otherThanQuote, quotedString, otherThanQuote);

        String[] tokens = line.split(regex, -1);
        for(String t : tokens) {
            System.out.println("> "+t);
        }
    }
}

, который производит то же, что и в первом примере.

EDIT

Как упоминалось @MikeFHay в комментариях:

Я предпочитаю использовать Splitter Guava , так как он имеет более низкие значения по умолчанию (см. Обсуждение выше о пустых совпадениях, обрезанных String#split(), поэтому я сделал:

Splitter.on(Pattern.compile(",(?=(?:[^\"]*\"[^\"]*\")*[^\"]*$)"))
383
ответ дан Urban Vagabond 4 September 2018 в 06:47
поделиться
20
ответ дан Community 4 September 2018 в 06:47
поделиться

Вы находитесь в этой досадной граничной области, где регулярные выражения почти не будут делать (как было указано Бартом, побег из котировок бы усложнил жизнь), и все же полноразмерный парсер кажется излишним.

Если вам скоро понадобится большая сложность, я бы поискал библиотеку парсера. Например, этот [

2
ответ дан djna 4 September 2018 в 06:47
поделиться

Хотя мне нравятся регулярные выражения в целом, для такого рода токенизации, зависящей от состояния, я считаю, что простой синтаксический анализатор (который в этом случае намного проще, чем это может сделать звук), вероятно, является более чистым решением, в частности с относится к ремонтопригодности, например:

String input = "foo,bar,c;qual=\"baz,blurb\",d;junk=\"quux,syzygy\"";
List<String> result = new ArrayList<String>();
int start = 0;
boolean inQuotes = false;
for (int current = 0; current < input.length(); current++) {
    if (input.charAt(current) == '\"') inQuotes = !inQuotes; // toggle state
    boolean atLastChar = (current == input.length() - 1);
    if(atLastChar) result.add(input.substring(start));
    else if (input.charAt(current) == ',' && !inQuotes) {
        result.add(input.substring(start, current));
        start = current + 1;
    }
}

Если вы не заботитесь о сохранении запятых внутри кавычек, вы можете упростить этот подход (без обработки начального индекса, no последнего символа особый случай), заменив запятые в кавычках на что-то еще, а затем разделив запятыми:

String input = "foo,bar,c;qual=\"baz,blurb\",d;junk=\"quux,syzygy\"";
StringBuilder builder = new StringBuilder(input);
boolean inQuotes = false;
for (int currentIndex = 0; currentIndex < builder.length(); currentIndex++) {
    char currentChar = builder.charAt(currentIndex);
    if (currentChar == '\"') inQuotes = !inQuotes; // toggle state
    if (currentChar == ',' && inQuotes) {
        builder.setCharAt(currentIndex, ';'); // or '♡', and replace later
    }
}
List<String> result = Arrays.asList(builder.toString().split(","));
39
ответ дан Fabian Steeg 4 September 2018 в 06:47
поделиться

Я бы сделал что-то вроде этого:

boolean foundQuote = false;

if(charAtIndex(currentStringIndex) == '"')
{
   foundQuote = true;
}

if(foundQuote == true)
{
   //do nothing
}

else 

{
  string[] split = currentString.split(',');  
}
-1
ответ дан Jason Plank 4 September 2018 в 06:47
поделиться

Я был нетерпелив и решил не ждать ответов ... для справки не выглядит так сложно сделать что-то подобное (что работает для моего приложения, мне не нужно беспокоиться об экранированных кавычках, так как материал в кавычках ограничен несколькими ограниченными формами):

final static private Pattern splitSearchPattern = Pattern.compile("[\",]"); 
private List<String> splitByCommasNotInQuotes(String s) {
    if (s == null)
        return Collections.emptyList();

    List<String> list = new ArrayList<String>();
    Matcher m = splitSearchPattern.matcher(s);
    int pos = 0;
    boolean quoteMode = false;
    while (m.find())
    {
        String sep = m.group();
        if ("\"".equals(sep))
        {
            quoteMode = !quoteMode;
        }
        else if (!quoteMode && ",".equals(sep))
        {
            int toPos = m.start(); 
            list.add(s.substring(pos, toPos));
            pos = m.end();
        }
    }
    if (pos < s.length())
        list.add(s.substring(pos));
    return list;
}

(упражнение для читателя: расширение для обработки экранированных кавычек путем поиска обратных косых черт).

2
ответ дан Jason S 4 September 2018 в 06:47
поделиться

Я бы не советовал регулярный запрос от Барта, я нашел решение для синтаксического анализа лучше в этом конкретном случае (как предложил Фабиан). Я пробовал решение regex и собственную реализацию синтаксического анализа. Я обнаружил, что:

  1. Парсинг намного быстрее, чем расщепление с регулярным выражением с обратными ссылками - в 20 раз быстрее для коротких строк, ~ 40 раз быстрее в течение длительного времени strings.
  2. Regex не может найти пустую строку после последней запятой. Это было не в оригинальном вопросе, хотя это было моим требованием.

Мое решение и тест ниже.

String tested = "foo,bar,c;qual=\"baz,blurb\",d;junk=\"quux,syzygy\",";
long start = System.nanoTime();
String[] tokens = tested.split(",(?=([^\"]*\"[^\"]*\")*[^\"]*$)");
long timeWithSplitting = System.nanoTime() - start;

start = System.nanoTime(); 
List<String> tokensList = new ArrayList<String>();
boolean inQuotes = false;
StringBuilder b = new StringBuilder();
for (char c : tested.toCharArray()) {
    switch (c) {
    case ',':
        if (inQuotes) {
            b.append(c);
        } else {
            tokensList.add(b.toString());
            b = new StringBuilder();
        }
        break;
    case '\"':
        inQuotes = !inQuotes;
    default:
        b.append(c);
    break;
    }
}
tokensList.add(b.toString());
long timeWithParsing = System.nanoTime() - start;

System.out.println(Arrays.toString(tokens));
System.out.println(tokensList.toString());
System.out.printf("Time with splitting:\t%10d\n",timeWithSplitting);
System.out.printf("Time with parsing:\t%10d\n",timeWithParsing);

Конечно, вы можете изменить переключатель на другое -в этом фрагменте, если вы чувствуете себя некомфортно с его уродством. Обратите внимание, что после переключения с разделителем отсутствует перерыв. StringBuilder был выбран вместо StringBuffer по дизайну, чтобы увеличить скорость, когда безопасность потоков не имеет значения.

4
ответ дан Marcin Kosinski 4 September 2018 в 06:47
поделиться

Попробуйте lookaround , например (?!\"),(?!\"). Это должно соответствовать ,, которые не окружены ".

2
ответ дан Matthew Sowders 4 September 2018 в 06:47
поделиться

Вместо того, чтобы использовать lookahead и другое сумасшедшее регулярное выражение, сначала вытащите кавычки. То есть для каждой группировки котировок замените эту группировку на __IDENTIFIER_1 или какой-либо другой индикатор и сопоставьте эту группировку с картой строки, строки.

После разделения на запятую замените все сопоставленные идентификаторы на исходные значения строк.

0
ответ дан Stefan Kendall 4 September 2018 в 06:47
поделиться
Другие вопросы по тегам:

Похожие вопросы: