sed regex Ошибка недопустимого диапазона для диапазона Unicode [дубликат]

Функция:

public float simpleSimilarity(String u, String v) {
    String[] a = u.split(" ");
    String[] b = v.split(" ");

    long correct = 0;
    int minLen = Math.min(a.length, b.length);

    for (int i = 0; i < minLen; i++) {
        String aa = a[i];
        String bb = b[i];
        int minWordLength = Math.min(aa.length(), bb.length());

        for (int j = 0; j < minWordLength; j++) {
            if (aa.charAt(j) == bb.charAt(j)) {
                correct++;
            }
        }
    }

    return (float) (((double) correct) / Math.max(u.length(), v.length()));
}

Тест:

String a = "This is the first string.";

String b = "this is not 1st string!";

// for exact string comparison, use .equals

boolean exact = a.equals(b);

// For similarity check, there are libraries for this
// Here I'll try a simple example I wrote

float similarity = simple_similarity(a,b);
2
задан Cyrus 9 January 2018 в 20:38
поделиться

2 ответа

Поддержка Unicode в sed не определена. Вам может быть лучше использовать командную строку perl:

echo "abcABC123" | perl -CS -pe 's/[\x{FF21}-\x{FF3B}]+//g'

abc123

Важно использовать флаги -CS здесь, чтобы иметь возможность получать правильные кодировки UTF8 для ввода / вывода / ошибки.

2
ответ дан anubhava 15 August 2018 в 16:51
поделиться

Не знаете, почему sed не работает, но вы можете использовать tr вместо

$ echo 'abcABC123' | tr -d 'A-Z'
abc123

Из man tr

tr - перевести или удалить символы

-d, --delete удалить символы в SET1, не переводить

0
ответ дан Sundeep 15 August 2018 в 16:51
поделиться
Другие вопросы по тегам:

Похожие вопросы: