Игнорируя диакритические символы при сравнении слов со специальными символами (é, è, …)

Question

Игнорируя диакритические символы при сравнении слов со специальными символами (é, è, …)

У меня есть список с некоторыми бельгийскими городами с диакритическими символами: (Льеж, Quiévrain, Franière, и т.д.) и я хотел бы преобразовать эти специальные символы для сравнения списку, содержащему те же имена в верхнем регистре, но без диакритических знаков (ЛЬЕЖ, QUIEVRAIN, FRANIERE)

То, что я сначала пытался сделать, должно было использовать верхний регистр:

LIEGE.contentEqual(Liège.toUpperCase()) но это не соответствует потому что Верхний регистр Liège LIÈGE и нет LIEGE.

У меня есть некоторые сложные идеи как замена каждого символа, но это звучит глупым и долгий процесс.

Какие-либо идеи о том, как сделать это умным способом?

12

java android string replace diacritics

задан g t 27 April 2017 в 10:56

4 ответа

Это самое простое решение, которое я нашел до сих пор, и оно отлично работает в наших приложениях.

Normalizer.normalize(string, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", "");

Но я не знаю, доступен ли нормализатор на платформе Android.

6

ответ дан 2 December 2019 в 04:25

Начиная с Java 6, вы можете использовать java.text.Normalizer:

public String unaccent(String s) {
    String normalized = Normalizer.normalize(s, Normalizer.Form.NFD);
    return normalized.replaceAll("[^\\p{ASCII}]", "");
}

Обратите внимание, что в Java 5 также есть sun.text.Normalizer , но его использование настоятельно не рекомендуется, поскольку оно является частью проприетарного API Sun и был удален в Java 6.

14

ответ дан 2 December 2019 в 04:25

Класс Collator - хороший способ сделать это (см. Соответствующий javadoc ). Вот модульный тест, который показывает, как его использовать:

import static org.junit.Assert.assertEquals;

import java.text.Collator;
import java.util.Locale;

import org.junit.Test;

public class CollatorTest {
    @Test public void liege() throws Exception {
        Collator compareOperator = Collator.getInstance(Locale.FRENCH);
        compareOperator.setStrength(Collator.PRIMARY);

        assertEquals(0, compareOperator.compare("Liege", "Liege")); // no accent
        assertEquals(0, compareOperator.compare("Liège", "Liege")); // with accent
        assertEquals(0, compareOperator.compare("LIEGE", "Liege")); // case insensitive
        assertEquals(0, compareOperator.compare("LIEGE", "Liège")); // case insensitive with accent

        assertEquals(1, compareOperator.compare("Liege", "Bruxelles"));
        assertEquals(-1, compareOperator.compare("Bruxelles", "Liege"));
    }
}

РЕДАКТИРОВАТЬ : извините, что мой ответ не соответствует вашим потребностям; может это потому, что я представил это как модульный тест? Это нормально для тебя? Я лично считаю его лучше, потому что он короче и использует SDK (не требует замены String)

Collator compareOperator = Collator.getInstance(Locale.FRENCH);
compareOperator.setStrength(Collator.PRIMARY);
if (compareOperator.compare("Liège", "Liege") == 0) {
    // if we are here, then it's the "same" String
}

надеюсь, что это поможет

1

ответ дан 2 December 2019 в 04:25

Другие вопросы по тегам:

java android string replace diacritics

Похожие вопросы:

score 8 · Accepted Answer

Посмотрите этот метод на Java

private static final String PLAIN_ASCII = "AaEeIiOoUu" // grave
            + "AaEeIiOoUuYy" // acute
            + "AaEeIiOoUuYy" // circumflex
            + "AaOoNn" // tilde
            + "AaEeIiOoUuYy" // umlaut
            + "Aa" // ring
            + "Cc" // cedilla
            + "OoUu" // double acute
    ;

    private static final String UNICODE = "\u00C0\u00E0\u00C8\u00E8\u00CC\u00EC\u00D2\u00F2\u00D9\u00F9"
            + "\u00C1\u00E1\u00C9\u00E9\u00CD\u00ED\u00D3\u00F3\u00DA\u00FA\u00DD\u00FD"
            + "\u00C2\u00E2\u00CA\u00EA\u00CE\u00EE\u00D4\u00F4\u00DB\u00FB\u0176\u0177"
            + "\u00C3\u00E3\u00D5\u00F5\u00D1\u00F1"
            + "\u00C4\u00E4\u00CB\u00EB\u00CF\u00EF\u00D6\u00F6\u00DC\u00FC\u0178\u00FF"
            + "\u00C5\u00E5" + "\u00C7\u00E7" + "\u0150\u0151\u0170\u0171";

    /**
     * remove accented from a string and replace with ascii equivalent
     */
    public static String removeAccents(String s) {
        if (s == null)
            return null;
        StringBuilder sb = new StringBuilder(s.length());
        int n = s.length();
        int pos = -1;
        char c;
        boolean found = false;
        for (int i = 0; i < n; i++) {
            pos = -1;
            c = s.charAt(i);
            pos = (c <= 126) ? -1 : UNICODE.indexOf(c);
            if (pos > -1) {
                found = true;
                sb.append(PLAIN_ASCII.charAt(pos));
            } else {
                sb.append(c);
            }
        }
        if (!found) {
            return s;
        } else {
            return sb.toString();
        }
    }