Функция:
public float simpleSimilarity(String u, String v) {
String[] a = u.split(" ");
String[] b = v.split(" ");
long correct = 0;
int minLen = Math.min(a.length, b.length);
for (int i = 0; i < minLen; i++) {
String aa = a[i];
String bb = b[i];
int minWordLength = Math.min(aa.length(), bb.length());
for (int j = 0; j < minWordLength; j++) {
if (aa.charAt(j) == bb.charAt(j)) {
correct++;
}
}
}
return (float) (((double) correct) / Math.max(u.length(), v.length()));
}
Тест:
String a = "This is the first string.";
String b = "this is not 1st string!";
// for exact string comparison, use .equals
boolean exact = a.equals(b);
// For similarity check, there are libraries for this
// Here I'll try a simple example I wrote
float similarity = simple_similarity(a,b);
Поддержка Unicode в sed
не определена. Вам может быть лучше использовать командную строку perl
:
echo "abcABC123" | perl -CS -pe 's/[\x{FF21}-\x{FF3B}]+//g'
abc123
Важно использовать флаги -CS
здесь, чтобы иметь возможность получать правильные кодировки UTF8 для ввода / вывода / ошибки.
Не знаете, почему sed
не работает, но вы можете использовать tr
вместо
$ echo 'abcABC123' | tr -d 'A-Z'
abc123
Из man tr
tr - перевести или удалить символы
-d, --delete удалить символы в SET1, не переводить
blockquote>