val jobName = "WordCount";
//overwrite the output directory in spark set("spark.hadoop.validateOutputSpecs", "false")
val conf = new
SparkConf().setAppName(jobName).set("spark.hadoop.validateOutputSpecs", "false");
val sc = new SparkContext(conf)
Воспользуйтесь java.text.Normalizer
и регексом, чтобы избавиться от диакритических знаков.
public static String removeDiacriticalMarks(String string) {
return Normalizer.normalize(string, Form.NFD)
.replaceAll("\\p{InCombiningDiacriticalMarks}+", "");
}
Которые вы можете использовать следующим образом:
String value = "Joáo";
String comparisonMaterial = removeDiacriticalMarks(value); // Joao