Slugify и Character Transliteration в C#

Я пытаюсь перевести следующий slugify метод от PHP до C#: http://snipplr.com/view/22741/slugify-a-string-in-php/

Править: Ради удобства, здесь код сверху:

/**
 * Modifies a string to remove al non ASCII characters and spaces.
 */
static public function slugify($text)
{
    // replace non letter or digits by -
    $text = preg_replace('~[^\\pL\d]+~u', '-', $text);

    // trim
    $text = trim($text, '-');

    // transliterate
    if (function_exists('iconv'))
    {
        $text = iconv('utf-8', 'us-ascii//TRANSLIT', $text);
    }

    // lowercase
    $text = strtolower($text);

    // remove unwanted characters
    $text = preg_replace('~[^-\w]+~', '', $text);

    if (empty($text))
    {
        return 'n-a';
    }

    return $text;
}

Я не получил probleming кодирование остальных кроме, я не могу найти эквивалент C# следующей строки кода PHP:

$text = iconv('utf-8', 'us-ascii//TRANSLIT', $text);

Править: Цель этого состоит в том, чтобы перевести символы неASCII такой как Reformáció Genfi Emlékműve Előtt в reformacio-genfi-emlekmuve-elott

12
задан Trav L 31 January 2010 в 23:33
поделиться

3 ответа

Я также хотел бы добавить, что // транслит удаляет апострофы и что решение @jxac не рассматривается это. Я не уверен, что, но, сначала кодируя его к кириллице, а затем в ASCII вы получаете подобное поведение как // TRUSSILT .

var str = "éåäöíØ";
var noApostrophes = Encoding.ASCII.GetString(Encoding.GetEncoding("Cyrillic").GetBytes(str)); 

=> "eaaoiO"
10
ответ дан 2 December 2019 в 18:18
поделиться

преобразование в строку:

byte[] unicodeBytes = Encoding.Unicode.GetBytes(str);
byte[] asciiBytes = Encoding.Convert(Encoding.Unicode, Encoding.ASCII, unicodeBytes);
string asciiString = Encoding.ASCII.GetString(asciiBytes);

Преобразование в байты:

byte[] ascii = Encoding.ASCII.GetBytes(str);

@Thomas Levesque правильно, будет закодирован выходным потоком ...

Чтобы удалить диалитику (Accent Marks), вы можете использовать функцию String.Normalize, как подробно описано здесь:

http: ///www.siao2.com/2007/05/14/2629747.aspx

That следует позаботиться о большинстве случаев (где Glyph действительно является символом плюс акцентной маркировки). Для еще более агрессивного сопоставления CHAR (чтобы позаботиться о случаях, таких как скандинавский , стриптирован o o [Ø], digraphs и другие экзотические глифы), есть подход таблицы:

http: // www. CodeProject.com/kb/cs/unicodenormalization.aspx

This включает в себя около 1000 отображений символов в дополнение к нормализации.

(Примечание, все пунктуация удаляется регелем заменить в вашем примере)

1
ответ дан 2 December 2019 в 18:18
поделиться

Существует библиотека .NET для транслитерации на codeplex - unidecode . Обычно это трюк с использованием таблиц Unidecode, портированных из python.

9
ответ дан 2 December 2019 в 18:18
поделиться
Другие вопросы по тегам:

Похожие вопросы: