Вопросы о преобразовании файла со смешанной кодировкой в ​​UTF8 на Perl

Я нахожусь в процессе преобразование файлов, сгенерированных древней библиотечной программой на базе DOS факультета китаеведения нашего университета, в нечто более полезное и доступное.

Среди проблем, с которыми я имею дело, является то, что экспортируемые текстовые файлы (размером около 80 МБ) имеют смешанный кодирование. Я использую Windows.

Немецкие умляуты и другие символы более высокого ASCII закодированы в cp1252, я думаю, а символы CJK в GB18030. Из-за "перекрывающихся" кодировок я не могу просто перетащить весь файл в Word или что-то в этом роде и позволить ему выполнить преобразование, потому что я получу что-то вроде этого:

orig:

+Autor:
-Yan, Lianke / ÑÖÁ¬¿Æ      # encoded Chinese characters
+Co-Autor:
-Min, Jie / (šbers.)       # encoded German U-umlaut (Ü)

result:

+Autor:
-Yan, Lianke / 阎连科       # good
+Co-Autor:
-Min, Jie / (歜ers.)       # bad... (should be: "Übers.")

Итак, я написал сценарий с несколькими подпрограммами, преобразующими не-ASCII символы за несколько шагов. Он выполняет следующие функции (среди прочего):

  1. заменяет некоторые символы ASCII более высокого порядка (š, á и т. Д.) Буквенно-цифровыми кодами (вряд ли они естественным образом появятся где-либо еще в файле). Пример: -Min, Jie / (šbers.) -> -Min, Jie / (uumlautgrossbers.)
    Примечание: я сделал "таблицу преобразования" вручную, поэтому я только принял во внимание специальные символы, фактически появляющиеся в моем документе. Таким образом, преобразование не полностью завершено, но в моем случае дает адекватные результаты, так как наши книги в основном на немецком, английском и китайском языках, лишь очень немногие из них на таких языках, как итальянский, испанский, французский и т. Д., И почти нет на чешском и т. Д.

  2. замените á, £, ¢, ¡, í буквенно-цифровыми кодами , только если им не предшествует или не следует другой символ в верхнем диапазоне ASCII \ x80- \ xFF . (это закодированные cp1252 версии ß, ú, ó, í и « маленькое северное o с поперечным штрихом » и появляются как в строках, закодированных как cp1252, так и GB18030).)

  3. считывает весь файл и преобразует его из GB18030 в UTF8, таким образом преобразуя закодированные китайские символы в настоящие китайские символы.

  4. Преобразует буквенно-цифровые коды обратно в их эквиваленты Unicode.

Хотя сценарий в основном работает, следующие возникает проблема:

  • После преобразования исходного файла размером 80 МБ Notepad ++ все еще считает, что это файл ANSI, и отображает его как таковой. Мне нужно нажать «Кодирование-> Кодировать в UTF-8», чтобы отобразить его правильно.

Я хотел бы знать следующее:

  1. В общем, есть ли лучший подход для преобразования файла со смешанным кодированием в UTF-8?

  2. Если нет, следует ли мне использовать use utf8 , чтобы я мог напрямую вводить символы вместо их шестнадцатеричного представления в подпрограмме code2char ?

  3. Может ли спецификация в начале файла решить проблему отображения NP ++ изначально в виде файла ANSI? Если да, как мне изменить мой сценарий, чтобы в выходном файле была спецификация?

  4. После преобразования мне может потребоваться вызвать еще несколько подпрограмм (например, для преобразования всего файла в формат CSV или ODS). Нужно ли мне продолжать использовать открывающую инструкцию из подпрограммы code2char ?

Код состоит из нескольких подпрограмм, которые вызываются в конце:

!perl -w
use strict; 
use warnings;
use Encode qw(decode encode); 
use Encode::HanExtra;

our $input = "export.txt";
our $output = "export2.txt";

sub switch_var {                # switch Input and Output file between steps
    ($input, $output) = ($output, $input);
}

sub specialchars2codes {
open our $in, "<$input" or die "$!\n"; 
open our $out, ">$output" or die "$!\n"; 

while( <$in> )  {   
    ## replace higher ASCII characters such as a-umlaut etc. with codes.
    s#\x94#oumlautklein#g;
    s#\x84#aumlautklein#g;
    s#\x81#uumlautklein#g;
    ## ... and some more. (ö, Ö, ä, Ä, Ü, ü, ê, è, é, É, â, á, à, ì, î, 
    ## û, ù, ô, ò, ç, ï, a°, e-umlaut and ñ in total.)

    ## replace problematic special characters (ß, ú, ó, í, ø, ') with codes.
    s#(?<![\x80-\xFF])\xE1(?![\x80-\xFF])#eszett#g;
    s#(?<![\x80-\xFF])\xA3(?![\x80-\xFF])#uaccentaiguklein#g;
    s#(?<![\x80-\xFF])\xA2(?![\x80-\xFF])#oaccentaiguklein#g;
    s#(?<![\x80-\xFF])\xA1(?![\x80-\xFF])#iaccentaiguklein#g;
    s#(?<![\x80-\xFF])\xED(?![\x80-\xFF])#nordischesoklein#g;

    print $out $_;
    }   
close $out;
close $in;
}

sub convert2unicode {

open(our $in,  "< :encoding(GB18030)", $input)  or die "$!\n";
open(our $out, "> :encoding(UTF-8)",  $output)  or die "$!\n";

print "Convert ASCII to UTF-8\n\n";

while (<$in>) {         
        print $out $_;      
}

close $in;
close $out;
}

sub codes2char {

open(our $in,  "< :encoding(UTF-8)", $input)    or die "$!\n";
open(our $out, "> :encoding(UTF-8)", $output)   or die "$!\n";

print "replace Codes with original characters.\n";


    while (<$in>) {
        s#lidosoumlautklein#\xF6#g;
        s#lidosaumlautklein#\xE4#g;
        s#lidosuumlautklein#\xFC#g;
        ## ... and some more.
        s#eszett#\xDF#g;
        s#uaccentaiguklein#\xFA#g;
        s#oaccentaiguklein#\xF3#g;
        s#iaccentaiguklein#\xED#g;
        s#nordischesoklein#\xF8#g;

        print  $out $_;
    }
close($in)   or die "can't close $input: $!";
close($out)  or die "can't close $output: $!";
}

##################
## Main program ##
##################

&specialchars2codes;
&switch_var;
&convert2unicode;
&switch_var;
&codes2char;

вау, это было долго. Надеюсь, он не слишком запутанный

РЕДАКТИРОВАТЬ :

Это шестнадцатеричный дамп приведенной выше строки примера:

01A36596                                                        2B 41                    +A
01A365A9   75 74 6F 72 3A 0D 0A 2D  59 61 6E 2C 20 4C 69 61  6E 6B 65   utor:  -Yan, Lianke
01A365BC   20 2F 20 D1 D6 C1 AC BF  C6 0D 0A 2B 43 6F 2D 41  75 74 6F    / ÑÖÁ¬¿Æ  +Co-Auto
01A365CF   72 3A 0D 0A 2D 4D 69 6E  2C 20 4A 69 65 20 2F 20  28 9A 62   r:  -Min, Jie / (šb
01A365E2   65 72 73 2E 29 0D 0A                                         ers.)  

и еще два для иллюстрации:

1.

000036B3                                                     2D 52 75                   -Ru
000036C6   E1 6C 61 6E 64 0D 0A                                         áland  

2.

015FE030            2B 54 69 74 65  6C 3A 0D 0A 2D 57 65 6E  72 6F 75      +Titel:  -Wenrou
015FE043   64 75 6E 68 6F 75 20 20  CE C2 C8 E1 B6 D8 BA F1  20 28 47   dunhou  ÎÂÈá¶Øºñ (G
015FE056   65 6E 74 6C 65 6E 65 73  73 20 61 6E 64 20 4B 69  6E 64 6E   entleness and Kindn
015FE069   65 73 73 29 2E 0D 0A                                         ess).  

В В обоих случаях присутствует шестнадцатеричное значение E1. В первом случае он заменяет немецкое диез-s (ß, «Rußland» = «Россия»), а во втором - часть многобайтового символа CJK 柔 (читается: «rou»).

В библиотечной программе китайские иероглифы вводятся и отображаются с помощью дополнительной программы, которая должна быть загружена в первую очередь и,насколько я могу судить, подключается к графическому драйверу на низком уровне, перехватывает закодированные китайские символы и отображает их как символы, оставляя все остальное в покое. Немецкие умляуты и т. Д. Обрабатываются самой библиотечной программой.

Я не совсем понимаю, как это работает, то есть как программы узнают, следует ли рассматривать HexE1 как одиночный символ á и, следовательно, преобразован в соответствии с кодовой страницей X и когда он является частью многобайтового символа и, таким образом, преобразован в соответствии с кодовой страницей Y

Наиболее близким приближением, которое я обнаружил, является то, что специальные символы, вероятно часть китайской строки, если до или после нее есть другие специальные символы. (например, ÂÈá¶Øºñ )

7
задан screen12345 1 August 2011 в 13:47
поделиться