Я нахожусь в процессе преобразование файлов, сгенерированных древней библиотечной программой на базе DOS факультета китаеведения нашего университета, в нечто более полезное и доступное.
Среди проблем, с которыми я имею дело, является то, что экспортируемые текстовые файлы (размером около 80 МБ) имеют смешанный кодирование. Я использую Windows.
Немецкие умляуты и другие символы более высокого ASCII закодированы в cp1252, я думаю, а символы CJK в GB18030. Из-за "перекрывающихся" кодировок я не могу просто перетащить весь файл в Word или что-то в этом роде и позволить ему выполнить преобразование, потому что я получу что-то вроде этого:
orig:
+Autor:
-Yan, Lianke / ÑÖÁ¬¿Æ # encoded Chinese characters
+Co-Autor:
-Min, Jie / (šbers.) # encoded German U-umlaut (Ü)
result:
+Autor:
-Yan, Lianke / 阎连科 # good
+Co-Autor:
-Min, Jie / (歜ers.) # bad... (should be: "Übers.")
Итак, я написал сценарий с несколькими подпрограммами, преобразующими не-ASCII символы за несколько шагов. Он выполняет следующие функции (среди прочего):
заменяет некоторые символы ASCII более высокого порядка (š, á и т. Д.) Буквенно-цифровыми кодами (вряд ли они естественным образом появятся где-либо еще в файле). Пример: -Min, Jie / (šbers.)
-> -Min, Jie / (uumlautgrossbers.)
Примечание: я сделал "таблицу преобразования" вручную, поэтому я только принял во внимание специальные символы, фактически появляющиеся в моем документе. Таким образом, преобразование не полностью завершено, но в моем случае дает адекватные результаты, так как наши книги в основном на немецком, английском и китайском языках, лишь очень немногие из них на таких языках, как итальянский, испанский, французский и т. Д., И почти нет на чешском и т. Д.
замените á, £, ¢, ¡, í
буквенно-цифровыми кодами , только если им не предшествует или не следует другой символ в верхнем диапазоне ASCII \ x80- \ xFF
. (это закодированные cp1252 версии ß, ú, ó, í
и « маленькое северное o с поперечным штрихом
» и появляются как в строках, закодированных как cp1252, так и GB18030).)
считывает весь файл и преобразует его из GB18030 в UTF8, таким образом преобразуя закодированные китайские символы в настоящие китайские символы.
Преобразует буквенно-цифровые коды обратно в их эквиваленты Unicode.
Хотя сценарий в основном работает, следующие возникает проблема:
Я хотел бы знать следующее:
В общем, есть ли лучший подход для преобразования файла со смешанным кодированием в UTF-8?
Если нет, следует ли мне использовать use utf8
, чтобы я мог напрямую вводить символы вместо их шестнадцатеричного представления в подпрограмме code2char
?
Может ли спецификация в начале файла решить проблему отображения NP ++ изначально в виде файла ANSI? Если да, как мне изменить мой сценарий, чтобы в выходном файле была спецификация?
После преобразования мне может потребоваться вызвать еще несколько подпрограмм (например, для преобразования всего файла в формат CSV или ODS). Нужно ли мне продолжать использовать открывающую инструкцию из подпрограммы code2char
?
Код состоит из нескольких подпрограмм, которые вызываются в конце:
!perl -w
use strict;
use warnings;
use Encode qw(decode encode);
use Encode::HanExtra;
our $input = "export.txt";
our $output = "export2.txt";
sub switch_var { # switch Input and Output file between steps
($input, $output) = ($output, $input);
}
sub specialchars2codes {
open our $in, "<$input" or die "$!\n";
open our $out, ">$output" or die "$!\n";
while( <$in> ) {
## replace higher ASCII characters such as a-umlaut etc. with codes.
s#\x94#oumlautklein#g;
s#\x84#aumlautklein#g;
s#\x81#uumlautklein#g;
## ... and some more. (ö, Ö, ä, Ä, Ü, ü, ê, è, é, É, â, á, à, ì, î,
## û, ù, ô, ò, ç, ï, a°, e-umlaut and ñ in total.)
## replace problematic special characters (ß, ú, ó, í, ø, ') with codes.
s#(?<![\x80-\xFF])\xE1(?![\x80-\xFF])#eszett#g;
s#(?<![\x80-\xFF])\xA3(?![\x80-\xFF])#uaccentaiguklein#g;
s#(?<![\x80-\xFF])\xA2(?![\x80-\xFF])#oaccentaiguklein#g;
s#(?<![\x80-\xFF])\xA1(?![\x80-\xFF])#iaccentaiguklein#g;
s#(?<![\x80-\xFF])\xED(?![\x80-\xFF])#nordischesoklein#g;
print $out $_;
}
close $out;
close $in;
}
sub convert2unicode {
open(our $in, "< :encoding(GB18030)", $input) or die "$!\n";
open(our $out, "> :encoding(UTF-8)", $output) or die "$!\n";
print "Convert ASCII to UTF-8\n\n";
while (<$in>) {
print $out $_;
}
close $in;
close $out;
}
sub codes2char {
open(our $in, "< :encoding(UTF-8)", $input) or die "$!\n";
open(our $out, "> :encoding(UTF-8)", $output) or die "$!\n";
print "replace Codes with original characters.\n";
while (<$in>) {
s#lidosoumlautklein#\xF6#g;
s#lidosaumlautklein#\xE4#g;
s#lidosuumlautklein#\xFC#g;
## ... and some more.
s#eszett#\xDF#g;
s#uaccentaiguklein#\xFA#g;
s#oaccentaiguklein#\xF3#g;
s#iaccentaiguklein#\xED#g;
s#nordischesoklein#\xF8#g;
print $out $_;
}
close($in) or die "can't close $input: $!";
close($out) or die "can't close $output: $!";
}
##################
## Main program ##
##################
&specialchars2codes;
&switch_var;
&convert2unicode;
&switch_var;
&codes2char;
вау, это было долго. Надеюсь, он не слишком запутанный
РЕДАКТИРОВАТЬ :
Это шестнадцатеричный дамп приведенной выше строки примера:
01A36596 2B 41 +A
01A365A9 75 74 6F 72 3A 0D 0A 2D 59 61 6E 2C 20 4C 69 61 6E 6B 65 utor: -Yan, Lianke
01A365BC 20 2F 20 D1 D6 C1 AC BF C6 0D 0A 2B 43 6F 2D 41 75 74 6F / ÑÖÁ¬¿Æ +Co-Auto
01A365CF 72 3A 0D 0A 2D 4D 69 6E 2C 20 4A 69 65 20 2F 20 28 9A 62 r: -Min, Jie / (šb
01A365E2 65 72 73 2E 29 0D 0A ers.)
и еще два для иллюстрации:
1.
000036B3 2D 52 75 -Ru
000036C6 E1 6C 61 6E 64 0D 0A áland
2.
015FE030 2B 54 69 74 65 6C 3A 0D 0A 2D 57 65 6E 72 6F 75 +Titel: -Wenrou
015FE043 64 75 6E 68 6F 75 20 20 CE C2 C8 E1 B6 D8 BA F1 20 28 47 dunhou ÎÂÈá¶Øºñ (G
015FE056 65 6E 74 6C 65 6E 65 73 73 20 61 6E 64 20 4B 69 6E 64 6E entleness and Kindn
015FE069 65 73 73 29 2E 0D 0A ess).
В В обоих случаях присутствует шестнадцатеричное значение E1. В первом случае он заменяет немецкое диез-s (ß, «Rußland» = «Россия»), а во втором - часть многобайтового символа CJK 柔 (читается: «rou»).
В библиотечной программе китайские иероглифы вводятся и отображаются с помощью дополнительной программы, которая должна быть загружена в первую очередь и,насколько я могу судить, подключается к графическому драйверу на низком уровне, перехватывает закодированные китайские символы и отображает их как символы, оставляя все остальное в покое. Немецкие умляуты и т. Д. Обрабатываются самой библиотечной программой.
Я не совсем понимаю, как это работает, то есть как программы узнают, следует ли рассматривать HexE1 как одиночный символ á
и, следовательно, преобразован в соответствии с кодовой страницей X
и когда он является частью многобайтового символа и, таким образом, преобразован в соответствии с кодовой страницей Y
Наиболее близким приближением, которое я обнаружил, является то, что специальные символы, вероятно часть китайской строки, если до или после нее есть другие специальные символы. (например, ÂÈá¶Øºñ
)