Существует ли список кодов языка в YAML или JSON где-нибудь там?
Другой формат прекрасен, я могу преобразовать его при необходимости.
Я думаю, что Организация Объединенных Наций или ISO на самом деле опубликуйте этот список в формате CSV. Это был бы окончательный источник.
Однако я не уверен, публикуют ли они это бесплатно.
РЕДАКТИРОВАТЬ: На самом деле ссылка находится в статье Википедии, на которую вы ссылаетесь. Библиотека Конгресса США была назначена ISO официальным регистрирующим органом, и они бесплатно публикуют полный, официальный, актуальный список в виде тривиального для анализа текстового файла .
Формат выглядит следующим образом:
ara||ar|Arabic|arabe arc|||Official Aramaic (700-300 BCE); Imperial Aramaic (700-300 BCE)|araméen d'empire (700-300 BCE) arg||an|Aragonese|aragonais arm|hye|hy|Armenian|arménien arn|||Mapudungun; Mapuche|mapudungun; mapuche; mapuce arp|||Arapaho|arapaho art|||Artificial languages|artificielles, langues arw|||Arawak|arawak asm||as|Assamese|assamais ast|||Asturian; Bable; Leonese; Asturleonese|asturien; bable; léonais; asturoléonais ath|||Athapascan languages|athapascanes, langues
Это 5 полей, разделенных вертикальными чертами:
Итак, это - это на самом деле в формате CSV, если вы интерпретируете это как символ значения, разделенные запятыми вместо значений, разделенных запятыми , что позволяет вам делать большинство парсеров CSV.
Посмотрите исходный код статьи в Википедии.
Это очень простой формат - ячейки таблицы разделены ||
. Это гораздо легче разобрать, чем HTML.
Он доступен в HTML по ссылке, которую вы разместили в своем вопросе :) Серьезно, если этот список в Википедии полный, то его легко получить, используя lxml.html (на Python) или любую подобную библиотеку на вашем любимом языке.