Объединение списков частотных данных слов

Кажется, это очевидный вопрос, но учебные пособия и документация по спискам не выходят. Многие из этих проблем проистекают из огромного размера моих текстовых файлов (сотни МБ) и моих попыток свести их к чему-то, что поддается управлению моей системой. В результате я делаю свою работу по сегментам и сейчас пытаюсь объединить результаты.

У меня есть несколько списков частотности слов (~ 40 из них). Списки могут быть взяты либо через Import [], либо как переменные, созданные в Mathematica.Каждый список выглядит следующим образом и был создан с помощью команд Tally [] и Sort []:

{{"the", 42216}, {"of", 24903}, {"and", 18624}, { "n", 16850}, {"in",
16164}, {"de", 14930}, {"a", 14660}, {"to", 14175}, {"la ", 7347}, {" was ", 6030}, {" l ", 5981}, {" le ", 5735}, <<51293>>, {" скотобойня ", 1}, {"abattement", 1}, {"abattagen", 1}, {"abattage", 1}, {"abated", 1}, {"abattement", 1}, {" abaiss ", 1}, {" aback ", 1}, {" aase ", 1}, {" aaijaut ", 1}, {" aaaah ", 1}, {" aaa ", 1} }

Вот пример второго файла:

{{"the", 30419}, {"n", 20414}, {"de", 19956}, {"of", 16262}, { "and",
14488}, {"to", 12726}, {"a", 12635}, {"in", 11141}, {"la", 10739}, {{1 }} {"et", 9016}, {"les", 8675}, {"le", 7748}, <<101032>>, {"abattement", 1}, {"abattagen", 1}, {"abattage", 1}, {"abated", 1}, {"abaiss", 1}, {"abaiss", 1}, {"aback", 1}, {" aase ", 1}, {" aaijaut ", 1}, {" aaaah ", 1}, {" aaa ", 1}}

Я хочу объединить их так, чтобы freque Агрегаты данных ncy: то есть, если второй файл содержит 30 419 вхождений 'the' и присоединен к первому файлу, он должен вернуть, что есть 72 635 вхождений (и так далее, когда я прохожу через всю коллекцию).

11
задан hippietrail 18 March 2013 в 00:55
поделиться