Подходит ли несериализованная таблица к 40 ГБ?
В любом случае, когда вы используете стандартный JDBC с синтаксисом ansi SQL, вы используете механизм БД, поэтому, если teradata (я не знаю teradata) содержит статистику вашего таблица, классический «select count (*) из таблицы» будет очень быстрым. Вместо этого искру загружает 100 миллионов строк в памяти с чем-то вроде «select * from table», а затем будет выполнять подсчет строк RDD. Это отличная рабочая нагрузка.