Загрузка данных из S3 для сортировки и анализа времени

Это легко. Сначала откройте файл и прочитайте каждую строку

With open(file name, ‘r’) as f:
    Line = f.readline()
    Data = Line.split(“ “)
    If “mov” is Data[0]:
        Nf = open(new file,’w’)
        Nf.write(Data[0]+” “+Data[4]
        Nf.close()

Это откроет ваш текстовый файл. Прочитайте каждую строку и найдите строки, начинающиеся с «mov», и создайте и напишите новый файл с «mov» и вашим пятым полем.

1
задан Michael 19 January 2019 в 21:02
поделиться

1 ответ

Насколько я понимаю, я бы выбрал второй вариант Elasticsearch с Logstash, загружающим данные из S3, и Kibana в качестве инструмента для исследования, поиска, сортировки и визуализации.

Лямбда-перенос данных из s3 в DynamoDB, вероятно, будет работать, но может быть менее эффективным и стоить дороже, так как вы запускаете вычислительный процесс для каждого события, в то время как нажимаете на Динамо в небольших / единичных элементах. Logstash, с другой стороны, будет читать файлы один за другим и обрабатывать их все. Это также зависит от того, как часто вы планируете загружать свежие данные в S3, но оба решения должны подойти.

Тот факт, что временные метки не упорядочены в файлах, не создает проблем в эластичном поиске, и вы можете индексировать их в любом порядке, вы все равно сможете визуализировать и искать их в кибане в отсортированном по времени порядке. .

0
ответ дан ziv 19 January 2019 в 21:02
поделиться
Другие вопросы по тегам:

Похожие вопросы: