Чтение данных из txt-файла с использованием Python [duplicate]

Question

Чтение данных из txt-файла с использованием Python [duplicate]

В C # это простой способ использовать System.Diagnostics для работы. How!?

В принципе, каждая командная команда является файлом .exe, поэтому вы можете запустить ее в отдельном процессе.

Некоторое число:

   использование System.Diagnostics;  static void Main () {Process batch;  batch = Process.Start ("ping.exe", "localhost");  batch.WaitForExit ();  batch.Close ();  batch = Process.Start ("choice.exe", "");  batch.WaitForExit ();  batch.Close ();  batch = Process.Start ("ping.exe", "localhost -n 10");  batch.WaitForExit ();  batch.Close ();  }

Если вы не хотите запускать каждую команду в отдельном процессе, решение выполняется с простым перенаправлением потока.

  ProcessStartInfo startInfo = new ProcessStartInfo  ();  startInfo.FileName = @ "cmd.exe";  // Укажите имя exe.  startInfo.UseShellExecute = false;  startInfo.ErrorDialog = false;  startInfo.RedirectStandardInput = true;  // // Запустите процесс.  // Process process = Process.Start (startInfo);  string [] batchFile = {"ping localhost", "ping google.com -n 10", "exit"};  int cmdIndex = 0;  while (! process.HasExited) {if (process.Threads.Count == 1 & amp; cmdIndex & lt; batchFile.Length) {process.StandardInput.WriteLine (batchFile [cmdIndex ++]);  }}

277

python

задан Anderson Green 23 August 2013 в 18:04

14 ответов

Это более чем немного поздно, но вы также можете расширить выражение регулярного выражения для учета научной нотации.

import re

# Format is [(<string>, <expected output>), ...]
ss = [("apple-12.34 ba33na fanc-14.23e-2yapple+45e5+67.56E+3",
       ['-12.34', '33', '-14.23e-2', '+45e5', '+67.56E+3']),
      ('hello X42 I\'m a Y-32.35 string Z30',
       ['42', '-32.35', '30']),
      ('he33llo 42 I\'m a 32 string -30', 
       ['33', '42', '32', '-30']),
      ('h3110 23 cat 444.4 rabbit 11 2 dog', 
       ['3110', '23', '444.4', '11', '2']),
      ('hello 12 hi 89', 
       ['12', '89']),
      ('4', 
       ['4']),
      ('I like 74,600 commas not,500', 
       ['74,600', '500']),
      ('I like bad math 1+2=.001', 
       ['1', '+2', '.001'])]

for s, r in ss:
    rr = re.findall("[-+]?[.]?[\d]+(?:,\d\d\d)*[\.]?\d*(?:[eE][-+]?\d+)?", s)
    if rr == r:
        print('GOOD')
    else:
        print('WRONG', rr, 'should be', r)

Дает все хорошее!

Кроме того, вы можете посмотрите на встроенное регулярное выражение AWS Glue

70

ответ дан aidan.plenert.macdonald 17 August 2018 в 12:15

1

Поскольку это единственный ответ, который кому-то нравится, вот как это сделать с помощью Scientific notation & quot; [- +]? \ D + [\.]? \ D * [Ee]? \ D * ". Или некоторые вариации. Повеселись! – aidan.plenert.macdonald 6 November 2015 в 16:12
2

Найти проблему с простейшим случаем, например, s = "4" не возвращает совпадений. Можно ли отредактировать, чтобы позаботиться об этом? – batFINGER 10 October 2016 в 13:03
3

@balFINGER Я исправил это. – aidan.plenert.macdonald 10 October 2016 в 17:23
4

хорошо, но он не обрабатывает запятые (например, 74 600) – yekta 11 October 2016 в 14:54
5

Ах, да, очевидно [-+]?[.]?[\d]+(?:,\d\d\d)*[\.]?\d*(?:[eE][-+]?\d+)? - настолько глупо от меня ... как я мог не думать об этом? – Przemek D 4 October 2017 в 11:52

Лучший вариант, который я нашел, ниже. Он будет извлекать число и может устранить любой тип char.

def extract_nbr(input_str):
    if input_str is None or input_str == '':
        return 0

    out_number = ''
    for ele in input_str:
        if ele.isdigit():
            out_number += ele
    return float(out_number)

0

ответ дан Alex M 17 August 2018 в 12:15

# extract numbers from garbage string:
s = '12//n,_@#$%3.14kjlw0xdadfackvj1.6e-19&*ghn334'
newstr = ''.join((ch if ch in '0123456789.-e' else ' ') for ch in s)
listOfNumbers = [float(i) for i in newstr.split()]
print(listOfNumbers)
[12.0, 3.14, 0.0, 1.6e-19, 334.0]

4

ответ дан AndreiS 17 August 2018 в 12:15

1

Добро пожаловать в SO и спасибо за отправку ответа. Всегда полезно добавить дополнительные комментарии к вашему ответу и почему он решает проблему, а не просто отправлять фрагмент кода. – sebs 29 March 2018 в 13:48
2

не работал в моем случае. не сильно отличается от ответа выше – Anthony 6 July 2018 в 03:43

Я бы использовал regexp:

>>> import re
>>> re.findall(r'\d+', 'hello 42 I\'m a 32 string 30')
['42', '32', '30']

Это также соответствует 42 из bla42bla. Если вам нужны только числа, ограниченные границами слов (пробел, период, запятая), вы можете использовать \ b:

>>> re.findall(r'\b\d+\b', 'he33llo 42 I\'m a 32 string 30')
['42', '32', '30']

. В итоге список строк вместо списка строк:

>>> [int(s) for s in re.findall(r'\b\d+\b', 'he33llo 42 I\'m a 32 string 30')]
[42, 32, 30]

307

ответ дан ArtOfWarfare 17 August 2018 в 12:15

1

... а затем отобразите int над ним, и все готово. +1 особенно для последней части. Я бы предложил исходные строки (r'\b\d+\b' == '\\b\\d+\\b'). – user 27 November 2010 в 01:06
2

Его можно поместить в список с генератором, например: int_list = [int(s) for s in re.findall('\\d+', 'hello 12 hi 89')] – GreenMatt 27 November 2010 в 01:19
3

@GreenMatt: это технически понимание списка (а не генератор), но я бы согласился с тем, что понимание / генераторы более Pythonic, чем map. – Seth Johnson 27 November 2010 в 02:23
4

@Seth Johnson: Ой! Вы правы, я ошибся в том, что было, по-видимому, затуманенным настроением. :-( Спасибо за исправление! – GreenMatt 28 November 2010 в 15:57
5

Мне нравится этот ответ лучше всего: простой и надежный – Quetzalcoatl 6 April 2015 в 00:52

Что делать, если у вас есть пара этих строк в текстовом файле, и вы хотите сохранить их в каждой строке?

-2

ответ дан Hosein 17 August 2018 в 12:15

1

Это не дает ответа на вопрос. Когда у вас будет достаточно репутации , вы сможете прокомментировать любую запись ; вместо этого предоставляют ответы, которые не требуют разъяснений у айзера . - Из обзора – shoover 13 July 2018 в 20:13

Я предполагаю, что вы хотите, чтобы поплавки не были целыми, поэтому я бы сделал что-то вроде этого:

l = []
for t in s.split():
    try:
        l.append(float(t))
    except ValueError:
        pass

Обратите внимание, что некоторые другие решения, размещенные здесь, не работают с отрицательными номерами:

>>> re.findall(r'\b\d+\b', 'he33llo 42 I\'m a 32 string -30')
['42', '32', '30']

>>> '-3'.isdigit()
False

55

ответ дан jmnas 17 August 2018 в 12:15

1

Это находит положительные и отрицательные поплавки и целые числа. Для только положительных и отрицательных целых чисел измените float на int. – Hugo 2 June 2015 в 12:34
2

Для отрицательных чисел: re.findall("[-\d]+", "1 -2") – ytpillai 15 September 2015 в 19:03
3

Не имеет значения, если мы пишем continue вместо pass в цикле? – D. Jones 15 August 2016 в 10:48
4

Это захватывает больше, чем просто положительные целые числа, но использование split () будет пропускать числа, имеющие символы валюты, предшествующие первой цифре, без пробела, что является общим в финансовых документах – Marc Maxson 2 June 2017 в 13:12
5

Не работает для float, у которых нет места с другими символами, например: «4.5 k вещей» будет работать, «4.5k вещей» не будет. – Jay D. 21 June 2018 в 18:01

Поскольку ни один из них не занимался финансовыми цифрами реального мира в документах Excel и Word, которые мне нужно было найти, вот моя вариация. Он обрабатывает ints, float, отрицательные числа, номера валют (потому что он не отвечает на split), и имеет возможность отбрасывать десятичную часть и просто возвращать ints или возвращать все.

Он также обрабатывает систему чисел индийских лаков, где запятые появляются нерегулярно, а не каждые 3 числа друг от друга.

Он не обрабатывает научную нотацию или отрицательные числа, помещенные в круглые скобки в бюджетах - появится положительны.

Он также не отображает даты. Есть лучшие способы поиска дат в строках.

import re
def find_numbers(string, ints=True):            
    numexp = re.compile(r'[-]?\d[\d,]*[\.]?[\d{2}]*') #optional - in front
    numbers = numexp.findall(string)    
    numbers = [x.replace(',','') for x in numbers]
    if ints is True:
        return [int(x.replace(',','').split('.')[0]) for x in numbers]            
    else:
        return numbers

2

ответ дан Marc Maxson 17 August 2018 в 12:15

Этот ответ также содержит случай, когда число плавает в строке

def get_first_nbr_from_str(input_str):
    '''
    :param input_str: strings that contains digit and words
    :return: the number extracted from the input_str
    demo:
    'ab324.23.123xyz': 324.23
    '.5abc44': 0.5
    '''
    if not input_str and not isinstance(input_str, str):
        return 0
    out_number = ''
    for ele in input_str:
        if (ele == '.' and '.' not in out_number) or ele.isdigit():
            out_number += ele
        elif out_number:
            break
    return float(out_number)

5

ответ дан Menglong Li 17 August 2018 в 12:15

Я удивлен, увидев, что никто еще не упомянул об использовании itertools.groupby в качестве альтернативы для достижения этого.

Вы можете использовать itertools.groupby() вместе с str.isdigit() для извлечения чисел из строки как:

from itertools import groupby
my_str = "hello 12 hi 89"

l = [int(''.join(i)) for is_digit, i in groupby(my_str, str.isdigit) if is_digit]

Величина, удерживаемая l, будет:

[12, 89]

PS: Это просто для иллюстрации, чтобы показать, что в качестве альтернативы мы могли бы также использовать groupby для достижения этого. Но это не рекомендуемое решение. Если вы хотите достичь этого, вы должны использовать принятый ответ fm на основе g3] на основе использования списка с параметром str.isdigit в качестве фильтра.

5

ответ дан Moinuddin Quadri 17 August 2018 в 12:15

Если вы знаете, что в строке будет только одно число, то есть «привет 12 привет», вы можете попробовать фильтр.

Например:

In [1]: int(filter(str.isdigit, '200 grams'))
Out[1]: 200
In [2]: int(filter(str.isdigit, 'Counters: 55'))
Out[2]: 55
In [3]: int(filter(str.isdigit, 'more than 23 times'))
Out[3]: 23

Но будьте осторожно !!! :

In [4]: int(filter(str.isdigit, '200 grams 5'))
Out[4]: 2005

34

ответ дан Rahul K P 17 August 2018 в 12:15

1

В Python 3.6.3 я получил TypeError: int() argument must be a string, a bytes-like object or a number, not 'filter' - исправил его, используя int("".join(filter(str.isdigit, '200 grams'))) – Kent Munthe Caspersen 9 April 2018 в 08:56

Я искал решение для удаления строковых масок, в частности из бразильских телефонов, этот пост не ответил, но вдохновил меня. Это мое решение:

>>> phone_number = '+55(11)8715-9877'
>>> ''.join([n for n in phone_number if n.isdigit()])
'551187159877'

0

ответ дан Sidon 17 August 2018 в 12:15

Использование Regex ниже - это путь

lines = "hello 12 hi 89"
import re
output = []
line = lines.split()
for word in line:
        match = re.search(r'\d+.?\d*', word)
        if match:
            output.append(float(match.group()))
print (output)

0

ответ дан user1464878 17 August 2018 в 12:15

@jmnas, мне понравился ваш ответ, но он не нашел поплавков. Я работаю над скриптом для анализа кода, идущего на станцию с ЧПУ, и мне нужно найти как размеры X, так и Y, которые могут быть целыми числами или плавать, поэтому я адаптировал ваш код к следующему. Это находит int, float с положительными и отрицательными vals. Все еще не находит шестнадцатеричные форматированные значения, но вы можете добавить «x» и «A» через «F» в кортеж num_char, и я думаю, что он будет анализировать такие вещи, как «0x23AC».

s = 'hello X42 I\'m a Y-32.35 string Z30'
xy = ("X", "Y")
num_char = (".", "+", "-")

l = []

tokens = s.split()
for token in tokens:

    if token.startswith(xy):
        num = ""
        for char in token:
            # print(char)
            if char.isdigit() or (char in num_char):
                num = num + char

        try:
            l.append(float(num))
        except ValueError:
            pass

print(l)

1

ответ дан ZacSketches 17 August 2018 в 12:15

Другие вопросы по тегам:

python

Похожие вопросы:

Поскольку это единственный ответ, который кому-то нравится, вот как это сделать с помощью Scientific notation & quot; [- +]? \ D + [\.]? \ D * [Ee]? \ D * ". Или некоторые вариации. Повеселись! — aidan.plenert.macdonald, 6 November 2015 в 16:12
Найти проблему с простейшим случаем, например, s = "4" не возвращает совпадений. Можно ли отредактировать, чтобы позаботиться об этом? — batFINGER, 10 October 2016 в 13:03
хорошо, но он не обрабатывает запятые (например, 74 600) — yekta, 11 October 2016 в 14:54
Ах, да, очевидно [-+]?[.]?[\d]+(?:,\d\d\d)*[\.]?\d*(?:[eE][-+]?\d+)? - настолько глупо от меня ... как я мог не думать об этом? — Przemek D, 4 October 2017 в 11:52
Добро пожаловать в SO и спасибо за отправку ответа. Всегда полезно добавить дополнительные комментарии к вашему ответу и почему он решает проблему, а не просто отправлять фрагмент кода. — sebs, 29 March 2018 в 13:48
не работал в моем случае. не сильно отличается от ответа выше — Anthony, 6 July 2018 в 03:43
... а затем отобразите int над ним, и все готово. +1 особенно для последней части. Я бы предложил исходные строки (r'\b\d+\b' == '\\b\\d+\\b'). — user, 27 November 2010 в 01:06
Его можно поместить в список с генератором, например: int_list = [int(s) for s in re.findall('\\d+', 'hello 12 hi 89')] — GreenMatt, 27 November 2010 в 01:19
@GreenMatt: это технически понимание списка (а не генератор), но я бы согласился с тем, что понимание / генераторы более Pythonic, чем map. — Seth Johnson, 27 November 2010 в 02:23
@Seth Johnson: Ой! Вы правы, я ошибся в том, что было, по-видимому, затуманенным настроением. :-( Спасибо за исправление! — GreenMatt, 28 November 2010 в 15:57
Мне нравится этот ответ лучше всего: простой и надежный — Quetzalcoatl, 6 April 2015 в 00:52
Это не дает ответа на вопрос. Когда у вас будет достаточно репутации , вы сможете прокомментировать любую запись ; вместо этого предоставляют ответы, которые не требуют разъяснений у айзера . - Из обзора — shoover, 13 July 2018 в 20:13
Это находит положительные и отрицательные поплавки и целые числа. Для только положительных и отрицательных целых чисел измените float на int. — Hugo, 2 June 2015 в 12:34
Для отрицательных чисел: re.findall("[-\d]+", "1 -2") — ytpillai, 15 September 2015 в 19:03
Не имеет значения, если мы пишем continue вместо pass в цикле? — D. Jones, 15 August 2016 в 10:48
Это захватывает больше, чем просто положительные целые числа, но использование split () будет пропускать числа, имеющие символы валюты, предшествующие первой цифре, без пробела, что является общим в финансовых документах — Marc Maxson, 2 June 2017 в 13:12
Не работает для float, у которых нет места с другими символами, например: «4.5 k вещей» будет работать, «4.5k вещей» не будет. — Jay D., 21 June 2018 в 18:01
В Python 3.6.3 я получил TypeError: int() argument must be a string, a bytes-like object or a number, not 'filter' - исправил его, используя int("".join(filter(str.isdigit, '200 grams'))) — Kent Munthe Caspersen, 9 April 2018 в 08:56

score 309 · Accepted Answer

Если вы хотите извлечь только положительные целые числа, попробуйте следующее:

>>> str = "h3110 23 cat 444.4 rabbit 11 2 dog"
>>> [int(s) for s in str.split() if s.isdigit()]
[23, 11, 2]

Я бы сказал, что это лучше, чем пример регулярного выражения по трем причинам. Во-первых, вам не нужен другой модуль; во-вторых, это более читаемо, потому что вам не нужно разбирать мини-язык регулярных выражений; и, в-третьих, он быстрее (и, скорее всего, более pythonic):

python -m timeit -s "str = 'h3110 23 cat 444.4 rabbit 11 2 dog' * 1000" "[s for s in str.split() if s.isdigit()]"
100 loops, best of 3: 2.84 msec per loop

python -m timeit -s "import re" "str = 'h3110 23 cat 444.4 rabbit 11 2 dog' * 1000" "re.findall('\\b\\d+\\b', str)"
100 loops, best of 3: 5.66 msec per loop

Это не будет распознавать поплавки, отрицательные целые числа или целые числа в шестнадцатеричном формате. Если вы не можете принять эти ограничения, ответ slim ниже выполнит трюк.

309

ответ дан Community 17 August 2018 в 12:15

1

Очиститель: [int(s) for s in str.split() if s.isdigit()] == & gt; [23, 11, 2] – Chris Morgan 27 November 2010 в 02:48
2

это не удастся для случая, подобного «h3110 23 кошка 444,4 собака кролика 11-2». – sharafjaffri 4 December 2013 в 10:15
3

В нормативном случае используется re. Это общий и мощный инструмент (поэтому вы узнаете что-то очень полезное). Скорость немного не важна при анализе журнала (это не какой-то интенсивный численный решатель), модуль re находится в стандартной библиотеке Python, и это не повредит загрузке. – Ioannis Filippidis 22 April 2014 в 08:27
4

У меня были такие строки, как mumblejumble45mumblejumble, в которых я знал, что есть только один номер. Решение просто int(filter(str.isdigit, your_string)). – Jonas Lindeløv 20 August 2015 в 09:57
5

int(filter(...)) поднимет TypeError: int() argument must be a string... для Python 3.5, поэтому вы можете использовать обновленную версию: int(''.join(filter(str.isdigit, your_string))) для извлечения всех цифр в одно целое. – Mark Mishyn 21 March 2017 в 08:51