Лучший способ разделить строку на массив строк в C/C++ с помощью пробела в качестве разделителя

Извините, мой C/C++ не настолько хорош, но следующий существующий код похож на мусор даже мне. Это также имеет ошибку - сбои когда ул. = "07/02/2010" завершенный '\0'-. Я думаю, что вместо того, чтобы исправить ошибку, это могло бы также быть переписано. В Python это справедливо 'kas\nhjkfh kjsdjkasf'.split(). Я знаю, что это - код C-выхода, но это не может быть, который усложнил для разделения строки! При придерживании той же подписи, и не пользуясь дополнительными библиотеками, как я могу улучшиться, это - делает это коротким и сладким? Я могу сказать, что этот код пахнет, например, из-за выражения else полностью в конце.

СТРОКА, КОТОРАЯ ПЕРЕСТАЛА РАБОТАТЬ:

_tcsncpy_s(
    s.GetBuffer((int) (nIndex-nLast)),
    nIndex-nLast,
    psz+nLast,
    (size_t) (nIndex-nLast)
);

Со строкой "07/02/2010" завершенный '\0' это попытается записать 11 символов в буфер, который является только 10 символами долго.

ПОЛНАЯ ФУНКЦИЯ:

#define 

// This will return the text string as a string array
// This function is called from SetControlText to parse the
// text string into an array of CStrings that the control
// Gadgets will attempt to interpret

BOOL CLVGridDateTimeCtrl::ParseTextWithCurrentFormat(const CString& str, const CGXStyle* pOldStyle, CStringArray& strArray )
{
    // Unused:
    pOldStyle;

    // we assume that the significant segments are seperated by space

    // Please change m_strDelim to add other delimiters

    CString s;

    LPCTSTR psz = (LPCTSTR) str;

    BOOL bLastCharSpace = FALSE;
    DWORD size = str.GetLength()+1;

    // (newline will start a new row, tab delimiter will
    // move to the next column).
    // parse buffer (DBCS aware)
    for (DWORD nIndex = 0, nLast = 0; nIndex < size; nIndex += _tclen(psz+nIndex))
    {
        // check for a delimiter
        if (psz[nIndex] == _T('\0') || _tcschr(_T("\r\n"), psz[nIndex]) || _tcschr(_T(" "), psz[nIndex])
            ||!_tcscspn(&psz[nIndex], (LPCTSTR)m_strDelim))
        {
            s.ReleaseBuffer();
            s.Empty();
            // abort parsing the string if next char
            // is an end-of-string
            if (psz[nIndex] == _T('\0'))
            {
                if (psz[nIndex] == _T('\r') && psz[nIndex+1] == _T('\n'))
                    nIndex++;

                _tcsncpy_s(s.GetBuffer((int) (nIndex-nLast)),
                    nIndex-nLast,
                            psz+nLast,
                            (size_t) (nIndex-nLast));
                CString temStr = s;
                strArray.Add(temStr);
                temStr.Empty();
                break;
            }

            else if (_tcscspn(&psz[nIndex], (LPCTSTR)m_strDelim) == 0 && !bLastCharSpace)
            {
                if (psz[nIndex] == _T('\r') && psz[nIndex+1] == _T('\n'))
                    nIndex++;

                _tcsncpy_s(s.GetBuffer((int) (nIndex-nLast)),
                    nIndex-nLast,
                            psz+nLast,
                            (size_t) (nIndex-nLast));
                CString temStr = s;
                strArray.Add(temStr);
                temStr.Empty();
                bLastCharSpace = TRUE;
                // abort parsing the string if next char
                // is an end-of-string
                if (psz[nIndex+1] == _T('\0'))
                    break;

            }
            // Now, that the value has been copied to the cell,
            // let's check if we should jump to a new row.
            else if (_tcschr(_T(" "), psz[nIndex]) && !bLastCharSpace)
            {
                if (psz[nIndex] == _T('\r') && psz[nIndex+1] == _T('\n'))
                    nIndex++;

                _tcsncpy_s(s.GetBuffer((int) (nIndex-nLast)),
                    nIndex-nLast,
                            psz+nLast,
                            (size_t) (nIndex-nLast));
                CString temStr = s;
                strArray.Add(temStr);
                temStr.Empty();
                bLastCharSpace = TRUE;
                // abort parsing the string if next char
                // is an end-of-string
                if (psz[nIndex+1] == _T('\0'))
                    break;
            }

            nLast = nIndex + _tclen(psz+nIndex);


        }
        else
        {   
            // nLast = nIndex + _tclen(psz+nIndex);
            bLastCharSpace = FALSE;
        }
    }
    if (strArray.GetSize())
        return TRUE;
    else
        return FALSE;
}

Править: m_strDelim = _T(","); и эта членская переменная используется в этой функции только. Я предполагаю, что вижу точку токенизации теперь - она пытается проанализировать дату и время... ожидают, существует больше! Вот код, который вызывает эту функцию ниже. Помогите мне улучшить это также. Некоторые мои коллеги утверждают, что C# делает их не более продуктивными, чем C++. Я раньше чувствовал себя подобно идиоту для неспособности сказать то же обо мне.

// SetControlText will attempt to convert the text to a valid date first with
// the help of COleDateTime and then with the help of the Date control and the
// current format

BOOL CLVGridDateTimeCtrl::ConvertControlTextToValue(CString& str, ROWCOL nRow, ROWCOL nCol, const CGXStyle* pOldStyle)
{
    CGXStyle* pStyle = NULL;
    BOOL bSuccess = FALSE;

    if (pOldStyle == NULL)
    {
        pStyle = Grid()->CreateStyle();
        Grid()->ComposeStyleRowCol(nRow, nCol, pStyle);
        pOldStyle = pStyle;
    }

    // allow only valid input
    {
        // First do this
        CLVDateTime dt;

        if (str.IsEmpty())
        {
            ;
            // if (Grid()->IsCurrentCell(nRow, nCol))
            //  Reset();
            bSuccess = TRUE;
        }
        else if (dt.ParseDateTime(str,CLVGlobals::IsUSDateFormat()) && (DATE) dt != 0)
        {
            SetDateTime(dt);
            if (m_bDateValueAsNumber)
                str.Format(_T("%g"), (DATE) dt);
            else
                str = dt.Format();
            bSuccess = TRUE;
        }
        else
        {
            // parse the string using the current format
            CStringArray strArray;
            if (!ParseTextWithCurrentFormat(str, pOldStyle, strArray))
                return FALSE;

            UpdateNullStatus(m_TextCtrlWnd);

            SetFormat(m_TextCtrlWnd, *pOldStyle);

            int nArrIndex = 0;
            for(int i=0; i<m_TextCtrlWnd.m_gadgets.GetSize(); i++)
            {
                int val = m_TextCtrlWnd.m_gadgets[i]->GetValue();   
                // s.Empty();
                if(m_TextCtrlWnd.m_gadgets[i]->IsKindOf(RUNTIME_CLASS(SECDTNumericGadget)))
                {
                    // TRACE(_T("The value %s\n"), strArray[nArrIndex]);
                    ((CLVDTNumericGadget*)m_TextCtrlWnd.m_gadgets[i])->m_nNewValue = _ttoi(strArray[nArrIndex]);    
                    nArrIndex++;
                    if (nArrIndex>strArray.GetUpperBound())
                            break;
                }
                else if(m_TextCtrlWnd.m_gadgets[i]->IsKindOf(RUNTIME_CLASS(SECDTListGadget)) && val!=-1)
                {
                    int nIndex = ((CLVDTListGadget*)m_TextCtrlWnd.m_gadgets[i])->FindMatch(strArray[nArrIndex], ((CLVDTListGadget*)m_TextCtrlWnd.m_gadgets[i])->GetValue()+1);
                    if (nIndex!=-1)
                    {
                        // TRACE(_T("The value %s\n"), strArray[nArrIndex]);
                        ((CLVDTListGadget*)m_TextCtrlWnd.m_gadgets[i])->SetValue(nIndex);
                        nArrIndex++;
                        if (nArrIndex>strArray.GetUpperBound())
                            break;
                    }

                }

                CLVDBValue dbDate = m_TextCtrlWnd.GetDateTime();
                if (dbDate.IsNull())
                    str = _T("");
                else
                {
                    CLVDateTime dt = (CLVDateTime)dbDate;
                    if (m_bDateValueAsNumber)
                        str.Format(_T("%g"), (DATE) dt);
                    else
                        str = dt.Format();
                }
            }
            bSuccess = TRUE;
        }
    }

    if (pStyle)
        Grid()->RecycleStyle(pStyle);

    return bSuccess;
}
14
задан Hamish Grubijan 1 July 2010 в 22:59
поделиться

7 ответов

В C ++, вероятно, проще всего использовать stsringstream :

std::istringstream buffer("kas\nhjkfh kjsdjkasf");

std::vector<std::string> strings;

std::copy(std::istream_iterator<std::string>(buffer),
          std::istream_iterator<std::string>(),
          std::back_inserter(strings));

Я не пробовал придерживаться точно такой же подписи, в основном потому, что большинство из них не -стандарт, поэтому он не относится к C ++ в целом.

Другой возможностью было бы использовать Boost :: tokenizer , хотя, очевидно, это связано с другой библиотекой, поэтому я не буду пытаться описывать ее более подробно.

Я не уверен, можно ли это назвать «причудливым синтаксисом». Возможно, мне придется немного поработать над этой частью ...

Редактировать: У меня есть - вместо этого инициализируйте вектор:

std::istringstream buffer("kas\nhjkfh kjsdjkasf");

std::vector<std::string> strings(
    (std::istream_iterator<std::string>(buffer)),
    std::istream_iterator<std::string>());

"причудливая" часть заключается в том, что без дополнительных круглых скобок вокруг первого аргумента это вызовет "самый неприятный синтаксический анализ", поэтому он объявит функцию вместо определения вектора. : -)

Edit2: Что касается редактирования вопроса, кажется, почти невозможно ответить напрямую - это зависит от слишком многих типов (например, CGXStyle, CLVDateTime), которые не являются ни стандартными, ни объясненными. Я, со своей стороны, вообще не могу уследить за ним в деталях. На первый взгляд, это выглядит как довольно плохой дизайн, позволяющий пользователю вводить более или менее двусмысленные вещи, а затем пытаться разобраться в беспорядке. Лучше использовать элемент управления, который позволяет начать только однозначный ввод, и вы можете просто читать некоторые поля, содержащие дату и время напрямую.

Edit3: код для разделения, который также обрабатывает запятые как разделители, может быть выполнен следующим образом:

#include <iostream>
#include <locale>
#include <algorithm>
#include <vector>
#include <sstream>

class my_ctype : public std::ctype<char> {
public:
    mask const *get_table() { 
        // this copies the "classic" table used by <ctype.h>:
        static std::vector<std::ctype<char>::mask> 
            table(classic_table(), classic_table()+table_size);

        // Anything we want to separate tokens, we mark its spot in the table as 'space'.
        table[','] = (mask)space;

        // and return a pointer to the table:
        return &table[0];
    }
    my_ctype(size_t refs=0) : std::ctype<char>(get_table(), false, refs) { }
};

int main() { 
    // put our data in a strea:
    std::istringstream buffer("first kas\nhjkfh kjsdjk,asf\tlast");

    // Create a ctype object and tell the stream to use it for parsing tokens:
    my_ctype parser;
    buffer.imbue(std::locale(std::locale(), &parser));

    // separate the stream into tokens:
    std::vector<std::string> strings(
        (std::istream_iterator<std::string>(buffer)),
        std::istream_iterator<std::string>());

    // copy the tokes to cout so we can see what we got:
    std::copy(strings.begin(), strings.end(), 
        std::ostream_iterator<std::string>(std::cout, "\n"));
    return 0;
}
6
ответ дан 1 December 2019 в 11:59
поделиться

Библиотека String Toolkit Library (Strtk) предлагает следующее решение вашей проблемы:

#include <string>
#include <deque>
#include "strtk.hpp"
int main()
{ 
   std::string data("kas\nhjkfh kjsdjkasf");
   std::deque<std::string> str_list;
   strtk::parse(data, ", \r\n", str_list);
   return 0;
}

Дополнительные примеры можно найти Здесь

14
ответ дан 1 December 2019 в 11:59
поделиться

Лучший способ сделать это - использовать strtok. Эта ссылка должна объяснить, как ее использовать, и вы также можете использовать несколько разделителей. Очень удобная функция языка Си.

4
ответ дан 1 December 2019 в 11:59
поделиться

Парсинг строк в C/C++ редко оказывается простым делом. Метод, который вы опубликовали, выглядит так, как будто в него вовлечено довольно много "истории". Например, вы утверждаете, что хотите разделить строку на пробелы. Но сам метод, похоже, использует переменную-член m_strDelim как часть решения о разделении. Простая замена метода может привести к другим неожиданным проблемам.

Использование существующего класса токенизации например, этой библиотеки Boost может значительно упростить ситуацию.

0
ответ дан 1 December 2019 в 11:59
поделиться

Наиболее очевидным способом решения этой проблемы является использование библиотек Qt. Если вы используете KDE, они уже установлены. Класс QString имеет разделение функций-членов, которое работает как версия для Python. Например,

QString("This is a string").split(" ", QString::SkipEmptyParts)

возвращает QStringList из QString s:

["This", "is", "a", "string"]

(в синтаксисе Python). Обратите внимание, что второй аргумент является обязательным, иначе, если слова будут разделены несколькими пробелами, будет возвращено каждое отдельное слово.

В общем, с помощью библиотек Qt я обнаружил большую часть простоты Python, например. простой синтаксический анализ строк и итерация списка, с которыми можно легко справиться с помощью возможностей C ++.

1
ответ дан 1 December 2019 в 11:59
поделиться

Вы можете использовать boost :: algorithm :: split . То есть: [

std::string myString;
std::vector<std::string> splitStrings;
boost::algorithm::split(splitStrings, myString, boost::is_any_of(" \r\n"));
0
ответ дан 1 December 2019 в 11:59
поделиться

Метод лучше, чем мой другой ответ: Функция регулярного выражения TR1 . Вот небольшой учебник, который поможет вам начать работу. Этот ответ - C ++, использует регулярные выражения (что, возможно, является лучшим / самым простым способом разбить строку), и я сам недавно использовал его, поэтому я знаю, что это хороший инструмент.

0
ответ дан 1 December 2019 в 11:59
поделиться
Другие вопросы по тегам:

Похожие вопросы: