1
ответ

Использование массивов в awk для сопоставления строк

Я пытаюсь использовать awk для сопоставления двух файлов (file1 и file2). Для каждой строки столбца в file2, которая соответствует file1, я бы хотел, чтобы команда выводила второй столбец в file1. Я посмотрел на ...
вопрос задан: 27 March 2019 14:36
1
ответ

Поиск слов в длинной строке на расстоянии редактирования без учета пробелов

Я ищу алгоритм для эффективного поиска слов в пределах заданного расстояния редактирования в строке запроса, игнорируя при этом пробел. Например, Если слова, по которым мне нужно построить индекс: OHIO, ...
вопрос задан: 21 February 2019 04:13
1
ответ

Лучший способ объединить вложение Word, чтобы получить вложение предложения

Я видел во многих ядрах и руководствах kaggle, считается, что встраивание среднего слова встраивает предложение. Но мне интересно, если это правильный подход. Так как он отбрасывает ...
вопрос задан: 20 January 2019 09:23
1
ответ

Разница в AWK при использовании NOR с печатью и без

Я новичок в AWK, и после игры со встроенной переменной NR я не понимаю следующий текст: CREDITS, EXPDATE, USER, GROUPS 99,01 июн 2018, sylvain, team ::: admin 52,01 дек 2018 , ...
вопрос задан: 19 January 2019 10:27
1
ответ

Взрыв UpperCasedCamelCase к верхнему Camel-регистру в корпусе в PHP

Прямо сейчас я реализую это с разделением, частью и имплозией: $exploded = интегрируются ('', array_slice (preg_split (' / (? = [A-Z])/,''ThisIsATest'), 1));//$exploded = "Это - Тест" Более симпатичный version:...
вопрос задан: 30 June 2012 04:43
1
ответ

Используя SQL для определения статистики для подсчета количества слов текстового поля

Я недавно работал над некоторой функциональностью поиска базы данных и хотел получить некоторую информацию как средние слова на документ (например, текстовое поле в базе данных). Единственная вещь я нашел...
вопрос задан: 2 November 2011 21:29
1
ответ

Как разделить заголовки/нижние колонтитулы из Проекта тексты Gutenberg?

Я попробовал различные методы для разделения лицензии из Проекта тексты Gutenberg для использования в качестве корпуса для проекта изучения языка, но я, может казаться, не придумываю безнадзорный, надежный подход...
вопрос задан: 14 April 2011 14:54
1
ответ

Как узнать, является ли предложение вопросом (вопросительным)?

Существует ли библиотека / алгоритм Java с открытым исходным кодом для определения, является ли конкретный фрагмент текста вопросом или нет? Я работаю над системой ответа на вопросы, которая должна анализировать, вводится ли текст с помощью ...
вопрос задан: 9 December 2010 16:04
1
ответ

Учитывая документ, выберите соответствующий отрывок

Когда я задаю вопрос здесь, подсказки для вопроса, возвращенного автоматическим поиском, учитывая первое немного вопроса, но достойный процент их не дает текста, который больше является...
вопрос задан: 14 May 2010 00:40
0
ответов

Как использовать обратную ссылку в Grep

У меня есть регулярное выражение с обратной ссылкой. Как его использовать в сценарии bash? Например, я хочу напечатать то, что соответствует (. *) Grep -E "CONSTRAINT \` (. *) \ `FOREIGN KEY" temp.txt Если применить его к ...
вопрос задан: 23 September 2019 07:09
0
ответов

Как добавить двойные кавычки к строке с помощью SED или AWK?

У меня есть следующий список слов: name,id,3 Мне нужно заключить его в двойные кавычки, например: "name,id,3" Я попробовал sed 's/.*/\"&\"/g ' и получил: "name,id,3 Который имеет только одну двойную кавычку и...
вопрос задан: 13 September 2019 22:45
0
ответов

Выбрать случайные строки из файла [дубликат]

В сценарии Bash я хочу выбрать N случайных строк из входного файла и вывести его в другой файл. Как это можно сделать?
вопрос задан: 10 April 2019 19:24
0
ответов

Разработка классификатора для классификации документов на основе соответствия конкретных ключевых слов

Я работаю над постановкой задачи классификации документов. Для решения у меня уже есть список, содержащий некоторые конкретные ключевые слова из каждого класса, и мне нужно предсказать класс документа на его основе. ...
вопрос задан: 11 March 2019 15:01
0
ответов

Удалить компоненты первого каталога из пути к файлу

Мне нужно удалить один каталог (крайний левый) из переменных в Bash. Я нашел способы, как удалить весь путь или использовать имя каталога и другие, но он удалял весь или один компонент пути справа ...
вопрос задан: 19 July 2018 21:59
0
ответов

R-неструктурированные результаты API Rosette для структурирования с хорошей точностью

В настоящее время я работаю с данными набора данных офицера / ключевого контакта. Я отправляю URL-адрес API Rosette (обнаруживает сущности). Данные возвращаются к разным объектам с их позициями. ...
вопрос задан: 13 July 2018 09:26
0
ответов

Какой предпочитаемый способ реализации "доходности" в Scala?

Я занимаюсь написанием кода для докторской диссертации и начинаю использовать Scala. Мне часто приходится заниматься обработкой текстов. Я привык к компании Python, чье утверждение 'yield' чрезвычайно полезно для реализации сложных ...
вопрос задан: 8 September 2017 13:43
0
ответов

Какой алгоритм хеширования следует использовать для сравнения фрагментов текста?

У меня есть большое количество фрагментов текста, которые мне нужно сравнить между собой, чтобы проверить, похожи они или нет. Каждый кусок составляет около 10000 слов. Следовательно, я предварительно вычислю хеш ...
вопрос задан: 14 August 2017 10:27
0
ответов

Как получить первую букву в переменной Bash?

У меня есть переменная Bash, $word, которая иногда является словом или предложением, например. :word="тигр" Или :word="Это предложение." Как я могу создать новую переменную Bash, которая равна только первой букве...
вопрос задан: 8 July 2017 16:46
0
ответов

perl - разделить строку на группы из 2 символов [дубликат]

Возможный дубликат: Как в Perl разбить строку на куски по два символа каждый? Я хотел разбить строку на массив, сгруппировав ее по 2-символьным частям: $ input = "DEADBEEF"; @ ...
вопрос задан: 23 May 2017 12:26
0
ответов

Оценка количества слов в файле без чтения полного файл

У меня есть программа для обработки очень больших файлов. Теперь мне нужно показать индикатор выполнения, чтобы показать ход обработки. Программа работает на уровне слов, читает по одной строке за раз, разбивая ее на ...
вопрос задан: 23 May 2017 12:11
0
ответов

Как перевернуть текст по горизонтали?

Мне нужно написать функцию, которая будет переворачивать все символы строки слева направо. например: Thė quiçk ḇrown fox jumṕềᶁ ovểr thë lⱥzy ȡog. должно стать .goȡ yzⱥl ëht rểvo ᶁềṕmuj xof nworḇ ...
вопрос задан: 23 May 2017 11:59
0
ответов

Удалите частично повторяющиеся строки по столбцам и оставьте последнюю

У меня есть файл, который выглядит так: 2011-03-21 name001 line1 2011-03-21 имя002 строка2 2011-03-21 name003 line3 2011-03-22 name002 line4 2011-03-22 name001 line5 для каждого имени, мне нужно только его последнее ...
вопрос задан: 19 April 2017 01:45
0
ответов

Как найти текстовые файлы, не содержащие текста в Linux?

Как найти файлы, не содержащие текста в Linux? В основном я ищу обратное к следующей находке. -принт | xargs grep -iL "somestring"
вопрос задан: 2 April 2017 15:24
0
ответов

Как преобразовать многострочный текст в одну строку?

Я пытаюсь превратить текстовый файл со сгенерированным ключом в одну строку. пример: <----- клавиша start -----> lkdjasdjskdjaskdjasdkj skdhfjlkdfjlkdsfjsdlfk kldshfjlsdhjfksdhfksdj jdhsfkjsdhfksdjfhskdfh ...
вопрос задан: 26 February 2017 13:13
0
ответов

Как выполнить задачу НЛП для распознавания намерений и слотов

Я хотел написать программу для задавания вопросов о погоде. Какие алгоритмы и методы я должен начать смотреть. ex :Будет ли солнечно в эти выходные в Чикаго. Я хотел узнать...
вопрос задан: 14 April 2016 08:23
0
ответов

Как извлечь данные из текстового файла с помощью R или PowerShell?

У меня есть текстовый файл, содержащий такие данные: Это просто текст ------------------------------- Имя пользователя: SOMETHI C: [Текст] Учетная запись: DFAG ...
вопрос задан: 24 September 2015 03:34
0
ответов

Реализация оценки BLEU для обнаружения сходства предложений

Мне нужно рассчитать оценку BLEU для определения того, похожи ли два предложения или нет. Я прочитал несколько статей, которые в основном посвящены оценке BLEU для измерительной машины точность перевода. Но я ...
вопрос задан: 6 March 2015 15:36
0
ответов

Как добавить новую строку текста в существующий файл на Java? [дубликат]

Я хочу добавить новую строку в существующий файл, не стирая текущую информацию об этом файле. Вкратце, вот методология, которую я использую в настоящее время: import java.io ....
вопрос задан: 5 December 2014 18:35
0
ответов

Влияние стемминга на частоту термина?

Как термин частоты (TF )и обратная частота документа (IDF )затронуты удалением стоп-слова -и выделением корней? Спасибо!
вопрос задан: 11 March 2014 18:36
0
ответов

Apache Tika и ограничение количества символов при разборе документов

Кто-нибудь может помочь мне разобраться? Это можно сделать так: Tika tika = new Tika (); tika.setMaxStringLength (10 * 1024 * 1024); Но если вы не используете Tika напрямую, вот так: ...
вопрос задан: 6 November 2012 21:51