Я пытаюсь использовать awk для сопоставления двух файлов (file1 и file2). Для каждой строки столбца в file2, которая соответствует file1, я бы хотел, чтобы команда выводила второй столбец в file1. Я посмотрел на ...
Я ищу алгоритм для эффективного поиска слов в пределах заданного расстояния редактирования в строке запроса, игнорируя при этом пробел. Например, Если слова, по которым мне нужно построить индекс: OHIO, ...
Я видел во многих ядрах и руководствах kaggle, считается, что встраивание среднего слова встраивает предложение. Но мне интересно, если это правильный подход. Так как он отбрасывает ...
Я новичок в AWK, и после игры со встроенной переменной NR я не понимаю следующий текст: CREDITS, EXPDATE, USER, GROUPS 99,01 июн 2018, sylvain, team ::: admin 52,01 дек 2018 , ...
Прямо сейчас я реализую это с разделением, частью и имплозией: $exploded = интегрируются ('', array_slice (preg_split (' / (? = [A-Z])/,''ThisIsATest'), 1));//$exploded = "Это - Тест" Более симпатичный version:...
Я недавно работал над некоторой функциональностью поиска базы данных и хотел получить некоторую информацию как средние слова на документ (например, текстовое поле в базе данных). Единственная вещь я нашел...
Я попробовал различные методы для разделения лицензии из Проекта тексты Gutenberg для использования в качестве корпуса для проекта изучения языка, но я, может казаться, не придумываю безнадзорный, надежный подход...
Существует ли библиотека / алгоритм Java с открытым исходным кодом для определения, является ли конкретный фрагмент текста вопросом или нет? Я работаю над системой ответа на вопросы, которая должна анализировать, вводится ли текст с помощью ...
Когда я задаю вопрос здесь, подсказки для вопроса, возвращенного автоматическим поиском, учитывая первое немного вопроса, но достойный процент их не дает текста, который больше является...
У меня есть регулярное выражение с обратной ссылкой. Как его использовать в сценарии bash? Например, я хочу напечатать то, что соответствует (. *) Grep -E "CONSTRAINT \` (. *) \ `FOREIGN KEY" temp.txt Если применить его к ...
У меня есть следующий список слов: name,id,3 Мне нужно заключить его в двойные кавычки, например: "name,id,3" Я попробовал sed 's/.*/\"&\"/g ' и получил: "name,id,3 Который имеет только одну двойную кавычку и...
Я работаю над постановкой задачи классификации документов. Для решения у меня уже есть список, содержащий некоторые конкретные ключевые слова из каждого класса, и мне нужно предсказать класс документа на его основе. ...
Мне нужно удалить один каталог (крайний левый) из переменных в Bash. Я нашел способы, как удалить весь путь или использовать имя каталога и другие, но он удалял весь или один компонент пути справа ...
В настоящее время я работаю с данными набора данных офицера / ключевого контакта. Я отправляю URL-адрес API Rosette (обнаруживает сущности). Данные возвращаются к разным объектам с их позициями. ...
Я занимаюсь написанием кода для докторской диссертации и начинаю использовать Scala. Мне часто приходится заниматься обработкой текстов. Я привык к компании Python, чье утверждение 'yield' чрезвычайно полезно для реализации сложных ...
У меня есть большое количество фрагментов текста, которые мне нужно сравнить между собой, чтобы проверить, похожи они или нет. Каждый кусок составляет около 10000 слов. Следовательно, я предварительно вычислю хеш ...
У меня есть переменная Bash, $word, которая иногда является словом или предложением, например. :word="тигр" Или :word="Это предложение." Как я могу создать новую переменную Bash, которая равна только первой букве...
Возможный дубликат: Как в Perl разбить строку на куски по два символа каждый? Я хотел разбить строку на массив, сгруппировав ее по 2-символьным частям: $ input = "DEADBEEF"; @ ...
У меня есть программа для обработки очень больших файлов. Теперь мне нужно показать индикатор выполнения, чтобы показать ход обработки. Программа работает на уровне слов, читает по одной строке за раз, разбивая ее на ...
Мне нужно написать функцию, которая будет переворачивать все символы строки слева направо. например: Thė quiçk ḇrown fox jumṕềᶁ ovểr thë lⱥzy ȡog. должно стать .goȡ yzⱥl ëht rểvo ᶁềṕmuj xof nworḇ ...
У меня есть файл, который выглядит так: 2011-03-21 name001 line1
2011-03-21 имя002 строка2
2011-03-21 name003 line3
2011-03-22 name002 line4
2011-03-22 name001 line5 для каждого имени, мне нужно только его последнее ...
Я хотел написать программу для задавания вопросов о погоде. Какие алгоритмы и методы я должен начать смотреть. ex :Будет ли солнечно в эти выходные в Чикаго. Я хотел узнать...
У меня есть текстовый файл, содержащий такие данные: Это просто текст
-------------------------------
Имя пользователя: SOMETHI C: [Текст]
Учетная запись: DFAG ...
Мне нужно рассчитать оценку BLEU для определения того, похожи ли два предложения или нет. Я прочитал несколько статей, которые в основном посвящены оценке BLEU для измерительной машины точность перевода. Но я ...
Я хочу добавить новую строку в существующий файл, не стирая текущую информацию об этом файле. Вкратце, вот методология, которую я использую в настоящее время: import java.io ....
Кто-нибудь может помочь мне разобраться? Это можно сделать так: Tika tika = new Tika (); tika.setMaxStringLength (10 * 1024 * 1024); Но если вы не используете Tika напрямую, вот так: ...