Вопросы Теги

Код для определения языка программирования в текстовом файле [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы.

Хотите улучшить этот вопрос? Обновите вопрос, чтобы он фокусировался только на одной проблеме, отредактировав этот пост .

Закрыто в прошлом году .

i ' m должен написать код, который при вводе текстового файла (исходного кода) будет выводить, какой это язык программирования. Это самое основное определение проблемы. Далее следуют другие ограничения:

Я должен написать это на C ++.
Следует распознавать широкий спектр языков - html, php, perl, ruby, C, C ++, Java, C # ...
Количество ложных положительных результатов (неправильного распознавания) должно быть мало - лучше вывести «неизвестно», чем неправильный результат. (он будет в списке вероятностей, например, как unknown: 100%, см. ниже)
Вывод должен быть списком вероятностей для каждого языка, который знает код, поэтому, если он знает C, Java и Perl, вывод должно быть, например: C: 70%, Java: 50%, Perl: 30% (обратите внимание, что нет необходимости суммировать вероятности до 100%)
У него должно быть хорошее соотношение точности / скорости (скорость немного более предпочтительна)

Было бы очень хорошо, если бы код может быть написан таким образом, чтобы добавление новых языков для распознавания было довольно простым и включало просто добавление «настроек / данных» для этого конкретного языка. Я могу использовать все, что доступно - эвристику, нейросеть, черную магию. Что-нибудь. Мне даже разрешено использовать существующие решения, но: решение должно быть бесплатным, с открытым исходным кодом и допускать коммерческое использование. Он должен иметь форму легко интегрируемого исходного кода или статической библиотеки - без DLL. Однако я предпочитаю писать свой собственный код или просто использовать фрагменты другого решения, мне надоело интегрировать код других. Последнее примечание: возможно, некоторые из вас предложат FANN (библиотека быстрой искусственной нейронной сети) - это единственное, что я не могу использовать, так как это то, что мы УЖЕ используем и хотим заменить.

Теперь вопрос: как бы вы справиться с такой задачей, что бы вы сделали? Есть предложения, как реализовать это или что использовать?

РЕДАКТИРОВАТЬ: на основе комментариев и ответов, я должен подчеркнуть некоторые вещи, которые я забыл: скорость очень важна, так как это приведет к получению тысяч файлов и должен ответить быстро, поэтому просмотр тысячи файлов должен дать ответы для всех не более чем за несколько секунд (размер файлов, конечно, будет небольшим, несколько килобайт каждый). Так что попытка скомпилировать каждую из них исключена. Дело в том, что мне действительно нужны вероятности для каждого языка, поэтому я скорее хочу знать, что файл, скорее всего, будет на C или C ++, но вероятность того, что это сценарий bash, очень мала. Из-за обфускации кода, комментариев и т. Д. Я думаю, что поиск 100% точного кода - плохая идея и фактически не является целью этого.

16

c++ algorithm text-processing language-recognition

задан PeterK 30 August 2010 в 12:39

поделиться

7 ответов

У вас возникла проблема с классификацией документов. Я предлагаю вам прочитать о наивных байесовских классификаторах и машинах опорных векторов. В статьях есть ссылки на библиотеки, реализующие эти алгоритмы и многие из них имеют C++ интерфейсы.

11

ответ дан 30 November 2019 в 21:19

поделиться

Так как список языков, как известно заранее вы знаете синтаксис / грамматику для каждого из них. Следовательно, вы можете, в качестве примера, чтобы написать функцию, чтобы извлечь зарезервированные слова из предоставленного исходного кода.

Построить бинарное дерево, которое будет иметь все зарезервированные слова для всех языков, которые вы поддерживаете. А потом просто ходить, что дерево с извлеченными зарезервированными словами из предыдущего шага.

Если в конце концов у вас есть только одна возможность слева - это ваш язык. Если вы дойдете до конца программы слишком рано - тогда (откуда вы остановились) - вы можете проанализировать свою позицию на дереве на работу, какие языки по-прежнему possibitilies.

1

ответ дан 30 November 2019 в 21:19

поделиться

Одно простое решение, которое я мог придумать, состоит в том, что вы можете просто определить ключевые слова, используемые в разных языках. Каждое идентифицированное слово будет иметь оценку +1. Затем вычислите отношение = идентифицированные_слова / общее_слово. Язык, набравший наибольшее количество баллов, становится победителем. Конечно, есть проблемы, такие как использование комментариев и т.д. Но я думаю, что это очень простое решение, которое должно работать в большинстве случаев.

7

ответ дан 30 November 2019 в 21:19

поделиться

Возможно, вы можете попытаться подумать о различиях языков и смоделировать их с помощью двоичного дерева, например «найдена ли функция X?», если да, действуйте в одном направлении, если нет, действуйте в другом направлении. .

Эффективно построив это дерево поиска, вы могли бы получить довольно быстрый код.

0

ответ дан 30 November 2019 в 21:19

поделиться

Посмотрите nedit. Он имеет систему распознавания подсветки синтаксиса, расположенную в разделе Подсветка синтаксиса->Шаблоны распознавания. Вы можете просмотреть примеры паттернов распознавания здесь или скачать программу и ознакомиться со стандартными.

Вот описание системы подсветки.

1

ответ дан 30 November 2019 в 21:19

поделиться

Если вы знаете, что исходные файлы будут соответствовать стандартам, расширения файлов будут уникальными практически для каждого языка. Я предполагаю, что вы уже рассмотрели это и исключили это на основании какой-то другой информации.

Если вы не можете использовать расширения файлов, лучше всего будет найти вещи, которые наиболее различаются между языками, и использовать их для определения типа файла. Например, синтаксис операторов цикла for не будет сильно различаться между языками, но операторы package include должны. Если у вас есть файл, содержащий java.util.*, вы знаете, что это файл java.

2

ответ дан 30 November 2019 в 21:19

поделиться

Извините, но если вам нужно разобрать тысячи файлов, то лучше всего смотреть на расширение файла. Не переусердствуйте с простой проблемой и не ставьте обременительные требования к простой задаче.

Похоже, у вас есть тысячи файлов с исходным кодом, и вы понятия не имеете, на каком языке программирования они были написаны. В какой среде программирования вы работаете? (Исключая возможность искусственного требования к домашнему заданию). Я имею в виду одну из основ разработки программного обеспечения, на которую я всегда могу положиться, это то, что файлы кода С++ имеют расширение .cpp, что файлы кода Java имеют расширение .java, что файлы кода c иметь расширение .c и т. д. Ваша компания играет быстро и свободно с этими стандартами? Если бы это было так, я бы очень волновался.

3

ответ дан 30 November 2019 в 21:19

поделиться

Другие вопросы по тегам:

c++ algorithm text-processing language-recognition

Похожие вопросы: