Как лучше обнаруживать клонированный код на разных языках: Embeddings или LLMs?

 Embeddings or LLMs: What’s Best for Detecting Code Clones Across Languages?

“`html

Кросс-языковое клонирование кода: важность, методы и результаты

Кросс-языковое клонирование кода становится все более важной и сложной задачей в современной разработке программного обеспечения из-за возрастающей сложности проектов, в которых typically используются множество языков программирования.

Недавние успехи искусственного интеллекта и машинного обучения привели к значительному прогрессу в решении многих задач вычислений, особенно с появлением больших языковых моделей (LLM). Благодаря своим уникальным навыкам обработки естественного языка, LLM привлекает внимание своим потенциальным использованием в задачах, связанных с кодом, таких как обнаружение клонов кода.

Исследование в области кросс-языкового клонирования кода

Команда исследователей из Университета Люксембурга пересмотрела проблему кросс-языкового клонирования кода и изучила эффективность как LLM, так и предварительно обученных моделей векторных вложений в этой области.

В рамках исследования были оценены способности четырех различных LLM в сочетании с восемью уникальными подсказками, предназначенными для поддержки обнаружения кросс-языковых клонов кода. Оценилась также полезность предварительно обученной модели вложений, производящей векторные представления фрагментов кода.

Результаты исследования показали, что модели вложений, представляющие фрагменты кода из различных языков программирования в одном векторном пространстве, предлагают более надежную основу для идентификации кросс-языковых клонов кода.

Выводы исследования

Исследование показало, что LLM могут достигать высоких показателей, особенно при обработке простых примеров кода, но могут испытывать трудности с более сложными задачами программирования. В то время как модели вложений способны превзойти все оцененные LLM в области кросс-языкового клонирования кода, обеспечивая современные результаты на различных наборах данных.

Практическое применение исследования

Эти результаты позволяют определить, что модели вложений являются более эффективным методом для обнаружения кросс-языковых клонов кода, поскольку они предоставляют постоянные и языково-нейтральные представления кода.

Заключение

Таким образом, результаты исследования свидетельствуют о том, что, несмотря на высокую способность LLM, особенно в отношении простых примеров кода, они могут быть менее эффективным методом для обнаружения кросс-языковых клонов кода, особенно в сложных ситуациях. В отличие от этого, модели вложений более подходят для достижения передовых результатов в этой области.

Подробнее о исследовании можно узнать в этой статье.

Все авторские права на это исследование принадлежат его авторам. Также не забудьте подписаться на наш Telegram-канал и группу в LinkedIn. Если вам понравилась наша работа, вам понравится и наш рассылка.

Не забудьте присоединиться к нашему 48-тысячному сообществу ML SubReddit.

Исследователи из FPT Software AI Center представляют XMainframe: современную большую языковую модель (LLM), специализированную для модернизации мейнфрейма, чтобы решить проблему устаревшего легаси-кода на сумму $100 млрд.

Ссылка на оригинальную статью.

“`

Полезные ссылки: