Создаём экспертные данные для обучения и оценки качества LLM
Обучение
и оценка
LLM
Кто мы такие?
Занимаемся разработкой сложных программных продуктов уже 10 лет. В числе наших клиентов Яндекс, Тинькофф, Окко, Сбер, Точка и множество стартапов. Нас 90 человек и 3 офиса в России, Армении, и Португалии.
Лучшая AI-технология,
лучший чат-бот
Tagline Awards 2023
Лучший продукт года среди агентств, лучшая AI-технология
Tagline Awards 2024
7 место
Искусственный интеллект в промышленности
Рейтинг Рунета 2025
29 место
Разработка решений на базе ИИ
Рейтинг Рунета 2025
Услуги
для кодовых моделей
Данные для SFT
Text2Code
CodeComplition
UnitTestGeneration
BugDetection
CodeRepair
Собираем эталонные примеры диалогов для получения моделью новых узкоспециализированных знаний
Оценка диалогов
RLHF
EvaluationDatasets
ReasoningEvaluation
CoTEvaluation
Plan2SolveEvaluation
Оцениваем историю диалогов по критериям, повышаем эффективность и полезность LLM
Безопасность диалога
ResponseStyleEvaluation
DialogueSafety
Ethics
PoliteResponses
Honest
ToxicityDetection
Анализируем вежливость, честность и порядочность LLM
для кодовых агентов
Траектории поведения агентов
HumanInTheLoop
PreciseFeedback
ErrorCorrection
TargetedImprovements
BehaviorTrajectories]
Архитектурный анализ агентов
ModularBench
ComponentSpecificBench
ModuleTesting
ArchitectureEvaluation
AgentArchitectureAnalysis
Тестируем и оцениваем архитектуру агентов: модули поиска, интеграции, инструменты работы с файлами и внешними системами
Собираем и размечаем данные о работе агентов. Анализируем мысли, шаги и действия для повышения точности и качества работы
для кодовых моделей и Агентов
AutoVerifiable
ExecutableBenchmarks
ExpertVerified
RealTaskBenchmarks
ComprehensiveTaxonomy
SWEBench
AutomatedTestingReady
AutomatedEvaluationMetrics
Бенчмарки для тестирования моделей и агентов
Создаём датасеты и бенчмарки для автоматизированного тестирования агентов на реальных задачах
OpenSourceExpansion
TaxonomyExpansion
Multilingual
StackExpansion
Executable
AutomatedTestingReady
AutomatedEvaluationMetrics
OnlineVersion
LongTermSupport
Расширение open-source датасетов
Модифицируем, расширяем популярные открытые датасеты из других источников, доменов, расширенной таксономии
ExclusivePretrainData
NonPublicSources
PrivateEnterpriceRepositories
PrivateBenchmarks
ProprietarySources
Доступ к закрытым источникам данных
Собираем популярные форматы датасетов по собственным закрытым источникам, создаем приватные бенчмарки и уникальные датасеты
Multimodal
Text
Visual
Video
Audio
Diagram
Flowchart
UMLDiagram
ArchitectureScheme
ProjectDevelopmentTasks
TasksAttachements
JiraTasks
YoutrackTasks
Web
UI
UX
Screenshot
VideoGuide
BugDemo
BugsDemonstration
AuidioInstruction
AudioCommands
AudioCommunication
DevelopersTasks
Мультимодальные данные
Помогаем расширить функционал ассистентов для работы с другими модальностями и типами данных
AdversarialTesting
ProvokingIncorrectBehavior
WideRangeScenarios
MultiTurnScenarios
DataSniffingTesting
DataLeakageTesting
SystemToolsAbuse
ConfidentialDataLeakDetection
Red Teaming
Провоцируем некорректное поведение, тестируя на сложных, многошаговых (multi-turn) сценариях использования 
Источник точек роста и систематизированного фидбека
CodeTranslation
CodeRefactoring
SFT
RealWordPrompts
ComplexTasks
MultiTurnTasks
InstructionFolowing
RankingModelAnswers
ResponceQualityDimensions
PreferenceLabeling
RatePointwise
RatePairwise
RateListwise
EvaluationByCriteria
StepByStepAnalysis
AgentDecisionTracing
AgentThoughtTracing
RealTaskEvaluation
IntegrationTesting
FunctionCallingTesting
FileSystemToolsTesting
ExternalSystemsIntegration
Кейсы
SWE-bench
Собрали swe-bench-like датасет из верифицированных пар issue / merge request для оценки возможностей кодовых ассистентов
Для чего: расширенная версия оригинального SWE-Bench Verified на другие языки, стек для объективного автоматизированного тестирования SWE агентов.
Открытые и закрытые репозитории
Данные отфильтрованы по количеству измененных файлов
и строк кода
Данные отфильтрованы по качеству описания issue и соответствию описания issue решаемой задаче в merge request
Собраны сервисные файлы для воспроизведения задач в бенчмарке
Критерии оценки и дополнительные данные:
  • Количество измененных файлов и строк кода
  • Качество описания issue
  • Качество написанного кода и тестов
  • Сложность задачи
Языки: C#, C++, Go, Java, JS, Kotlin, PHP, Ruby, Rust, Scala, TS
Количество:
  • 7500 пар issue / merge request всего размечено
  • 1500 пар issue / merge request, удовлетворяющих критериям оценки
Agent trajectory eval
Для чего: анализ истории траекторий агентов. Анализ работы агента с директорией, системой. Анализ «мыслительных» способностей агента. Анализ приводимых агентом решений.
Входные данные: логи работы каждого модуля ассистента при решении issue open-source проектов (системные инструкции, промпты, thought этапы, взаимодействие с системой и файлами, изменения файлов)
На что повлияло: обновление thought процесса агента.
Язык: Python.
Объем: 278 dp.
Результат: оценка каждого шага агента (в том числе не только действия) по критериям, с подробным объяснением предполагаемого эталонного результата работы одного из модулей ассистента — в случае неудовлетворительной оценки.
Solution&Compilation Red Teaming
Для чего: поиск сложных, multi-turn кейсов использования LLM, вызывающих некорректные решения от LLM (корректность и достоверность решения, ошибки компиляции)
Исходные данные: история реальных диалогов пользователей с LLM, зафиксированный enviroment для тестирования решений LLM.
Процесс:
  • AI тренер-эксперт изменяет исходный prompt, усложняя задачу так, чтобы через 1–2 дополнительных уточняющих промпта (turns) LLM сгенерировала некорректный ответ.
  • Ответ LLM считается некорректным, если:
  • Исполнение кода вызывает ошибки компиляции, исполнения и др.
  • Код ответа не решает исходную задачу
На что повлияло: множественные ошибки компиляции в решениях
Результат: внутренний бенчмарк LLM клиента для определенного стека библиотек и кейсов их использования.
Язык: Python
Цель: сгенерировать набор задач, на которых стабильная зарелиженная версия LLM допускает ошибки, что является фидбеком для улучшения.
RAG Benchmark
Тестирование способности Retrieval-части искать по репозиторию файлы, потенциально значимые для отправки в context.
Для чего: использовали для бенчмаркинга текущей версии RAG по репозиторию, для поиска проблемных кейсов.
На что влияет: полнота анализа зависимостей проекта и генерация релевантных решений.
Как использовать benchmark: текстовое описание задачи подается в ассистента, логируется результат работы модуля retrieval поиска по репозиторию, сравнивается полнота с эталонным списком файлов.
Исходные данные: репозитории open-source проектов и их Issue.
Языки: C++, С#, Java, JavaScript, Go, Python, Flutter, Kotlin, PHP, TypeScript.
Объем: 978 dp.
MCP Sniffing testing
Для чего: тестирование агента на работу с внешними инструментами (API корпоративных почт, корпоративные платформы), соответствие и работу mcp. Тестирование thought процесса агента. Тестирование устойчивости к сниффингу и утечке конфиденциальных данных.
На что повлияло: выявлены множественные уязвимости безопасности обработки персональных данных.
Входные данные: логи работы агентной сети на реальных кейсах использования.
Результат:
  • Оценка по критериям каждого шага отдельного агента в сети, описание эталонного действия агента.
  • Анализ и контроль обработки персональных данных агентами:
  • Оценка по критериям каждого шага, связанного с обработкой персональных и конфиденциальных данных.
  • Фиксация всех прецедентов некорректного распоряжения такими чувствительными данными.
Reasoning Eval
Для чего: валидация Reasoning, Thought и Plan2Solve этапов ассистента
Входные данные: наборы {prompt, plan2solve, response}, где prompt — Issue из open-source проекта, остальное получено от анализируемой модели.
Результат: оценка Plan2Solve и Response по критериям с детальным описанием эталонного результата.
На что повлияло: обновления в Thought процессах ассистента.
Языки: Python, Java, JS, C++, Go, Kotlin.
Объем: 27420 dp.
SFT
Для чего: Fine-tuning модели клиента по эталонным примерам использования на заданиях из open-source разработки
Исходные данные: Issue репозиториев open-source проектов, перефразированные экспертами в prompt-задачу для LLM.
Результат: пары (Prompt-Response), где Response — ответ модели старшей версии, проверенный и отредактированный экспертом-разработчиком.
На что повлияло: добавление, обновление эталонного функционала использования модели.
Сценарии: Text2Code, Complition, Unit-test Generation, Bug Detection, Code, Repair, Translation
Языки: Python, C++, C#, Java, JS, Go.
Объем: 74630 dp.
Свяжитесь с нами
© 2015–2025 Doubletapp. All rights reserved