Salesforce представляет бенчмарк для генеративного ИИ

30.09.2024 572 прочтения

Компания Salesforce анонсировала первый инструмент оценки генеративного искусственного интеллекта для систем CRM, призванный помочь компаниям принимать более обоснованные решения при выборе больших языковых моделей (large language model, LLM), которые будут использоваться в бизнес-приложениях. В компании считают, что клиентам нужна не просто лучшая модель, а модель, соответствующая именно их требованиям и стандартам безопасности. Выбор LLM для бизнес-приложения — это сложная задача оптимизации и поиска баланса между стоимостью, точностью, уровнем доверия, безопасностью и скоростью. Инструмент Salesforce предназначен для того, чтобы помочь компаниям понять плюсы и минусы различных LLM и принять обоснованные решения, соответствующие их бизнес-целям и приоритетам. Тест не базируется на оценках автоматизированных систем, в основу которых положены выводы LLM или синтетические данные. Опытные специалисты заранее определяют критерии эффективности LLM, а анализу подвергаются реальные данные CRM. Такой подход позволяет всесторонне оценить практическую полезность искусственного интеллекта для бизнеса в различных сценариях использования CRM, включая сценарии продаж и обслуживания. Инструментарий использует экспертные оценки и реальные данные CRM для анализа четырех ключевых факторов: точности, стоимости, скорости, а также уровня доверия и безопасности. Интересно, что самая большая модель не всегда считается наилучшей. Приемлемой эффективности можно добиться, используя модели меньшего размера, более эффективные с точки зрения затрат и задержек.