Salesforce представляет бенчмарк для генеративного ИИ

Компания Salesforce анонсировала первый в своем роде инструмент оценки генеративного искусственного интеллекта для систем CRM, призванный помочь компаниям принимать более обоснованные решения при выборе больших языковых моделей (large language models, LLM), которые будут использоваться в бизнес-приложениях. По мнению специалистов Salesforce, клиентам нужна не просто лучшая модель, а модель, соответствующая их требованиям и стандартам безопасности. Выбор LLM для бизнес-приложения – это сложная задача оптимизации и поиска баланса между стоимостью, точностью, уровнем доверия, безопасностью и скоростью. В чем новизна нового инструмента? Сегодня существуют и другие, но они, как правило, носят академический, теоретический характер и не имеют особого отношения к бизнесу. Инструмент Salesforce предназначен для того, чтобы помочь компаниям понять плюсы и минусы различных LLM и принять обоснованные решения, соответствующие их бизнес-целям и приоритетам. Если у клиента есть определенное представление о возможных сценариях использования, затратах и задержках, он может просмотреть табличные данные, графики и диаграммы, после чего выработать на их основе взвешенное решение.

Тест не базируется на оценках автоматизированных систем, в основу которых положены выводы LLM или синтетические данные. Опытные специалисты заранее определяют критерии эффективности LLM, а анализу подвергаются реальные данные CRM. Такой подход позволяет всесторонне оценить практическую полезность искусственного интеллекта для бизнеса в различных сценариях использования CRM, включая сценарии продаж и обслуживания. Инструментарий, созданный совместными усилиями исследовательской группы Salesforce Frontier AI и разработчиков основных продуктов компании, использует экспертные оценки и реальные данные CRM для анализа четырех ключевых факторов: точности, стоимости, скорости, а также уровня доверия и безопасности.

1. Точность делится на четыре подкатегории: фактичность, полнота, краткость и следование инструкциям. Чем точнее прогнозы LLM, тем большую ценность получаемые результаты представляют для организации, тем эффективнее их можно использовать для улучшения качества обслуживания клиентов. Если модель недостаточно точна в каких-то конкретных сценариях использования, ее можно улучшить с помощью инженеров по подсказкам (prompt engineering) и тонкой настройки.

2. Стоимостные критерии подразделяют предполагаемые эксплуатационные расходы LLM в различных сценариях использования CRM на высокие, средние и низкие. Клиенты могут использовать этот показатель для оценки экономической эффективности LLM в соответствии со своим бюджетом и стратегиями распределения ресурсов.

3. Скорость характеризует оперативность реагирования и эффективность обработки и предоставления информации. Ускорение реагирования повышает удобство работы пользователей, сокращает время ожидания клиентов и помогает отделам продаж и обслуживания эффективнее отвечать на поступающие запросы и решать стоящие перед ними задачи.

4. Доверие и безопасность характеризуют особенности обработки моделью чувствительных данных клиентов, соблюдение правил конфиденциальности и обеспечение информационной безопасности.

Интересно, что самая большая модель не всегда считается наилучшей. Приемлемой эффективности можно добиться, используя модели меньшего размера, более эффективные с точки зрения затрат и задержек. Первая версия предлагаемого инструментария охватывает только базовые модели. Но работы над оценкой улучшения производительности и точности на основе тонкой настройки уже ведутся, и сдвиги должны быть весьма заметными.

Salesforce представляет бенчмарк для генеративного ИИ

ТОП-5 российских self-service BI-систем в 2024