Система Tony, предназначенная для масштабирования и управления заданиями глубинного обучения в TensorFlow с помощью планировщика заданий YARN в кластерах на базе Hadoop, разработанная в компании LinkedIn, выпущена под лицензией с открытым кодом.
Разработать свою систему в LinkedIn решили после испытаний двух существующих аналогичных систем с открытым исходным кодом. Одна из них — TensorFlow on Spark — запускает TensorFlow через механизм заданий Apache Spark, но она слишком тесно связана со Spark. Другая, TensorFlowOnYARN, обладает примерно той же функциональностью, что и Tony, но уже не поддерживается и не гарантирует отказоустойчивости.
Tony может распределять по кластеру Hadoop как традиционные задания, так и задания, запускающиеся на графических процессорах, по-разному выделять память на узлах TensorFlow, а также сохранять промежуточные результаты в файловой системе HDFS и продолжать выполнение с места остановки. Tony не мешает выполнению заданий TensorFlow, и расходы ресурсов на его работу незначительны, утверждают разработчики. Поддерживается также система TensorBoard, предназначенная для визуализации, оптимизации и отладки приложений TensorFlow.