top of page
  • TechMedPro

Accélérer le Retour sur Investissement avec Ops4AI pour les Centres de Données IA à Haute Performance

Updated: Aug 7

En janvier 2024, Juniper a lancé la AI-Native Networking Platform, conçue pour exploiter les bonnes données grâce à la bonne infrastructure, fournissant des expériences utilisateur et opérateur optimales. Que ce soit pour utiliser l'IA pour simplifier les opérations réseau ou optimiser les fabrics Ethernet pour l'IA afin d'améliorer les workloads d'IA et les performances GPU, Juniper tient ses promesses de Experience-First Networking.

AI-Native Networking Platform

Fort de sa longue expérience en tant que fournisseur d'infrastructures réseau de centres de données à haute performance avec les commutateurs QFX, les routeurs PTX et les pare-feu SRX, Juniper est fier d'annoncer l'extension de son architecture de réseau IA natif pour inclure des opérations multi-fournisseurs de bout en bout pour les centres de données IA. Notre nouvelle solution Ops4AI, riche en améliorations significatives, est indispensable pour les clients.

Ops4AI comprend une combinaison unique de composants Juniper Networks :


  • AIOps dans le centre de données, alimenté par l'assistant de réseau virtuel Marvis


  • Automatisation basée sur l'intention via la gestion des fabrics de centre de données multi-fournisseurs avec Juniper Apstra


  • Ethernet optimisé pour l'IA avec RoCEv2 pour IPv4/v6, gestion de la congestion, équilibrage de charge et télémétrie


Ops4AI accélère le retour sur investissement des centres de données IA à haute performance, réduit les coûts opérationnels et simplifie les processus. Avec des fonctionnalités améliorées telles que le Juniper Ops4AI Lab, les clients peuvent désormais tester des modèles et des workloads d'IA, qu'ils soient privés ou open source. Les conceptions validées par Juniper garantissent une configuration correcte des réseaux IA utilisant Juniper, Nvidia, Broadcom, Intel, Weka et d'autres partenaires. Les améliorations apportées à Junos et Apstra optimisent davantage les réseaux des centres de données, un sujet que nous allons approfondir.


Ajustement Automatique des Fabrics pour l’IA


Le RDMA (accès direct à la mémoire à distance) des GPU génère un trafic massif sur les réseaux IA. Dans certaines circonstances, comme lorsque plusieurs GPU envoient du trafic vers un seul GPU au niveau du dernier commutateur de saut, une congestion peut se produire malgré des techniques d'équilibrage de charge. Lorsque cela se produit, des techniques de contrôle de la congestion comme le DCQCN (Data Center Quantified Congestion Notification), qui combine des fonctionnalités telles que la notification de congestion explicite (ECN) et le contrôle de flux prioritaire (PFC), calculent et configurent les paramètres pour garantir des performances optimales pour chaque file d'attente, chaque port et chaque commutateur. Ajuster manuellement ces paramètres pour des milliers de files d'attente sur l'ensemble des commutateurs est complexe et fastidieux.


C'est pourquoi Apstra collecte régulièrement des données télémétriques sur ces files d'attente et ports pour calculer les paramètres ECN et PFC optimaux. Grâce à l'automatisation en boucle fermée, ces paramètres sont configurés sur tous les commutateurs du réseau.


Cette solution applique les meilleurs paramètres de contrôle de la congestion, simplifiant considérablement les opérations et réduisant la latence et les temps d'exécution des tâches. Pour soutenir nos clients qui investissent déjà massivement dans l'infrastructure IA, nous proposons ces fonctionnalités dès maintenant dans Juniper Apstra, sans frais supplémentaires. Regardez la dernière démonstration de Cloud Field Day pour les voir en action. Nous avons également ajouté cette application sur GitHub.

Ajustement automatique des fabrics pour l’IA

Équilibrage de Charge Global (GLB)


Le trafic des réseaux IA présente des caractéristiques uniques, principalement alimenté par le trafic RDMA des GPU, qui consomme une bande passante élevée avec des flux moins nombreux mais plus importants (souvent appelés « flux éléphants »). Par conséquent, l'équilibrage de charge statique basé sur le hachage à cinq uplets ne fonctionne pas bien, dirigeant plusieurs flux éléphants vers le même lien, ce qui entraîne une congestion et ralentit les temps d'exécution des tâches, une catastrophe pour les grands clusters GPU.


Pour résoudre ce problème, l'équilibrage de charge dynamique (DLB) prend en compte l'état de la liaison montante sur le commutateur local.


Comparé à l'équilibrage de charge statique traditionnel, le DLB améliore considérablement l'utilisation de la bande passante du fabric. Cependant, le DLB a ses limites, ne suivant que la qualité des liens locaux au lieu de visualiser la qualité de l'ensemble du chemin entre le nœud d'entrée et le nœud de sortie. Supposons que nous ayons une topologie CLOS et que le serveur 1 et le serveur 2 essaient d'envoyer respectivement des données appelées flux-1 et flux-2. Avec le DLB, leaf-1 n'analyse que l'utilisation des liens locaux et prend des décisions en s'appuyant uniquement sur la table de qualité du commutateur local où les liens locaux peuvent être en parfait état. En revanche, l'équilibrage de charge global (GLB) permet de visualiser la qualité globale du chemin, repérant les problèmes de congestion au niveau spine-leaf.

Équilibrage des flux

Cette fonctionnalité choisit le chemin réseau optimal, réduisant la latence, améliorant l'utilisation du réseau et accélérant l'exécution des tâches. Les résultats ? De meilleures performances pour les workloads IA et une utilisation plus efficace des précieux GPU.


Visibilité de Bout en Bout, du Réseau aux SmartNIC


Aujourd'hui, les administrateurs peuvent localiser les congestions en observant uniquement les commutateurs réseau, mais ils n'ont aucune visibilité sur les points de terminaison précis (les GPU, dans le cas des centres de données IA) touchés par la congestion, ce qui rend difficile l'identification et la résolution des baisses de performances. Lorsque plusieurs tâches d'entraînement sont lancées en parallèle, les données de télémétrie des commutateurs ne suffisent plus à déterminer quelles tâches ont été ralenties par la congestion, nécessitant des vérifications manuelles (et pénibles) des statistiques RoCE v2 de chaque carte réseau de serveur.


Pour résoudre ce problème, Juniper Apstra tire désormais de riches flux de télémétrie RoCE v2 des SmartNIC des serveurs IA. Une fois corrélées avec la télémétrie existante des commutateurs, ces nouvelles données accélèrent les workflows de visibilité et de débogage lorsque des problèmes de performances surviennent, améliorant la vue globale du réseau et la compréhension des dynamiques causées par le comportement du réseau et des serveurs IA. Les données en temps réel fournissent des informations sur les performances du réseau, les schémas de trafic, les points de congestion potentiels et les points de terminaison touchés, permettant d'identifier les goulots d'étranglement et les anomalies.


Avec une meilleure observabilité du réseau et un débogage simplifié des problèmes de performances, il devient possible de prendre des mesures en boucle fermée pour améliorer les performances globales du réseau. Par exemple, la surveillance des paquets désordonnés par les SmartNIC permet d'ajuster la fonctionnalité intelligente d'équilibrage de charge du commutateur. Avec l'infrastructure IA, qui dit visibilité de bout en bout dit performances optimales.

Visibilité de bout en bout, du réseau aux SmartNI

Pour toute question ou pour connaître les prix, contactez-nous chez TechMedPro, votre partenaire de revente exclusif pour Juniper Networks. Nous sommes là pour vous aider à tirer parti de ces solutions de pointe pour vos besoins en centres de données.

Comments


bottom of page