| Spécifications NVIDIA L4 | |
|---|---|
| FP 32 | 30,3 téraFLOPs |
| Tensor Core TF32 | 60 téraFLOPs |
| Tensor Core FP16 | 121 téraFLOPs |
| Tensor Core BFLOAT16 | 121 téraFLOPs |
| Tensor Core FP8 | 242,5 téraFLOPs |
| Tensor Core INT8 | 242,5 TOPs |
| Mémoire GPU | 24 Go GDDR6 |
| Bande passante mémoire GPU | 300 Go/s |
| Puissance de conception thermique maximale (TDP) | 72W |
| Facteur de forme | PCIe profil bas 1 slot |
| Interconnexion | PCIe Gen4 x16 |
| Tableau des spécifications | L4 |
Bien sûr, avec le L4 dont le prix avoisine les 2 500 $, l'A2 coûtant environ la moitié du prix, et le T4, ancien mais toujours très performant, disponible d'occasion pour moins de 1 000 $, la question évidente est la différence entre ces trois GPU d'inférence.
| Spécifications NVIDIA L4, A2 et T4 | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| FP 32 | 30,3 téraFLOPs | 4,5 téraFLOPs | 8,1 téraFLOPs |
| Tensor Core TF32 | 60 téraFLOPs | 9 téraFLOPs | N/A |
| Tensor Core FP16 | 121 téraFLOPs | 18 téraFLOPs | N/A |
| Tensor Core BFLOAT16 | 121 téraFLOPs | 18 téraFLOPs | N/A |
| Tensor Core FP8 | 242,5 téraFLOPs | N/A | N/A |
| Tensor Core INT8 | 242,5 TOPs | 36 TOPS | 130 TOPS |
| Mémoire GPU | 24 Go GDDR6 | 16 Go GDDR6 | 16 Go GDDR6 |
| Bande passante mémoire GPU | 300 Go/s | 200 Go/s | 320+ Go/s |
| Puissance de conception thermique maximale (TDP) | 72W | 40-60W | 70W |
| Facteur de forme | PCIe profil bas 1 slot | ||
| Interconnexion | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| Tableau des spécifications | L4 | A2 | T4 |
Il faut comprendre que ces trois cartes ne sont pas des remplacements générationnels un pour un, ce qui explique pourquoi le T4 reste, de nombreuses années plus tard, un choix populaire pour certains cas d'utilisation. L'A2 a été lancé en remplacement du T4 en tant qu'option basse consommation et plus compatible (x8 contre x16 mécanique). Techniquement, le L4 est donc un remplacement du T4, l'A2 se situant dans un entre-deux qui pourrait ou non être actualisé à l'avenir.
Performances MLPerf Inference 3.1
MLPerf est un consortium de leaders de l'IA issus du monde universitaire, de la recherche et de l'industrie, créé pour fournir des benchmarks équitables et pertinents pour le matériel et les logiciels d'IA. Ces benchmarks sont conçus pour mesurer les performances du matériel, des logiciels et des services d'apprentissage automatique sur diverses tâches et scénarios.
Nos tests se concentrent sur deux benchmarks MLPerf spécifiques : Resnet50 et BERT.
- Resnet50 : Il s'agit d'un réseau neuronal convolutif utilisé principalement pour la classification d'images. C'est un bon indicateur de la capacité d'un système à gérer des tâches d'apprentissage profond liées au traitement d'images.
- BERT (Bidirectional Encoder Representations from Transformers) : Ce benchmark se concentre sur les tâches de traitement du langage naturel, offrant un aperçu des performances d'un système dans la compréhension et le traitement du langage humain.
Ces deux tests sont cruciaux pour évaluer les capacités du matériel d'IA dans des scénarios réels impliquant le traitement d'images et de langage.
L'évaluation du NVIDIA L4 avec ces benchmarks est essentielle pour comprendre les capacités du GPU L4 dans des tâches d'IA spécifiques. Elle offre également un aperçu de la manière dont différentes configurations (simples, doubles et quadruples) influencent les performances. Ces informations sont vitales pour les professionnels et les organisations qui cherchent à optimiser leur infrastructure d'IA.
Les modèles sont exécutés dans deux modes clés : Serveur et Hors ligne.
- Mode Hors ligne : Ce mode mesure les performances d'un système lorsque toutes les données sont disponibles pour un traitement simultané. Il s'apparente au traitement par lots, où le système traite un grand ensemble de données en un seul lot. Le mode hors ligne est crucial pour les scénarios où la latence n'est pas une préoccupation majeure, mais où le débit et l'efficacité le sont.
- Mode Serveur : En revanche, le mode serveur évalue les performances du système dans un scénario imitant un environnement serveur réel, où les requêtes arrivent une par une. Ce mode est sensible à la latence, mesurant la rapidité avec laquelle le système peut répondre à chaque requête. Il est essentiel pour les applications en temps réel, telles que les serveurs web ou les applications interactives, où une réponse immédiate est nécessaire.
1 x NVIDIA L4 – Dell PowerEdge XR7620
Dans le cadre de notre récente revue du Dell PowerEdge XR7620, équipé d'un seul NVIDIA L4, nous l'avons emmené en périphérie pour exécuter plusieurs tâches, y compris MLPerf.
Notre configuration de système de test comprenait les composants suivants :
- 2 x Xeon Gold 6426Y – 16 cœurs 2,5 GHz
- 1 x NVIDIA L4
- 8 x 16 Go DDR5
- 480 Go BOSS RAID1
- Ubuntu Server 22.04
- Pilote NVIDIA 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | Score |
|---|---|
| Resnet50 – Serveur | 12 204,40 |
| Resnet50 – Hors ligne | 13 010,20 |
| BERT K99 – Serveur | 898,945 |
| BERT K99 – Hors ligne | 973,435 |
Les performances dans les scénarios serveur et hors ligne pour Resnet50 et BERT K99 sont quasi identiques, ce qui indique que le L4 maintient des performances constantes sur différents modèles de serveur.
1, 2 et 4 NVIDIA L4 – Dell PowerEdge T560
Notre configuration d'unité de revue comprenait les composants suivants :
- 2 x Intel Xeon Gold 6448Y (32 cœurs/64 threads chacun, TDP de 225 watts, 2,1-4,1 GHz)
- 8 x SSD Solidigm P5520 de 1,6 To avec carte RAID PERC 12
- 1-4 GPU NVIDIA L4
- 8 x RDIMM de 64 Go
- Ubuntu Server 22.04
- Pilote NVIDIA 535
| Dell PowerEdge T560 1x NVIDIA L4 | Score |
|---|---|
| Resnet50 – Serveur | 12 204,40 |
| Resnet50 – Hors ligne | 12 872,10 |
| Bert K99 – Serveur | 898,945 |
| Bert K99 – Hors ligne | 945,146 |
Dans nos tests avec deux L4 dans le Dell T560, nous avons observé cette mise à l'échelle quasi linéaire des performances pour les benchmarks Resnet50 et BERT K99. Cette mise à l'échelle témoigne de l'efficacité des GPU L4 et de leur capacité à travailler en tandem sans pertes significatives dues à la surcharge ou à l'inefficacité.
| Dell PowerEdge T560 2x NVIDIA L4 | Score |
|---|---|
| Resnet50 – Serveur | 24 407,50 |
| Resnet50 – Hors ligne | 25 463,20 |
| BERT K99 – Serveur | 1 801,28 |
| BERT K99 – Hors ligne | 1 904,10 |
La mise à l'échelle linéaire constante que nous avons observée avec deux GPU NVIDIA L4 s'étend de manière impressionnante aux configurations comportant quatre unités L4. Cette mise à l'échelle est particulièrement remarquable car le maintien de gains de performance linéaires devient de plus en plus difficile avec chaque GPU ajouté en raison des complexités du traitement parallèle et de la gestion des ressources.
| Dell PowerEdge T560 4x NVIDIA L4 | Score |
|---|---|
| Resnet50 – Serveur | 48 818,30 |
| Resnet50 – Hors ligne | 51 381,70 |
| BERT K99 – Serveur | 3 604,96 |
| BERT K99 – Hors ligne | 3 821,46 |
Ces résultats sont à titre illustratif uniquement et ne constituent pas des résultats MLPerf compétitifs ou officiels. Pour une liste complète des résultats officiels, veuillez visiter la page des résultats MLPerf.
En plus de valider la scalabilité linéaire des GPU NVIDIA L4, nos tests en laboratoire éclairent les implications pratiques du déploiement de ces unités dans différents scénarios opérationnels. Par exemple, la cohérence des performances entre les modes serveur et hors ligne dans toutes les configurations avec les GPU L4 révèle leur fiabilité et leur polyvalence.
Cet aspect est particulièrement pertinent pour les entreprises et les institutions de recherche où les contextes opérationnels varient considérablement. De plus, nos observations sur l'impact minimal des goulots d'étranglement d'interconnexion et l'efficacité de la synchronisation des GPU dans les configurations multi-GPU fournissent des informations précieuses à ceux qui cherchent à faire évoluer leur infrastructure d'IA. Ces informations vont au-delà des simples chiffres de benchmark, offrant une compréhension plus approfondie de la manière dont un tel matériel peut être utilisé de manière optimale dans des scénarios réels, guidant ainsi de meilleures décisions architecturales et stratégies d'investissement dans l'infrastructure d'IA et HPC.
Performances applicatives NVIDIA L4
Nous avons comparé les performances du nouveau NVIDIA L4 à celles des NVIDIA A2 et NVIDIA T4 qui l'ont précédé. Pour illustrer cette amélioration des performances par rapport aux modèles précédents, nous avons déployé les trois modèles dans un serveur de notre laboratoire, avec Windows Server 2022 et les derniers pilotes NVIDIA, en utilisant notre suite complète de tests GPU.
Ces cartes ont été testées sur un Dell Poweredge R760 avec la configuration suivante :
- 2 x Intel Xeon Gold 6430 (32 cœurs, 2,1 GHz)
- Windows Server 2022
- Pilote NVIDIA 538.15
- ECC désactivé sur toutes les cartes pour un échantillonnage 1x
Alors que nous commençons les tests de performance entre ce groupe de trois GPU d'entreprise, il est important de noter les différences de performance uniques entre les modèles A2 et T4 plus anciens. Lors de la sortie de l'A2, il offrait des améliorations notables telles qu'une consommation d'énergie réduite et un fonctionnement sur un slot PCIe Gen4 x8 plus petit, au lieu du slot PCIe Gen3 x16 plus grand requis par l'ancien T4. Il a ainsi pu être intégré dans plus de systèmes, notamment avec son empreinte plus petite.
Blender OptiX 4.0
Blender OptiX est une application de modélisation 3D open-source. Ce test peut être exécuté pour le CPU et le GPU, mais nous n'avons effectué que le GPU, comme la plupart des autres tests ici. Ce benchmark a été exécuté à l'aide de l'utilitaire Blender Benchmark CLI. Le score est le nombre d'échantillons par minute, plus il est élevé, mieux c'est.
| Blender 4.0 (Plus élevé est mieux) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| GPU Blender CLI – Monster | 2 207,765 | 458,692 | 850,076 |
| GPU Blender CLI – Junkshop | 1 127,829 | 292,553 | 517,243 |
| GPU Blender CLI – Classroom | 1 111,753 | 262,387 | 478,786 |
Blackmagic RAW Speed Test
Nous testons les CPU et les GPU avec le Blackmagic RAW Speed Test qui mesure les vitesses de lecture vidéo. Il s'agit plutôt d'un test hybride qui inclut les performances du CPU et du GPU pour le décodage RAW en conditions réelles. Ceux-ci sont affichés comme des résultats séparés, mais nous nous concentrons uniquement sur les GPU ici, donc les résultats du CPU sont omis.
| Blackmagic RAW Speed Test (Plus élevé est mieux) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024 GPU
Cinebench 2024 de Maxon est un benchmark de rendu CPU et GPU qui utilise tous les cœurs et threads du CPU. Encore une fois, comme nous nous concentrons sur les résultats GPU, nous n'avons pas exécuté les parties CPU du test. Des scores plus élevés sont meilleurs.
| Cinebench 2024 (Plus élevé est mieux) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPU | 15 263 | 4 006 | 5 644 |
GPU PI
GPUPI 3.3.3 est une version de l'utilitaire de benchmark léger conçu pour calculer π (pi) à des milliards de décimales en utilisant l'accélération matérielle via les GPU et les CPU. Il exploite la puissance de calcul d'OpenCL et de CUDA, qui comprend à la fois les unités de traitement centrales et graphiques. Nous avons exécuté CUDA uniquement sur les 3 GPU et les chiffres ici sont le temps de calcul sans le temps de réduction ajouté. Plus bas est mieux.
| Temps de calcul GPU PI en secondes (Plus bas est mieux) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 – 1B | 3,732s | 19,799s | 7,504s |
| GPUPI v3.3 – 32B | 244,380s | 1 210,801s | 486,231s |
Alors que les résultats précédents ne regardaient qu'une seule itération de chaque carte, nous avons également eu l'occasion d'examiner un déploiement de 5x NVIDIA L4 dans le Dell PowerEdge T560.
| Temps de calcul GPU PI en secondes (Plus bas est mieux) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) avec 5x NVIDIA L4 |
|---|---|
| GPUPI v3.3 – 1B | 0sec 850ms |
| GPUPI v3.3 – 32B | 50sec 361ms |
Octanebench
OctaneBench est un utilitaire de benchmark pour OctaneRender, un autre moteur de rendu 3D avec prise en charge RTX similaire à V-Ray.
| Octane (Plus élevé est mieux) | ||||
| Scène | Noyau | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| Intérieur | Canaux d'information | 15,59 | 4,49 | 6,39 |
| Éclairage direct | 50,85 | 14,32 | 21,76 | |
| Traçage de rayons | 64,02 | 18,46 | 25,76 | |
| Idée | Canaux d'information | 9,30 | 2,77 | 3,93 |
| Éclairage direct | 39,34 | 11,53 | 16,79 | |
| Traçage de rayons | 48,24 | 14,21 | 20,32 | |
| ATV | Canaux d'information | 24,38 | 6,83 | 9,50 |
| Éclairage direct | 54,86 | 16,05 | 21,98 | |
| Traçage de rayons | 68,98 | 20,06 | 27,50 | |
| Boîte | Canaux d'information | 12,89 | 3,88 | 5,42 |
| Éclairage direct | 48,80 | 14,59 | 21,36 | |
| Traçage de rayons | 54,56 | 16,51 | 23,85 | |
| Score total | 491,83 | 143,71 | 204,56 | |
Geekbench 6 GPU
Geekbench 6 est un benchmark multiplateforme qui mesure les performances globales du système. Il existe des options de test pour le benchmarking CPU et GPU. Des scores plus élevés sont meilleurs. Encore une fois, nous n'avons examiné que les résultats GPU.
Vous pouvez trouver des comparaisons avec n'importe quel système de votre choix dans le Geekbench Browser.
| Geekbench 6.1.0 (Plus élevé est mieux) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Geekbench GPU OpenCL | 156 224 | 35 835 | 83 046 |
Luxmark
LuxMark est un outil de benchmark multiplateforme OpenCL de ceux qui maintiennent le moteur de rendu 3D open-source LuxRender. Cet outil examine les performances GPU dans la modélisation 3D, l'éclairage et le travail vidéo. Pour cette revue, nous avons utilisé la version la plus récente, v4alpha0. Dans LuxMark, plus le score est élevé, mieux c'est.
| Luxmark v4.0alpha0 GPU OpenCL (Plus élevé est mieux) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Hall Bench | 14 328 | 3 759 | 5 893 |
| Food Bench | 5 330 | 1 258 | 2 033 |
GROMACS CUDA
Nous avons également sourcé GROMACS compilé, un logiciel de dynamique moléculaire, spécifiquement pour CUDA. Cette compilation sur mesure visait à exploiter les capacités de traitement parallèle des 5 GPU NVIDIA L4, essentielles pour accélérer les simulations informatiques.
Le processus a impliqué l'utilisation de nvcc, le compilateur CUDA de NVIDIA, ainsi que de nombreuses itérations des indicateurs d'optimisation appropriés pour garantir que les binaires étaient correctement optimisés pour l'architecture du serveur. L'inclusion du support CUDA dans la compilation GROMACS permet au logiciel d'interfacer directement avec le matériel GPU, ce qui peut considérablement améliorer les temps de calcul pour les simulations complexes.
Le Test : Interaction Protéique Personnalisée dans Gromacs
En exploitant un fichier d'entrée fourni par la communauté de notre divers Discord, qui contenait des paramètres et des structures adaptés à une étude spécifique d'interaction protéique, nous avons lancé une simulation de dynamique moléculaire. Les résultats ont été remarquables : le système a atteint un taux de simulation de 170,268 nanosecondes par jour.
| GPU | Système | ns/jour | temps de cœur (s) |
|---|---|---|---|
| NVIDIA A4000 | Whitebox AMD Ryzen 5950x | 84,415 | 163 763 |
| RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131,85 | 209 692,3 |
| 5x NVIDIA L4 | Dell T560 avec 2x Intel Xeon Gold 6448Y | 170,268 | 608 912,7 |
Plus que de l'IA
Sandy Yang/Directeur de la stratégie mondiale
WhatsApp / WeChat : +86 13426366826
E-mail : yangyd@qianxingdata.com
Site Web : www.qianxingdata.com/www.storagesserver.com
Domaine d'activité :
Distribution de produits TIC/Intégration de systèmes et services/Solutions d'infrastructure
Avec plus de 20 ans d'expérience dans la distribution informatique, nous nous associons à des marques mondiales de premier plan pour fournir des produits fiables et des services professionnels.
« Utiliser la technologie pour construire un monde intelligent » Votre fournisseur de services de produits TIC de confiance !



