NVIDIA đã thông báo rằng Llama 3 LLM của Meta được xây dựng bằng GPU NVIDIA và được tối ưu hóa để chạy trên tất cả các nền tảng, từ máy chủ đến PC.
LLM AI Llama 3 thế hệ tiếp theo của Meta đã có mặt và NVIDIA là động lực đằng sau chúng, hỗ trợ tối ưu hóa trên các PC Cloud, Edge & RTX
Thông cáo báo chí: NVIDIA hôm nay đã công bố các biện pháp tối ưu hóa trên tất cả các nền tảng của mình để tăng tốc Meta Llama 3, thế hệ mới nhất của mô hình ngôn ngữ lớn (LLM). Mô hình mở kết hợp với điện toán tăng tốc NVIDIA trang bị cho các nhà phát triển, nhà nghiên cứu và doanh nghiệp đổi mới một cách có trách nhiệm trên nhiều ứng dụng khác nhau.
Được đào tạo về NVIDIA AI
Các kỹ sư của Meta đã đào tạo Llama 3 trên một cụm máy tính chứa 24.576 GPU lõi Tensor H100 , được liên kết với mạng InfiniBand Quantum-2. Với sự hỗ trợ từ NVIDIA, Meta đã điều chỉnh kiến trúc mạng, phần mềm và mô hình cho LLM hàng đầu của mình.
Để nâng cao hơn nữa công nghệ tiên tiến trong lĩnh vực AI sáng tạo, Meta gần đây đã mô tả kế hoạch mở rộng cơ sở hạ tầng của mình lên 350.000 GPU H100 .
Đưa Llama 3 vào hoạt động
Các phiên bản của Llama 3, được tăng tốc trên GPU NVIDIA, hiện có sẵn để sử dụng trên đám mây, trung tâm dữ liệu, biên và PC.
Các doanh nghiệp có thể tinh chỉnh Llama 3 bằng dữ liệu của họ bằng cách sử dụng NVIDIA NeMo , một khung nguồn mở dành cho LLM, một phần của nền tảng NVIDIA AI Enterprise được hỗ trợ, an toàn. Các mô hình tùy chỉnh có thể được tối ưu hóa cho hoạt động suy luận với NVIDIA TensorRT-LLM và được triển khai với Triton Inference Server.
Đưa Llama 3 lên thiết bị và PC
Llama 3 cũng chạy trên Jetson Orin dành cho robot và các thiết bị điện toán ranh giới, tạo ra các tác nhân tương tác giống như các tác nhân trong Phòng thí nghiệm AI Jetson. Hơn nữa, GPU RTX và GeForce RTX dành cho máy trạm và PC tăng tốc độ suy luận trên Llama 3. Các hệ thống này mang lại cho các nhà phát triển mục tiêu hơn 100 triệu hệ thống được tăng tốc NVIDIA trên toàn thế giới.
Đạt được hiệu suất tối ưu với Llama 3
Các phương pháp hay nhất trong việc triển khai LLM cho chatbot bao gồm sự cân bằng giữa độ trễ thấp, tốc độ đọc tốt và sử dụng GPU tối ưu để giảm chi phí. Dịch vụ như vậy cần phân phối mã thông báo – tương đương với các từ cho LLM – với tốc độ đọc gấp đôi tốc độ đọc của người dùng, tức là khoảng 10 mã thông báo/giây.
Áp dụng các số liệu này, một GPU NVIDIA H200 Tensor Core duy nhất đã tạo ra khoảng 3.000 token/giây — đủ để phục vụ khoảng 300 người dùng đồng thời — trong thử nghiệm ban đầu sử dụng phiên bản Llama 3 với 70 tỷ tham số. Điều đó có nghĩa là một máy chủ NVIDIA HGX với 8 GPU H200 có thể cung cấp 24.000 token/giây, tối ưu hóa chi phí hơn nữa bằng cách hỗ trợ hơn 2.400 người dùng cùng lúc.
Đối với các thiết bị biên, phiên bản Llama 3 với 8 tỷ thông số tạo ra tới 40 token/giây trên Jetson AGX Orin và 15 token/giây trên Jetson Orin Nano.
Thúc đẩy các mô hình cộng đồng
Là người đóng góp tích cực cho nguồn mở, NVIDIA cam kết tối ưu hóa phần mềm cộng đồng giúp người dùng giải quyết những thách thức khó khăn nhất của họ. Các mô hình nguồn mở cũng thúc đẩy tính minh bạch của AI và cho phép người dùng chia sẻ rộng rãi công việc về độ an toàn và khả năng phục hồi của AI.
Theo wccftech.com