Nvidia ra chip mới, hứa giảm chi phí AI tới 35 lần

NVIDIA cho biết hệ thống GB300 NVL72 mới có thể xử lý khối lượng công việc cao gấp 50 lần trên mỗi megawatt điện so với nền tảng Hopper, qua đó giảm chi phí trên mỗi đơn vị thông tin xử lý xuống 35 lần.

Nhu cầu AI agent và trợ lý số đang tăng nhanh, buộc các hãng phải chạy đua phần cứng, phần mềm suy luận và nhân lực. Dữ liệu từ các báo cáo thị trường và đo kiểm độc lập cho thấy xu hướng tối ưu hiệu năng theo watt đang trở thành yếu tố quyết định khả năng triển khai AI trong doanh nghiệp.

NỘI DUNG CHÍNH
  • GB300 NVL72 được mô tả có hiệu năng theo điện năng vượt trội so với Hopper, kéo chi phí xử lý thông tin giảm mạnh.
  • AI agent bùng nổ kéo theo nhu cầu suy luận thời gian thực và “nhớ ngữ cảnh” dài, gây áp lực lên hạ tầng tính toán.
  • Thiếu hụt kỹ năng AI khiến doanh nghiệp nghiêng về mua giải pháp từ nhà cung cấp thay vì tự xây dựng.

GB300 NVL72 đặt trọng tâm vào hiệu năng theo megawatt để giảm chi phí suy luận

GB300 NVL72 được NVIDIA công bố có thể xử lý khối lượng công việc cao hơn 50 lần trên mỗi megawatt so với Hopper, đồng thời giảm chi phí trên mỗi thông tin xử lý xuống 35 lần.

Thông điệp cốt lõi của GB300 NVL72 là tối ưu “work per watt”, vì chi phí điện và khả năng cấp nguồn, làm mát đang là nút thắt của trung tâm dữ liệu AI. Khi hiệu năng tính trên điện năng tăng, cùng một hạ tầng điện có thể phục vụ nhiều tác vụ suy luận hơn, hoặc giữ nguyên thông lượng nhưng giảm chi phí vận hành.

Đo kiểm tách biệt cũng ghi nhận cải thiện trên thế hệ trước đó. Signal65 thử nghiệm GB200 NVL72 và kết luận hệ thống này xử lý lượng thông tin trên mỗi watt cao hơn 10 lần, giúp chi phí giảm còn khoảng 1/10 so với trước.

Tối ưu phần mềm suy luận giúp tăng tốc triển khai AI thời gian thực

Nâng cấp phần mềm như TensorRT-LLM có thể tạo ra mức tăng hiệu năng đáng kể trong thời gian ngắn, đặc biệt với các tác vụ cần phản hồi tức thì.

Đọc thêm:  Các hãng chip tranh giành lợi thế AI, thị trường hướng 1 nghìn tỷ USD

NVIDIA cho biết riêng các cải tiến của thư viện TensorRT-LLM đã mang lại mức tăng hiệu năng 5 lần cho GB200 chỉ trong 4 tháng, nhắm đến các khối lượng công việc suy luận cần độ trễ thấp. Song song, các nhóm phát triển công cụ như Dynamo, Mooncake và SGLang tiếp tục đẩy hiệu suất sử dụng tài nguyên lên cao hơn.

Với AI trợ lý và AI agent, độ trễ và giới hạn ngữ cảnh không chỉ là trải nghiệm người dùng, mà còn quyết định khả năng đưa vào quy trình vận hành. Nếu phản hồi chậm hoặc không “nhớ” đủ ngữ cảnh của cả dự án phần mềm, hệ thống dễ thất bại trong môi trường doanh nghiệp, dù vẫn chạy tốt trong các bản demo.

AI agent và trợ lý số đang chiếm gần một nửa nhu cầu suy luận

Các công cụ AI viết code và trợ lý số đã tăng tỷ trọng lên gần một nửa tổng số truy vấn liên quan đến AI, từ mức 11% một năm trước.

Số liệu được trích từ OpenRouter State of Inference báo cáo “State of AI”, phản ánh mức độ dịch chuyển nhanh sang các ứng dụng suy luận liên tục và tương tác nhiều vòng. Sự gia tăng này khiến doanh nghiệp phải xây hạ tầng đủ mạnh để trả lời ngay và duy trì ngữ cảnh dài, vốn tiêu tốn đáng kể GPU, bộ nhớ và băng thông.

Thị trường AI agent tăng trưởng mạnh và kéo các “ông lớn” vào cuộc đua

Dự báo thị trường AI agent cho thấy tăng trưởng dài hạn, thúc đẩy các công ty công nghệ cạnh tranh về mô hình, chi phí suy luận và hệ sinh thái tích hợp.

Quy mô thị trường AI agent được nêu là 4,92 tỷ USD năm 2024, 6,016 tỷ USD năm 2025 và 44,97 tỷ USD vào năm 2035, với mức tăng trưởng 22,28% mỗi năm trong thập kỷ tới. Các lĩnh vực được nhắc đến như ngân hàng, y tế, bán lẻ và sản xuất đang là nhóm tiếp cận sớm.

Đọc thêm:  Selig (CFTC): Dự luật mới có thể đưa Mỹ thành chuẩn vàng quản lý crypto

Doanh nghiệp thường đưa AI agent vào hệ thống quản trị khách hàng, công cụ lập kế hoạch và thiết lập an ninh để giảm chi phí và tăng năng suất. Từ vị thế “tùy chọn”, AI agent đang được coi như hạ tầng nền tảng cho vận hành số.

Tại Trung Quốc, Alibaba ra mắt Qwen3.5 nhắm đến thị trường nội địa và tuyên bố giảm 60% chi phí xử lý so với trước. Mô hình được mô tả có thể “nhìn màn hình” và thực hiện tác vụ trên điện thoại lẫn máy tính, cạnh tranh trực tiếp với Doubao của ByteDance, trong bối cảnh cũng có thông tin về bản cập nhật DeepSeek.

Ở mảng nhân sự, OpenAI tuyển Peter Steinberger (ngày 15 theo nội dung cung cấp), người xây dựng OpenClaw – một AI agent mã nguồn mở. CEO Sam Altman cho biết Steinberger sẽ dẫn dắt công việc về thế hệ personal agent tiếp theo, tập trung vào các trợ lý có thể làm việc hữu ích trong thực tế.

Thiếu hụt nhân lực AI khiến doanh nghiệp ưu tiên mua giải pháp hơn tự xây

Khoảng trống kỹ năng AI đang là rào cản lớn, khiến tỷ lệ thành công khi mua giải pháp từ nhà cung cấp chuyên biệt cao hơn đáng kể so với tự phát triển nội bộ.

94% lãnh đạo doanh nghiệp cho biết đang thiếu kỹ năng AI. Đến năm 2028, 44% dự kiến vẫn thiếu hụt ở mức 20% đến 40%. Workera cho biết các khoảng trống kỹ năng này có thể khiến kinh tế toàn cầu thiệt hại 5,5 nghìn tỷ USD trong năm 2026 do trì hoãn sản phẩm, vấn đề chất lượng và mất doanh số.

Hiện nhu cầu nhân lực AI vượt cung 3,2 lần trên toàn cầu. Việc làm AI có mức lương cao hơn 67% so với vị trí phần mềm thông thường. Tuy vậy, 85% nhân viên văn phòng học về AI vào thời gian cá nhân, và 83% nói họ chủ yếu tự học thay vì được đào tạo chính quy.

Về hiệu quả triển khai, khi doanh nghiệp mua công cụ AI từ nhà cung cấp chuyên biệt, tỷ lệ thành công được nêu là 67%. Trong khi đó, tự xây dựng nội bộ “chỉ hiệu quả khoảng một phần ba” so với lựa chọn mua, hàm ý rủi ro triển khai cao nếu thiếu đội ngũ và quy trình phù hợp.

Đọc thêm:  Vì sao Bộ Tài chính Mỹ mua lại 2 tỷ USD nợ công?

Salesforce được ghi nhận tăng 119% về agent vào đầu năm 2025 và vượt 500 triệu USD doanh thu định kỳ cho các sản phẩm này, đồng thời bổ sung 6.000 khách hàng doanh nghiệp trong 3 tháng. Dữ liệu này củng cố xu hướng thị trường có thể tập trung vào một số nhà cung cấp lớn có khả năng đưa sản phẩm “chạy được trong thực tế”.

Những câu hỏi thường gặp

GB300 NVL72 cải thiện điều gì so với Hopper?

NVIDIA mô tả GB300 NVL72 xử lý khối lượng công việc cao gấp 50 lần trên mỗi megawatt so với Hopper, đồng thời giảm chi phí trên mỗi thông tin xử lý xuống 35 lần.

Đo kiểm độc lập nói gì về GB200 NVL72?

Signal65 cho biết GB200 NVL72 xử lý lượng thông tin trên mỗi watt cao hơn 10 lần, giúp chi phí giảm còn khoảng 1/10 so với trước.

Vì sao AI agent cần hạ tầng suy luận mạnh hơn?

AI agent và trợ lý số cần phản hồi tức thì và phải “nhớ” ngữ cảnh dài (ví dụ toàn bộ dự án phần mềm). Nếu có độ trễ hoặc thiếu ngữ cảnh, công cụ dễ thất bại khi đưa vào quy trình doanh nghiệp.

Xu hướng nhu cầu đối với AI agent đang thay đổi ra sao?

Các công cụ AI viết code và trợ lý số hiện chiếm gần một nửa truy vấn liên quan đến AI, tăng từ mức 11% một năm trước, theo báo cáo State of Inference của OpenRouter.

Thiếu hụt kỹ năng AI ảnh hưởng thế nào đến quyết định “mua hay tự xây”?

Dữ liệu trong nội dung cho thấy mua công cụ từ nhà cung cấp chuyên biệt có tỷ lệ thành công 67%, trong khi tự xây nội bộ chỉ hiệu quả khoảng một phần ba so với phương án mua, do thiếu nhân lực và kinh nghiệm triển khai.

More like this

Kraken gia nhập ICE Chat, đưa nhắn tin AI vào crypto tổ chức

Kraken gia nhập ICE Chat, đưa nhắn tin AI...

Kraken tích hợp ICE Chat để mở rộng nhắn tin hỗ trợ AI cho giao dịch crypto...
Bridge của Stripe nhận phê duyệt OCC giữa phản đối charter bank crypto

Bridge của Stripe nhận phê duyệt OCC giữa phản...

Bridge, nền tảng stablecoin được Stripe mua lại năm ngoái, vừa nhận chấp thuận có điều kiện...
American Bitcoin do Trump dẫn dắt vượt mốc 6.000 BTC

American Bitcoin do Trump dẫn dắt vượt mốc 6.000...

American Bitcoin Corp cho biết đã vượt mốc 6.000 Bitcoin trong dự trữ, đưa công ty nhanh...