Sự biến động của khối lượng công việc AI buộc các trung tâm dữ liệu phải chạy các tác vụ phụ phụ trợ, làm tăng lượng năng lượng sử dụng, nhu cầu cơ sở hạ tầng, chi phí và áp lực lên lưới điện.

Sự giám sát đối với mức tiêu thụ điện năng của các trung tâm dữ liệu AI đã đạt đến đỉnh điểm. Để ứng phó, các nhà hoạch định chính sách, các công ty tiện ích và các tập đoàn công nghệ đang cố gắng tìm cách xây dựng đủ nguồn phát điện nhằm đáp ứng nhu cầu, mà không làm tăng chi phí tiền điện cho người tiêu dùng bình thường. Tuy nhiên, một câu hỏi quan trọng lại nhận được rất ít sự cân nhắc: Tại sao ngay từ đầu các trung tâm dữ liệu AI lại cần nhiều điện đến như vậy?

Một phần quan trọng nhưng bị bỏ qua của câu trả lời không nằm ở bản thân các mô hình, mà nằm ở cách các trung tâm dữ liệu quản lý các biến động nhanh chóng về nhu cầu điện năng do khối lượng công việc AI hiện đại tạo ra. Hiện đang chịu áp lực dữ dội trong việc kiềm chế mức sử dụng điện, ngành công nghiệp này không còn có thể tiếp tục phụ thuộc vào các phương pháp truyền thống như sử dụng khối lượng công việc phụ để làm mượt nhu cầu điện năng.

Sự biến động của khối lượng công việc làm tăng mức tiêu thụ điện năng như thế nào

Gốc rễ của vấn đề nằm ở cách các mô hình AI lớn được huấn luyện. Quá trình huấn luyện hiện đại thường diễn ra theo cụm đồng bộ (bulk-synchronous): hàng nghìn GPU thực hiện tính toán song song, sau đó tạm dừng một thời gian ngắn để trao đổi dữ liệu và đồng bộ hóa kết quả trên toàn bộ cụm. Trong những khoảng tạm dừng này, many GPU sẽ ở trạng thái nghỉ trước khi tăng tốc trở lại.

Ở quy mô siêu lớn (hyperscale), các khoảng thời gian nghỉ đồng bộ này tạo ra sự sụt giảm mạnh và nhanh chóng về nhu cầu điện năng trên toàn bộ trung tâm dữ liệu. Những biến động như vậy có thể gây áp lực lên máy biến áp, các đơn vị phân phối điện và thậm chí cả các thành phần lưới điện thượng nguồn, dẫn đến nguy cơ mất điện hoặc thời gian ngừng hoạt động tốn kém.

Một trong những cách phổ biến nhất mà các nhà vận hành trung tâm dữ liệu sử dụng để quản lý những biến động này là chạy các khối lượng công việc phụ (secondary workloads) bất cứ khi nào GPU có thời gian nghỉ. Các khối lượng công việc này không thuộc phần việc huấn luyện AI chính; thay vào đó, chúng tồn tại để ngăn nhu cầu điện năng giảm quá sâu khi GPU nhàn rỗi. Chúng chạy vừa đủ lâu để lấp đầy các khoảng sụt giảm ngắn trong việc sử dụng điện, sau đó nhường chỗ ngay lập tức khi quá trình tính toán chính được tiếp tục. Ví dụ, tại Oracle, quy trình này được dẫn dắt bởi một tính năng gọi là “nhịp tim GPU” (GPU heartbeat) tính bằng mili giây, liên tục đo lường hoạt động của GPU và kích hoạt các khối lượng công việc phụ với thời gian gần như tức thì.

Cách tiếp cận này giúp ổn định hồ sơ nhu cầu điện năng của trung tâm dữ liệu nhưng lại làm tăng mức tiêu thụ điện năng tổng thể một cách không cần thiết, đồng thời gây ra các phi hiệu quả khác và tích tụ rất nhanh ở quy mô lớn.

Chi phí ẩn của các khối lượng công việc phụ

Các khối lượng công việc phụ thường được chia thành hai loại: khối lượng công việc hữu ích (thực hiện công việc có ích trong thời gian nghỉ) và khối lượng công việc giả lập (chỉ tồn tại để duy trì một hồ sơ năng lượng ổn định). Cả hai đều đi kèm với những sự đánh đổi lớn.

Khối lượng công việc hữu ích

Trong một số trường hợp, các nhà vận hành sử dụng các khối lượng công việc phụ hữu ích – các tác vụ sớm muộn gì cũng cần phải chạy và có thể tận dụng các chu kỳ GPU nhàn rỗi. Tuy nhiên, các khối lượng công việc phụ hữu ích này lại cạnh tranh với tác vụ huấn luyện AI chính về tài nguyên GPU, băng thông bộ nhớ và giới hạn nhiệt độ. Kết quả là hiệu suất thực tế của khối lượng công việc chính bị giảm xuống do thời gian huấn luyện kéo dài hơn, chi phí đồng bộ hóa tăng lên hoặc thông lượng bị giảm.

Nói cách khác, các khối lượng công việc phụ hữu ích giúp ổn định nhu cầu điện năng bằng cách hy sinh hiệu suất. Ở quy mô của các cụm AI lớn, ngay cả những tổn thất hiệu suất nhỏ cũng có thể chuyển hóa thành sự gia tăng đáng kể về thời gian huấn luyện, chi phí và thời gian đưa sản phẩm ra thị trường.

Khối lượng công việc giả lập

Khi hiệu suất là yếu tố không thể thỏa hiệp, các nhà vận hành sẽ chuyển sang sử dụng các khối lượng công việc giả lập (dummy workloads) – những tác vụ chỉ thực hiện các phép toán vô nghĩa. Khối lượng công việc giả lập không can thiệp vào hiệu suất huấn luyện nhưng chúng cũng không tạo ra bất kỳ kết quả hữu ích nào. Trong các trung tâm dữ liệu lớn với hàng chục nghìn GPU, điều này đại diện cho một nguồn lãng phí năng lượng khổng lồ và phần lớn là vô hình.

Các hệ lụy dây chuyền đến hoạt động vận hành

Mặc dù việc chạy các khối lượng công việc phụ thường được coi là một chiến thuật quản lý điện năng nhỏ, nhưng chúng lại tạo ra những hệ lụy dây chuyền đến hoạt động vận hành, vượt xa việc lãng phí điện hay tổn thất hiệu suất.

  • Chi phí vận hành cao hơn: Việc duy trì mức sử dụng điện ở đỉnh làm tăng chi phí vận hành trên mọi phương diện. Điện năng, hệ thống làm mát và cơ sở hạ tầng đều phải được thiết kế quy mô để hỗ trợ mức tải tối đa có thể, ngay cả khi khối lượng công việc thực tế chỉ yêu cầu mức công suất đó một cách ngắt quãng.
  • Thời gian đấu nối lưới điện kéo dài hơn: Ngoài ra, các cơ sở có mức tải đỉnh cao hơn sẽ mất nhiều thời gian hơn để kết nối vào lưới điện. Các công ty điện lực đánh giá các dự án dựa trên yêu cầu năng lượng tối đa của chúng. Nếu công ty điện lực phải phân bổ nhiều nguồn phát hoặc công suất truyền tải hơn mức sẵn có, việc phê duyệt có thể bị trì hoãn và chi phí cơ sở hạ tầng có thể tăng lên.
  • Thiết bị xuống cấp nhanh hơn: Cuối cùng, việc liên tục vận hành phần cứng ở mức hiệu suất tối đa sẽ đẩy nhanh quá trình hao mòn. Các GPU, hệ thống điện và cơ sở hạ tầng làm mát phải chịu áp lực nhiệt và điện lớn hơn khi hoạt động ở mức đỉnh liên tục, làm rút ngắn tuổi thọ thiết bị và tăng chi phí bảo trì.

Tại sao điều này lại quan trọng vào lúc này

Nếu ngành công nghiệp thực sự nghiêm túc về việc giảm dấu chân năng lượng của các trung tâm dữ liệu AI, họ phải vượt qua các giải pháp tình thế như khối lượng công việc phụ và áp dụng các cách thông minh hơn để quản lý các biến động nhu cầu nhanh chóng. Sử dụng thêm tài nguyên tính toán – dù là hữu ích hay giả lập – để làm phẳng đường cong công suất cuối cùng chỉ là một sự thay thế tốn kém cho một thiết kế hệ thống tốt hơn. Trên thực tế, nó còn làm trầm trọng thêm chính thách thức về năng lượng mà ngành công nghiệp này đang chịu áp lực phải giải quyết.

Điều đó quan trọng ngay vào lúc này bởi vì các hạn chế không còn là lý thuyết nữa. Sự chậm trễ trong đấu nối lưới điện đang làm chậm tiến độ các dự án, chi phí tiền điện đang bị giám sát chặt chẽ hơn và các cộng đồng đang ngày càng đặt câu hỏi liệu lợi ích của AI có xứng đáng với mức tiêu thụ năng lượng ngày càng tăng của nó hay không. Cuộc tranh luận không thể chỉ tập trung vào việc chúng ta xây dựng thêm nguồn điện nhanh như thế nào. Nó cũng phải tập trung vào việc chúng ta sử dụng nguồn điện hiện có một cách thông minh ra sao. Giải quyết sự biến động của khối lượng công việc bằng các giải pháp hiệu quả hơn, được xây dựng chuyên biệt tuy không giải quyết được mọi thách thức về năng lượng của AI, nhưng nó sẽ ngay lập tức xử lý được một trong những nguồn lãng phí bị bỏ qua nhiều nhất.

Tham khảo từ nguồn: DataCenter Knowledge