Bài viết này dựa trên cuộc thảo luận từ Podcast Lex Fridman: Nghe tập phim tại đây.

Trong cuộc trò chuyện này, Lex Fridman trò chuyện với Dylan Patel và Nathan Lambert về những phát triển mới nhất trong AI, tập trung vào DeepSeek, tham vọng AI của Trung Quốc, vai trò của NVIDIA trong cuộc đua AI toàn cầu và tương lai của các cụm siêu AI. Cuộc thảo luận bao gồm các đột phá về hiệu quả AI, cuộc chiến địa chính trị giành quyền thống trị chất bán dẫn và những nhân tố chính định hình tương lai của trí tuệ nhân tạo.

Trí tuệ nhân tạo đang phát triển với tốc độ chóng mặt, nhưng không theo cách mà hầu hết mọi người mong đợi. 

Các tiêu đề báo chí rầm rộ về các mô hình lớn hơn, nhiều thông số hơn và các khả năng mới đáng kinh ngạc. Nhưng ẩn sau tất cả sự cường điệu đó, một cuộc cách mạng thầm lặng hơn đang diễn ra: khiến AI hiệu quả hơn, tiết kiệm chi phí hơn và mang tính chiến lược về mặt địa chính trị hơn. 

Và nếu bạn chú ý, bạn sẽ nhận thấy một điều lớn lao - bối cảnh AI của Trung Quốc đang phát triển theo cách mà ít ai ngờ tới.

Các mô hình AI thông minh hơn: Phương pháp tiếp cận kết hợp các chuyên gia

Không có gì bí mật khi các mô hình ngôn ngữ lớn (LLM) đòi hỏi một lượng sức mạnh tính toán khổng lồ. Việc đào tạo một mô hình từ đầu có thể tốn hàng trăm triệu đô la, và việc vận hành nó? Đó là một hố chi phí không đáy khác. Tương lai của AI sẽ không chỉ được quyết định bởi ai có thuật toán tốt nhất mà còn được quyết định bởi ai tìm ra cách xây dựng các mô hình AI mạnh mẽ không có đốt cháy GDP của một quốc gia vào chi phí máy chủ. Và đó chính xác là nơi mà một sự thay đổi lớn đang diễn ra.

Thay vì liên tục tăng kích thước mô hình, các kỹ sư đang ngày càng hiểu rõ hơn về cách thức hoạt động thực sự của các hệ thống này.

 Đi vào hỗn hợp các chuyên gia mô hình. 

Hãy tưởng tượng bạn đang tập hợp một nhóm chuyên gia, nhưng thay vì để mọi chuyên gia làm việc với mọi câu hỏi, bạn chỉ kích hoạt những người phù hợp nhất với công việc. Đó chính xác là cách các mô hình mới này hoạt động. Thay vì có một mạng lưới nơ-ron khổng lồ xử lý mọi yêu cầu đơn lẻ với toàn bộ sức mạnh, chỉ một vài mô hình phụ "chuyên gia" sáng lên tại bất kỳ thời điểm nào. Kết quả là gì? Tăng hiệu quả đáng kể—cắt giảm cả tính toán và mức tiêu thụ năng lượng—mà không phải hy sinh trí thông minh.

Đây không chỉ là lý thuyết.

 Một số mô hình AI mới nhất đến từ Trung Quốc đang chứng minh rằng phương pháp này có hiệu quả trong các ứng dụng thực tế. Bằng cách tinh chỉnh cách phân bổ tính toán, họ có được hiệu suất ngang bằng với các mô hình phương Tây tốt nhất, nhưng chỉ bằng một phần nhỏ chi phí.

Đột phá tối ưu hóa cấp thấp

Điều đó đưa chúng ta đến sự thay đổi lớn tiếp theo: tối ưu hóa cấp thấp.

 Hầu hết các công ty AI đều dựa vào các khuôn khổ phần mềm hiện có như CUDA, do NVIDIA phát triển, để đào tạo các mô hình của họ. Nhưng các khuôn khổ này không được thiết kế để đạt hiệu quả cao nhất; chúng được xây dựng để sử dụng chung. Các công ty đang tạo ra những đột phá thực sự ngay bây giờ là những công ty tái thiết kế cách AI sử dụng phần cứng. 

Họ không chỉ sử dụng GPU; họ còn tận dụng tối đa hiệu suất của GPU, viết lại các quy tắc lập trình GPU để tính toán nhanh hơn, tinh gọn hơn và rẻ hơn đáng kể.

Cuộc đua giành sức mạnh tính toán

Và khi nói đến phần cứng, kích thước rất quan trọng.

 Một số công ty lớn nhất trong lĩnh vực AI vận hành các cụm máy tính khổng lồ, về cơ bản là các trang trại máy chủ khổng lồ chứa hàng chục nghìn GPU. Để hiểu rõ hơn, Meta có một cụm đào tạo trong khoảng 60.000 đến 100.000 GPU tương đương H100. Các mô hình AI mới nhất của Trung Quốc đang được đào tạo trên các cụm gồm khoảng 50.000 GPU—đủ hỏa lực để theo kịp những công ty tốt nhất trên thế giới. 

Quy mô lớn của những khoản đầu tư này cho thấy AI không còn chỉ là cuộc chạy đua vũ trang của ngành công nghệ nữa; mà đã trở thành ưu tiên quốc gia.

Bàn cờ địa chính trị của AI

Tất nhiên, bối cảnh AI không chỉ là về việc ai có thể đào tạo các mô hình nhanh nhất mà còn là về việc ai có thể thực sự có được phần cứng cần thiết. Và đó chính là lúc địa chính trị can thiệp vào bức tranh. 

Hoa Kỳ đã thực hiện các biện pháp kiểm soát xuất khẩu ngày càng nghiêm ngặt đối với các chip AI cao cấp, hạn chế việc bán chúng cho Trung Quốc. NVIDIA đã phản ứng bằng cách sản xuất các phiên bản GPU cắt giảm dành riêng cho thị trường Trung Quốc. 

Điều này có nghĩa là trong khi các công ty AI của Trung Quốc vẫn có thể đào tạo các mô hình lớn, họ buộc phải làm như vậy với phần cứng yếu hơn một chút. Nhưng đây là phần thú vị: những hạn chế này đang thúc đẩy các công ty AI của Trung Quốc phải trả giá hơn hiệu quả. Thay vì dùng mọi cách để đạt đến đỉnh cao với khả năng tính toán không giới hạn, họ buộc phải đổi mới. 

Họ đang tối ưu hóa phần mềm, suy nghĩ lại về kiến trúc và tìm cách khai thác hiệu suất mà các công ty phương Tây thậm chí còn chưa cân nhắc đến. Trớ trêu thay, những hạn chế này khiến họ trở thành đối thủ cạnh tranh mạnh hơn.

Chúng ta có đang tiến gần tới AGI không?

Và sau đó là câu hỏi lớn bao trùm mọi thứ: chúng ta đã tiến gần đến Trí tuệ nhân tạo tổng quát (AGI) đến mức nào? 

Một số người cho rằng các mô hình ngày nay đã cho thấy những dấu hiệu của nó. Khả năng thích ứng của AI hiện đại trên nhiều nhiệm vụ—lý luận, giải quyết vấn đề, sáng tạo—cho thấy chúng ta có thể tiến xa hơn trên con đường đến AGI so với những gì mọi người nghĩ. 

Và với sức mạnh sản xuất của Trung Quốc, nước này có vị thế độc đáo để đẩy nhanh tiến độ. Trong khi Hoa Kỳ và Châu Âu thống trị phần mềm AI, Trung Quốc là xương sống của phần cứng AI. Nước này kiểm soát một phần lớn chuỗi cung ứng chất bán dẫn của thế giới, mang lại cho nước này lợi thế trong việc sản xuất hàng loạt các con chip cần thiết để đào tạo và triển khai các hệ thống AI ở quy mô lớn.

Đài Loan: Trung tâm của vũ trụ AI

Điều này đưa chúng ta đến Đài Loan, người hùng thầm lặng của toàn bộ cuộc đua AI toàn cầu. Công ty sản xuất chất bán dẫn Đài Loan (TSMC) sản xuất chip AI tiên tiến nhất thế giới. Hầu như mọi mô hình AI—cho dù đó là GPT của OpenAI, Gemini của Google hay các hệ thống học sâu mới nhất của Trung Quốc—đều dựa vào chip do TSMC sản xuất.

 Nếu có bất cứ điều gì làm gián đoạn chuỗi cung ứng của TSMC, hiệu ứng lan tỏa sẽ được cảm nhận trên toàn bộ mọi ngành công nghiệp, từ điện thoại thông minh đến siêu máy tính. AI không chỉ là về đột phá mã hóa nữa mà còn là về chuỗi cung ứng toàn cầu, liên minh chiến lược và sự ổn định địa chính trị.

Tương lai của AI: Hiệu quả chiến thắng

Vậy tất cả những điều này có ý nghĩa gì với chúng ta? 

AI đang chuyển từ cuộc cạnh tranh vũ phu về "ai có mô hình lớn nhất" sang trò chơi chiến lược hơn nhiều về hiệu quả, làm chủ phần cứng và định vị địa chính trị. Các công ty (và quốc gia) tìm ra cách tối ưu hóa, mở rộng quy mô và triển khai AI hiệu quả sẽ là những công ty thống trị tương lai. Và nếu bạn không chú ý đến những thay đổi này, bạn sẽ bỏ lỡ câu chuyện thực sự về hướng đi của AI.

Đây không chỉ là những bản demo hấp dẫn hay điểm chuẩn phá kỷ lục.

 Đó là về ai Thực ra thắng cuộc đua AI về lâu dài—ai xây dựng các mô hình không chỉ mạnh mẽ mà còn thực tế, có khả năng mở rộng và bền vững. Và cuộc đua đó? Càng ngày càng trở nên thú vị hơn.

Đăng bởi Leo Giang
BÀI VIẾT TRƯỚC
Bạn cũng có thể thích

Để lại bình luận của bạn:

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *