Andrej Karpathy, một trong những chuyên gia AI hàng đầu thế giới, đã chia sẻ cách ông sử dụng các Large Language Models (LLMs) trong video nổi tiếng “How I use LLMs”. Là cựu Giám đốc AI của Tesla, Andrej Karpathy không chỉ nghiên cứu về LLMs, mà còn trực tiếp ứng dụng chúng vào công việc lập trình, nghiên cứu và sáng tạo nội dung hàng ngày.
Bài viết này sẽ cung cấp hướng dẫn chi tiết, không chỉ tổng hợp từ video, mà còn bổ sung thêm kiến thức thực tế, ví dụ minh họa, công cụ liên quan và các mẹo nâng cao để bạn áp dụng hiệu quả ngay hôm nay.
1. Giới Thiệu Chung Về LLMs
LLMs được xây dựng dựa trên nguyên tắc “token stream” – nghĩa là tất cả văn bản đều được phân tách thành các đơn vị nhỏ gọi là “token”. Khi bạn nhập một đoạn văn bản, hệ thống sẽ chia nhỏ thành các token, sau đó xử lý và trả lời bằng cách nối các token đó lại thành câu. Ví dụ, khi bạn hỏi về lượng caffeine trong một shot Americano, mô hình sẽ dựa trên kiến thức từ hàng loạt tài liệu trên internet để trả lời, mặc dù thông tin đó không được cập nhật theo thời gian thực do kiến thức của mô hình bị “cắt” tại thời điểm huấn luyện.
ChatGPT – sản phẩm đầu tiên của OpenAI ra đời năm 2022 – là minh chứng tiêu biểu cho cách thức giao tiếp qua chat, khi mỗi cuộc đối thoại được biểu diễn dưới dạng “cửa sổ ngữ cảnh” chứa đựng toàn bộ các token của cuộc trò chuyện. Từ đó, bạn có thể hiểu rằng quá trình giao tiếp không chỉ đơn thuần là trao đổi văn bản mà còn là việc quản lý bộ nhớ làm việc (context window) của hệ thống.
How I use LLMs – Andrej Karpathy
2. Nguyên Lý Hoạt Động & Quy Trình Huấn Luyện
2.1. Token Stream và Context Window
- Token Stream: Văn bản được phân chia thành các token – những mảnh nhỏ mà mô hình xử lý để “dự đoán” token tiếp theo. Điều này giống như việc xây dựng một chuỗi ký tự, qua đó mô hình “học” cách viết lại câu trả lời.
- Context Window: Đây là bộ nhớ làm việc của cuộc trò chuyện. Khi các token được thêm vào liên tục, mô hình phải xử lý cả thông tin trước đó để trả lời chính xác câu hỏi hiện tại. Vì vậy, nếu chuỗi quá dài, hiệu suất của mô hình có thể giảm do “nhiễu” từ các token không liên quan.
2.2. Các Giai Đoạn Huấn Luyện
- Pre-training: Giai đoạn này tương đương với việc “nén” toàn bộ kiến thức từ internet thành một tệp ZIP lớn, chứa hàng tỷ thông tin dưới dạng tham số của mạng nơ-ron. Vì quá trình này tốn kém về thời gian và tài chính, nên kiến thức của mô hình chỉ cập nhật đến một mốc thời gian nhất định.
- Post-training: Sau khi pre-training, mô hình được “tinh chỉnh” qua quá trình supervised fine-tuning và reinforcement learning. Ở đây, mô hình được huấn luyện thông qua các cuộc hội thoại mẫu do con người thiết kế, giúp nó phát triển “cách nói chuyện” tự nhiên và thân thiện.
3. Các Công Cụ Và Ứng Dụng Tích Hợp
3.1. Công Cụ Hỗ Trợ Tìm Kiếm Trên Internet
Khi bạn cần truy cập thông tin mới, ngoài kiến thức đã được huấn luyện, LLM có thể kích hoạt công cụ tìm kiếm. Ví dụ: để biết lịch phát sóng mới của một chương trình TV, mô hình sẽ thực hiện tìm kiếm trực tuyến, trích dẫn nguồn và đưa ra câu trả lời cập nhật.
3.2. Sử Dụng Python Interpreter Và Phân Tích Dữ Liệu
LLMs hiện nay có khả năng tích hợp trình thông dịch Python giúp giải quyết các bài toán lập trình phức tạp, tạo báo cáo, biểu đồ hoặc phân tích dữ liệu. Khi gặp lỗi code hay cần tính toán số liệu, mô hình sẽ chuyển sang viết đoạn mã Python, chạy thử và trả về kết quả cùng với giải thích chi tiết.
3.3. Tính Năng File Upload & Artifacts
Bạn có thể tải lên các tài liệu (PDF, hình ảnh…) để mô hình “đọc” và tóm tắt nội dung. Công cụ này hữu ích trong việc nghiên cứu tài liệu học thuật, đọc sách hay giải thích thông tin trên nhãn sản phẩm. Ngoài ra, các tính năng như Artifacts cho phép tạo ứng dụng flashcards, sơ đồ tư duy… chỉ bằng vài thao tác đơn giản.

3.4. Tương Tác Đa Phương Tiện (Multimodal)
Không chỉ giới hạn ở văn bản, các LLM hiện đại còn hỗ trợ nhập liệu và xuất ra bằng giọng nói, hình ảnh và video. Bạn có thể:
- Voice Mode: Sử dụng giọng nói để đặt câu hỏi, chuyển đổi qua văn bản nhờ công nghệ speech-to-text.
- Advanced Voice Mode: Cho phép xử lý âm thanh trực tiếp trong mô hình mà không qua bước trung gian, tạo ra trải nghiệm giao tiếp tự nhiên hơn.
- Image & Video Input: Tải lên hình ảnh, video để mô hình phân tích và trả lời các câu hỏi liên quan đến nội dung của chúng.
4. Các Ví Dụ Ứng Dụng Thực Tế
- Hỏi đáp kiến thức chung: Khi đặt câu hỏi về lượng caffeine hay các thông tin y khoa cơ bản, mô hình trả lời dựa trên kiến thức phổ biến có sẵn.
- Giải quyết bài toán lập trình: Khi gặp lỗi “gradient check” trong code, chuyển sang “thinking model” giúp mô hình phân tích, suy nghĩ và đưa ra giải pháp chính xác sau một khoảng thời gian tính toán.
- Nghiên cứu sản phẩm và so sánh dữ liệu: Ví dụ, phân tích lịch sử giao dịch, dự báo giá trị thị trường hay vẽ biểu đồ xu hướng, mô hình kết hợp tìm kiếm trực tuyến và lập trình để tạo báo cáo trực quan.
- Hỗ trợ học tập và dịch thuật: Tính năng Custom GPT cho phép người dùng tạo ra các mô hình trợ lý cá nhân, như trợ lý dịch thuật chi tiết cho tiếng Hàn, trích xuất từ vựng hoặc tạo flashcards học ngôn ngữ.

5. Tính Năng Nâng Cao Và Cá Nhân Hóa
5.1. Memory Feature
Tính năng này cho phép LLM lưu trữ thông tin cá nhân từ các cuộc trò chuyện trước đó. Nhờ đó, mô hình sẽ “nhớ” sở thích, phong cách và các thông tin cá nhân khác để đưa ra gợi ý chính xác, phù hợp hơn trong các tương tác sau.
5.2. Custom Instructions & Custom GPT
Bạn có thể thiết lập cách thức mô hình giao tiếp – từ ngữ điệu, cách diễn đạt cho phù hợp với cá nhân mình. Ngoài ra, tính năng Custom GPT cho phép tạo các trợ lý chuyên biệt (ví dụ: trợ lý dịch thuật hay trích xuất từ vựng) bằng cách lưu lại các mẫu hướng dẫn (few-shot prompt) để sử dụng lại nhiều lần, tiết kiệm thời gian và tăng độ chính xác.
6. Kết Luận
Video “How I use LLMs” của Andrej Karpathy mang đến cái nhìn toàn diện về hệ sinh thái LLM hiện nay, từ nguyên lý hoạt động, quá trình huấn luyện cho đến việc tích hợp các công cụ hỗ trợ như tìm kiếm trực tuyến, Python interpreter, xử lý đa phương tiện và các tính năng nâng cao như memory, custom GPT. Những công nghệ này không chỉ giúp cải thiện hiệu quả công việc mà còn mở ra nhiều cơ hội sáng tạo trong nghiên cứu, lập trình và học tập. Việc hiểu rõ các tính năng và cách thức sử dụng sẽ giúp bạn lựa chọn công cụ phù hợp với nhu cầu của mình, từ đó tận dụng tối đa sức mạnh của LLM.
— nguồn: Andrej Karpathy —






