66B là một mô hình ngôn ngữ lớn (LLM) có khoảng 66 tỉ tham số, được xây dựng dựa trên kiến trúc transformer. Mô hình này được huấn luyện trên tập dữ liệu văn bản đa dạng và có khả năng hiểu - sinh ngữ ở nhiều ngữ cảnh khác nhau.
Kiến trúc của 66B tập trung vào cơ chế attention theo dõi ngữ cảnh dài và tối ưu hoá qua nhiều lớp. Việc phân tách tham số và kỹ thuật song song cho huấn luyện giúp mô hình xử lý nhanh và hiệu quả trên phần cứng hiện tại. Tuy nhiên, kích thước lớn đồng nghĩa với chi phí tính toán và yêu cầu hạ tầng lưu trữ.
66B được ứng dụng rộng rãi trong NLP như trả lời câu hỏi, tóm tắt văn bản, sinh nội dung, hỗ trợ đối thoại và dịch máy. Người dùng có thể thiết kế prompt linh hoạt hoặc thực hiện fine tuning trên dữ liệu riêng để tối ưu cho chuyên ngành.
Phương pháp huấn luyện của 66B thường gồm pretraining trên dữ liệu văn bản lớn, sau đó có thể áp dụng RLHF để cải thiện chất lượng và an toàn. Việc đánh giá mô hình cần kiểm tra tính đúng đắn, tính công bằng và an toàn nội dung.
66B được kỳ vọng tiếp tục phát triển với quy mô tham số lớn hơn, tối ưu hoá chi phí và tích hợp sâu với hệ sinh thái AI. Các xu hướng chính gồm khả năng cá nhân hóa, an toàn nội dung, khả năng tương tác đa modal và tuỳ biến domain. Quản trị dữ liệu và quyền riêng tư sẽ đóng vai trò trọng yếu trong việc áp dụng mô hình này vào doanh nghiệp và xã hội.