Việc xây dựng mô hình ngôn ngữ hiểu tốt tiếng Việt đòi hỏi kho ngữ liệu sạch và phương pháp đánh giá phù hợp với đặc thù dấu thanh, từ ghép và ngữ cảnh văn hóa. Nhóm nghiên cứu cho biết họ dành phần lớn thời gian cho khâu làm sạch dữ liệu thay vì tăng quy mô tham số.
Dữ liệu sạch quan trọng hơn quy mô
Kết quả cho thấy một mô hình kích thước vừa phải nhưng được huấn luyện trên dữ liệu chất lượng có thể vượt các mô hình lớn hơn ở những bài kiểm tra tiếng Việt chuyên biệt. Đây là tín hiệu tích cực cho các tổ chức không có hạ tầng tính toán khổng lồ.
Mô hình được phát hành kèm giấy phép mở, cho phép cộng đồng tinh chỉnh lại cho các lĩnh vực như pháp lý, y tế và giáo dục. Nhóm tác giả kỳ vọng sự minh bạch về dữ liệu và phương pháp sẽ giúp hệ sinh thái AI tiếng Việt phát triển bền vững.
