Một trong những cải tiến của Transformer là sử dụng multi-head attention. Thay vì tính toán chỉ một phép attention duy nhất, mô hình này chia nhỏ các vector Query
Một trong những cải tiến của Transformer là sử dụng multi-head attention. Thay vì tính toán chỉ một phép attention duy nhất, mô hình này chia nhỏ các vector Query