Một mô hình ngôn ngữ lớn (LLM) là một mô hình ngôn ngữ với khả năng tổng quát trong việc tạo ngôn ngữ và các tác vụ xử lý ngôn ngữ tự nhiên khác. LLMs có được khả năng này bằng cách học các mối quan hệ thống kê từ các văn bản trong quá trình huấn luyện tự giám sát và bán giám sát có độ phức tạp tính toán cao.[1] Các LLM có thể được sử dụng cho việc tạo văn bản, một dạng trí tuệ nhân tạo tạo sinh, bằng cách nhận đầu vào văn bản và liên tục dự đoán token hoặc từ tiếp theo.[2]
Đến năm 2020, việc tinh chỉnh là cách duy nhất mà một mô hình có thể được điều chỉnh để có thể hoàn thành các tác vụ cụ thể. Tuy nhiên, các mô hình kích thước lớn hơn, chẳng hạn như GPT-3, có thể thông qua kỹ thuật lời nhắc để đạt được kết quả tương tự.[6] Người ta cho rằng chúng có được kiến thức về cú pháp, ngữ nghĩa và các khái niệm trong các tập ngữ liệu của con người, nhưng cũng gặp phải những sai sót và thiên vị có trong các tập ngữ liệu đó.[7]