PhởGPT mô hình ngôn ngữ tiếng Việt tiên tiến nhất hiện nay

PhởGPT

Trong Ngày hội trí tuệ nhân tạo – AI Day 2023, diễn ra tại TPHCM vào ngày 5 và 6.12, VinAI Research đã giới thiệu mô hình ngôn ngữ tiếng Việt lớn nhất và mới nhất: PhoGPT. Đây là một bước đột phá trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) tiếng Việt, giải quyết những hạn chế của các mô hình trước đây và tạo ra một nền tảng mã nguồn mở cho cộng đồng AI trong nước.

Trong sự kiện, Tiến sĩ Bùi Hải Hưng, Tổng giám đốc VinAI, đã trình diễn trước một đám đông hơn 1.000 người. Ông đã sử dụng ChatGPT trên điện thoại di động để thể hiện khả năng của công nghệ này. Tuy nhiên, khi ông tắt kết nối internet, ChatGPT không thể tiếp tục hoạt động.

Sau đó, ông Hưng đã chuyển sang sử dụng PhởGPT để giới thiệu công nghệ được phát triển tại Việt Nam. Đáng chú ý, PhởGPT vẫn hoạt động mượt mà ngay cả khi không có kết nối internet. Điều này cho thấy sự tiến bộ và khả năng độc lập của công nghệ này trong việc tương tác và cung cấp thông tin mà không cần phụ thuộc vào mạng.

PhoGPT
Ngày hội trí tuệ nhân tạo – AI Day 2023

Tại sao cần có PhởGPT?

Các mô hình ngôn ngữ tiếng Việt hiện có đều chưa đáp ứng được nhu cầu và yêu cầu của các ứng dụng thực tế. Các thử nghiệm cho thấy, các mô hình này có hiệu suất thấp, khả năng hiểu và viết văn phong tiếng Việt kém, và phụ thuộc vào các mô hình ngoại quốc, như ChatGPT của OpenAI.

Điều này không chỉ gây khó khăn cho việc phát triển các ứng dụng tiếng Việt chất lượng cao, mà còn ảnh hưởng đến sự phát triển của cộng đồng NLP trong nước. Vì vậy, cần có một mô hình ngôn ngữ tiếng Việt mới, mạnh mẽ hơn và có khả năng xử lý ngôn ngữ Việt với độ chính xác và hiệu suất cao.

PhởGPT là gì?

PhởGPT là một mô hình ngôn ngữ dữ liệu lớn, có 7.5 tỉ tham số, được xây dựng trên nền tảng giải mã Transformer. Mô hình này được huấn luyện từ đầu, sử dụng một tập dữ liệu tiếng Việt khổng lồ, gồm 41GB văn bản, bao gồm Wikipedia và các bài báo tin tức. Mô hình này cũng sử dụng những kỹ thuật tiên tiến nhất hiện có, như cơ chế tập trung chớp nhoáng (Flash Attention), ngoại suy độ dài ngữ cảnh AliBi.

Những kỹ thuật này giúp mô hình hiểu sâu hơn về ngữ cảnh, và tăng khả năng đối thoại và tương tác tự nhiên của PhoGPT. Mô hình này có thể tạo ra các văn bản tiếng Việt chất lượng cao, phong phú và đa dạng, cho nhiều mục đích khác nhau. Mô hình này cũng có thể thực hiện các nhiệm vụ theo chỉ dẫn, như trả lời câu hỏi, viết thơ, viết luận văn, sửa lỗi chính tả, tóm tắt văn bản…

PhởGPT có gì khác biệt?

PhởGPT có nhiều điểm khác biệt so với các mô hình ngôn ngữ tiếng Việt khác, đặc biệt là so với ChatGPT. Đầu tiên, PhoGPT là một mô hình ngôn ngữ chuyên dụng cho tiếng Việt, không phụ thuộc vào bất kỳ một mô hình nào khác của thế giới, đảm bảo việc làm chủ công nghệ lõi tiên tiến cho Việt Nam.

Thứ hai, PhởGPT là một dự án mã nguồn mở (Open-source), thay vì là một phần mềm sở hữu riêng như ChatGPT của OpenAI.

PhởGPT

Điều này giúp tạo ra một môi trường, cộng đồng người dùng có thể phát triển các ứng dụng tùy chỉnh và độc đáo, đặc biệt là những ứng dụng đòi hỏi sự bảo mật cao mà không phụ thuộc vào nguồn từ các phần mềm sở hữu riêng. Điều này cũng góp phần thúc đẩy sự phát triển của cộng đồng NLP trong nước, tạo ra nhiều cơ hội và ứng dụng mới cho người dùng.

PhởGPT có thể làm gì?

PhởGPT là một mô hình ngôn ngữ lớn cho tiếng Việt, được phát triển bởi công ty VinAI. PhởGPT có thể làm được nhiều việc thú vị và hữu ích, như:

  • Sinh văn bản theo chủ đề, mục đích và phong cách khác nhau, ví dụ như thơ, truyện, bài luận, bài viết, lời bài hát, tweet, code, v.v.
  • Trả lời câu hỏi, tóm tắt nội dung, dịch thuật, sửa lỗi chính tả, tối ưu hóa văn bản, v.v.
  • Tạo ra các hình ảnh đồ họa nghệ thuật theo yêu cầu của người dùng, ví dụ như tranh vẽ, biểu đồ, logo, v.v.

PhởGPT là một công cụ đa nhiệm và linh hoạt, có khả năng đáp ứng đa dạng các nhu cầu ngôn ngữ của người sử dụng.

Phở GPT

Phân tích so sánh giữa phiên bản PhởGPT-7B5-Instruct và ChatGPT mã nguồn đóng (GPT-3.5-turbo) cùng với các mô hình mã nguồn mở khác, cho thấy PhởGPT đứng ở vị trí thứ hai sau ChatGPT trong hầu hết các mục đánh giá. Nhóm phát triển PhởGPT đang tiếp tục cải tiến mô hình và dự định mở rộng dự án sang các ngôn ngữ khác, đặc biệt là trong khu vực Đông Nam Á.

Việc công khai mã nguồn của PhởGPT và sẵn sàng cung cấp cho người dùng đã tạo ra một môi trường và cộng đồng cho phép người dùng phát triển các ứng dụng tùy chỉnh và độc đáo, đặc biệt là những ứng dụng đòi hỏi mức độ bảo mật cao mà không phụ thuộc vào nguồn từ các phần mềm sở hữu riêng.

Sự ra đời của PhởGPT đặt nền móng cho việc phát triển các mô hình ngôn ngữ tiếng Việt hiệu suất cao, cung cấp cơ sở để phát triển các ứng dụng thực tiễn, hiệu quả và phù hợp với chiến lược phát triển trí tuệ nhân tạo đến năm 2030 của Chính phủ.

Trong tương lai, VinAI sẽ tiến hành nghiên cứu và phát triển các ứng dụng dành cho người dùng cá nhân cũng như các gói giải pháp hỗ trợ chuyên sâu dành cho doanh nghiệp bằng ngôn ngữ tiếng Việt trong các lĩnh vực như y tế, giáo dục và nhiều lĩnh vực khác.

Bài đọc khác: Tại sao BAEMIN thất bại ở Việt Nam?

0/5 (0 Reviews)

Mọi người đều thích

[Thơ] Có Những Ngày Như Thế

Có những ngày chỉ muốn giấu mình đi Vào một nơi chẳng ai tìm ra cả Mình sẽ sống một cuộc đời rất lạ Chẳng ưu tư phiền não bởi

Messtori

Dành cho bạn