Vào tối ngày 6/12 vừa qua, Google chính thức giới thiệu Gemini - một mô hình AI tiên tiến và toàn diện, đặt ra một thách thức đáng kể đối với GPT-4 của OpenAI. Sử dụng kiến thức đồ sộ từ 57 lĩnh vực, Gemini không chỉ là một cải tiến, mà là bước đột phá đánh dấu vượt qua khả năng của con người ở cấp độ chuyên gia.
Đối với các mô hình ngôn ngữ lớn phổ biến gần đây, Gemini đem đến một đột phá độc đáo bằng cách tiếp cận đa chiều. Nó không chỉ có khả năng xử lý văn bản mà còn linh hoạt trong việc tóm tắt, thao tác và kết hợp nhiều dạng thông tin khác nhau, bao gồm cả văn bản, mã nguồn, âm thanh, hình ảnh và video.
Để đáp ứng đa dạng nhu cầu sử dụng, từ các trung tâm dữ liệu cho đến thiết bị di động, Google thông báo rằng Gemini 1.0 sẽ có sẵn dưới ba biến thể kích thước khác nhau: Gemini Ultra, Gemini Pro và Gemini Nano. Trong số này, Gemini Ultra nổi bật với kích thước lớn và hiệu suất mạnh mẽ nhất.
Theo thông báo kết quả thử nghiệm từ Google, Gemini Ultra đã đạt tỷ lệ 90% trong bài kiểm tra về khả năng hiểu ngôn ngữ đa nhiệm lớn (MMLU - Massive Multitask Language Understanding). Mô hình này tích hợp kiến thức từ 57 lĩnh vực khác nhau như toán, vật lý, lịch sử, luật, y học và đạo đức để kiểm tra cả sự hiểu biết về thế giới và khả năng giải quyết vấn đề. Đặc biệt, nó có khả năng "suy nghĩ kỹ lưỡng trước khi đưa ra câu trả lời cho những câu hỏi khó".
Với kết quả này, Gemini trở thành AI đầu tiên vượt qua khả năng của con người ở cấp độ chuyên gia, với điểm số 89,8% trong bài kiểm tra tương tự. Trong khi đó, GPT-4 chỉ đạt 87%, LLAMA-2 có tỷ lệ 68%, và Claude 2 của Anthropic đạt 78,5%.
Ngoài ra, phiên bản mạnh nhất của Gemini cũng vượt qua 30 trong tổng số 32 tiêu chuẩn được đề xuất trong lĩnh vực nghiên cứu và phát triển mô hình ngôn ngữ lớn. Đặc biệt, nó đạt điểm 59,4% về khả năng MMMU (hiểu biết lớn về đa phương thức trên đa ngành), bao gồm các nhiệm vụ đa phương thức mở rộng trên nhiều lĩnh vực khác nhau, đòi hỏi khả năng suy luận chủ ý.
Demis Hassabis, CEO của Google DeepMind và đại diện cho Đội ngũ Gemini, đã chia sẻ rằng công ty đang hướng tới việc xây dựng thế hệ mới của mô hình AI, lấy cảm hứng từ khả năng nhận biết và tương tác với thế giới như con người. Mục tiêu là biến AI không chỉ là một phần mềm thông minh, mà còn trở nên hữu ích và trực quan như một đối tác đồng hành cho người dùng.
Hassabis nói, "Hôm nay, chúng tôi đã tiến gần hơn đến tầm nhìn này với việc giới thiệu Gemini - một mô hình AI tiên tiến và toàn diện nhất từng được phát triển bởi Google."
Ngoài sức mạnh tính toán đáng kể, Google cho biết rằng Gemini 1.0 được đào tạo để đồng thời nhận diện văn bản, hình ảnh, âm thanh và nhiều dạng thông tin khác, giúp nó hiểu rõ hơn về nội dung đa dạng và có thể đối mặt với các câu hỏi liên quan đến các chủ đề phức tạp. Mô hình này cũng có khả năng giải thích và viết mã bằng nhiều ngôn ngữ lập trình phổ biến như Python, Java, C++ và Golang.
Theo Google, những tính năng này sẽ giúp Gemini đọc và hiểu thông tin từ hàng trăm nghìn tài liệu, mở ra tiềm năng đột phá trong nhiều lĩnh vực, từ khoa học đến tài chính, trong thời gian ngắn.
Trong buổi ra mắt, Google tuyên bố rằng Gemini Ultra, dành cho các tác vụ phức tạp nhất, đang trong giai đoạn thử nghiệm an toàn trước khi chính thức ra mắt. Gemini Nano sẽ được tích hợp vào Pixel 8 Pro để thực hiện các tác vụ trên thiết bị di động, bao gồm việc tóm tắt nội dung ghi âm và trả lời thông minh trên bàn phím Gboard. Cả hai phiên bản này dự kiến sẽ xuất hiện trên thị trường vào năm sau.
Đồng thời, phiên bản Pro của Gemini đã được triển khai trong chatbot Bard. Người dùng có thể trải nghiệm các cải tiến qua các yêu cầu về đọc hiểu, tóm tắt, lập luận, lập trình và lập kế hoạch.
Đây là một bước nâng cấp đáng chú ý nhất cho Bard kể từ khi ra mắt, tuy nhiên, hiện tại Bard sử dụng Gemini Pro chỉ hỗ trợ tiếng Anh và có sẵn ở 180 quốc gia và vùng lãnh thổ. Google cho biết sẽ mở rộng hỗ trợ ngôn ngữ cho Bard trong thời gian sớm nhất. Năm sau, Bard sẽ được nâng cấp và chuyển sang sử dụng phiên bản Gemini Ultra mạnh mẽ nhất.
Theo: vnexpress, CNBC/PCMag