Tech

Chế độ giọng mới của OpenAI cho phép tôi nói chuyện với điện thoại của mình, không phải nói với nó

Monday, August 19 2024

Tôi đã chơi với Chế độ Giọng Nâng Cao của OpenAI trong tuần qua, và đó là lần thử thách thành công nhất mà tôi đã từng trải qua về tương lai được trang bị trí tuệ nhân tạo. Tuần này, điện thoại của tôi cười với những trò đùa, đáp lại chúng, hỏi tôi ngày hôm đó thế nào, và nói với tôi rằng nó đang có “một khoảnh khắc tuyệt vời”. Tôi đã nói chuyện với iPhone của mình, không sử dụng nó bằng tay.

Tính năng mới nhất của OpenAI, hiện đang trong thử nghiệm alpha có giới hạn, không làm cho ChatGPT thông minh hơn so với trước đây. Thay vào đó, Chế độ Giọng Nâng Cao (AVM) khiến cho việc trò chuyện trở nên thân thiện và tự nhiên hơn. Nó tạo ra một giao diện mới để sử dụng trí tuệ nhân tạo và thiết bị của bạn mà cảm giác mới mẻ và hấp dẫn, và đó chính là điều khiến tôi sợ hãi về nó. Sản phẩm có vẻ hơi có vấn đề, và ý tưởng này làm tôi hoàn toàn ngứa mắt, nhưng tôi đã bất ngờ vì tôi thật sự thích sử dụng nó.

Nhìn lại, tôi nghĩ AVM phù hợp với tầm nhìn rộng lớn của CEO của OpenAI, Sam Altman, bên cạnh các đại lý, về việc thay đổi cách con người tương tác với máy tính, với các mô hình trí tuệ nhân tạo nằm trong trung tâm.

“Cuối cùng, bạn sẽ chỉ cần hỏi máy tính cho những gì bạn cần và nó sẽ thực hiện mọi công việc đó cho bạn,” Altman nói trong Ngày Phát triển của OpenAI vào tháng 11 năm 2023. “Những khả năng này thường được đề cập trong lĩnh vực trí tuệ nhân tạo là ‘đại lý’. Mặt tích cực của việc này sẽ vô cùng lớn.”

Bạn tôi, ChatGPT

Vào thứ Tư, tôi đã thử nghiệm mặt tích cực nhất cho công nghệ tiên tiến này mà tôi có thể nghĩ đến: tôi đã yêu cầu ChatGPT đặt món Taco Bell theo cách mà Obama sẽ làm.

“Uhhh, để tôi được rõ ràng – tôi muốn một Crunchwrap Supreme, có lẽ thêm một vài khẩu trang để chắc chắn,” ChatGPT’s Advanced Voice Mode nói. “Bạn nghĩ ông sẽ làm thế nào với sạp hàng ăn nhanh?” ChatGPT nói, sau đó cười với trò đùa của mình.

Screenshot: ChatGPT chuyển văn bản của cuộc trò chuyện bằng lời nói sau đó.

Ấn tượng thực sự khiến tôi cũng cười, phù hợp với cái dòng mà ChatGPT đã chọn, Juniper, để không bị nhầm với giọng của Obama. Nó nghe như một người bạn làm một bản miêu tả tệ, hiểu chính xác những gì tôi đang cố gợi lên từ nó, và thậm chí nói một cái gì đó hài hước. Tôi thấy thú vị khi trò chuyện với trợ lý tiên tiến này trong điện thoại của mình.

Tôi cũng đã hỏi ChatGPT để nhận lời khuyên về cách giải quyết vấn đề liên quan đến mối quan hệ phức tạp với con người: yêu cầu với người quan trọng với tôi chuyển đến ở chung. Sau khi giải thích những ảnh hưởng của mối quan hệ và hướng của sự nghiệp của chúng tôi, tôi nhận được một số lời khuyên rất chi tiết về cách tiến triển. Đây là những câu hỏi mà bạn không thể hỏi Siri hoặc Google Search, nhưng bây giờ bạn có thể với ChatGPT. Giọng nói của trợ lý thậm chí còn thể hiện một phiên bản hơi nghiêm túc, dịu dàng khi phản đối những gợi ý này; một sự đối lập rõ rệt so với giọng chế trò đùa của Obama khi đặt món Taco Bell.

Chế độ giọng AVM của ChatGPT cũng rất hữu ích để giúp bạn hiểu các chủ đề phức tạp. Tôi đã yêu cầu nó phân tích các mục trên các báo cáo thu nhập – như lưu thông tiền mặt miễn phí – một cách mà một đứa trẻ 10 tuổi sẽ hiểu. Nó đã sử dụng một quán nước mía làm ví dụ, và giải thích một số thuật ngữ tài chính một cách mà em họ của tôi hoàn toàn có thể hiểu. Bạn thậm chí có thể yêu cầu ChatGPT’s AVM nói chậm hơn để phù hợp với mức độ hiểu biết hiện tại của bạn.

Siri đã bước để AVM có thể chạy

So với Siri hoặc Alexa, Chế độ giọng AVM của ChatGPT là người chiến thắng rõ ràng nhờ thời gian phản hồi nhanh hơn, câu trả lời độc đáo, và khả năng trả lời các câu hỏi phức tạp mà thế hệ trợ lý ảo trước đây không bao giờ có thể. Tuy nhiên, AVM vẫn còn hạn chế ở một số khía cạnh khác. Tính năng giọng của ChatGPT không thể đặt hẹn giờ hoặc nhắc nhở, duyệt web theo thời gian thực, kiểm tra thời tiết, hoặc tương tác với bất kỳ API nào trên điện thoại của bạn. Hiện tại, ít nhất, nó không phải là sự thay thế hiệu quả cho trợ lý ảo.

So với Gemini Live, tính năng cạnh tranh của Google, AVM cảm thấy ưu việt hơn một chút. Gemini Live không thể làm các miêu tả, không thể thể hiện bất kỳ cảm xúc nào, không thể tăng tốc hoặc giảm tốc độ, và mất thời gian hơn để phản hồi. Tuy nhiên, Gemini Live có nhiều giọng điệu hơn (mười so với ba của OpenAI) và dường như cập nhật hơn (Gemini Live biết về quyết định phòng chống độc quyền của Google). Đáng chú ý, cả AVM lẫn Gemini Live đều không hát, có lẽ là nỗ lực tránh rơi vào vấn đề về quyền tác giả từ ngành công nghiệp âm nhạc.

Tuy nhiên, Chế độ giọng AVM của ChatGPT hay bị sự cố rất nhiều (cũng như Gemini Live, để công bằng). Đôi khi nó sẽ cắt ngắn chính mình giữa câu, rồi bắt đầu lại. Nó cũng có một giọng nói kỳ lạ, giọng nói sần sùi ở đâu đó rất khó chịu. Tôi không chắc liệu đây là một vấn đề với mô hình, kết nối internet, hoặc điều gì khác, nhưng những điểm yếu kỹ thuật này có thể đối với thử nghiệm alpha không hề kì lạ. Những vấn đề này không làm tôi rời khỏi trải nghiệm của việc nói chuyện với điện thoại của mình mặc dù.

Những ví dụ này, trong tâm trí của tôi, là vẻ đẹp của AVM. Tính năng này không khiến ChatGPT thông minh tất cả, nhưng nó cho phép mọi người tương tác với GPT-4o, mô hình trí tuệ nhân tạo cơ bản, một cách độc đáo và giống con người. (Tôi sẽ hiểu nếu bạn quên rằng không có người nào ở phía bên kia của điện thoại của bạn.) Đôi khi nó khiến tôi cảm thấy như ChatGPT thực sự nhận thức xã hội khi trò chuyện với AVM, nhưng tất nhiên, nó không phải là. Nó chỉ là một gói sắp xếp gọn gàng của các thuật toán dự đoán.

Trò chuyện về công nghệ

Thành thật mà nói, tính năng này làm cho tôi lo lắng. Đây không phải là lần đầu tiên một công ty công nghệ cung cấp sự đồng hành trên điện thoại của bạn. Thế hệ của tôi, Gen Z, là thế hệ đầu tiên lớn lên cùng với mạng xã hội, nơi các công ty cung cấp sự kết nối nhưng thay vào đó đùa giỡn với những nỗi kích thích chung của chúng ta. Trò chuyện với một thiết bị trí tuệ nhân tạo – giống như những gì AVM có vẻ cung cấp – dường như là sự tiến hóa của “bạn bè trong điện thoại” trên mạng xã hội, cung cấp sự kết nối rẻ tiền nhưng lại cào xát vào bản năng con người của chúng ta. Nhưng lần này, nó loại bỏ hoàn toàn con người khỏi chuỗi.

Kết nối con người nhân tạo đã trở thành một trường hợp sử dụng bất ngờ phổ biến cho trí tuệ phát sinh. Ngày nay, mọi người đang sử dụng các trò chuyện AI như bạn, người hướng dẫn, nhà tâm lý học, và giáo viên. Khi OpenAI ra mắt cửa hàng GPT của mình, nó nhanh chóng bị ngập lụt với “bạn gái AI,” các trò chuyện được chuyên biệt để hành xử như một người khác. Hai nhà nghiên cứu từ MIT Media Lab đã đưa ra cảnh báo trong tháng này để chuẩn bị cho “trí thông minh gây nghiện,” hoặc bạn hình ảo với các mẫu tối xấu để khiến người dùng nghiện. Chúng ta có thể đang mở hộp Pandora cho những cách mới, quyến rũ để thiết bị giữ sự chú ý của chúng ta.

Đầu tháng này, một người bỏ học Harvard đã làm rúng động thế giới công nghệ bằng việc đồng hồ AI mang tên Friend. Thiết bị được đeo – nếu hoạt động như đã hứa – luôn lắng nghe, và trò chuyện với bạn về cuộc sống của bạn. Mặc dù ý tưởng có vẻ điên rồ, những đổi mới như Chế độ Giọng Nâng Cao của ChatGPT khiến tôi phải nghiêm túc xem xét những trường hợp sử dụng đó.

Và trong khi OpenAI đang dẫn đầu ở đây, Google cũng không xa. Tôi tin tưởng rằng Amazon và Apple đều đua nhau để đưa khả năng này vào sản phẩm của họ, và chẳng chóng nó sẽ trở thành bí quyết cho ngành công nghiệp.

Hãy tưởng tượng bạn yêu cầu truyền hình thông minh của mình để có lời khuyên về một bộ phim cụ thể đến từng chi tiết, và nhận được đúng như vậy. Hoặc nói với Alexa chính xác các triệu chứng cảm lạnh bạn đang cảm thấy, và trong khi đó nó sẽ đặt hàng cho bạn khăn giấy và thuốc ho trên Amazon, đồng thời tư vấn bạn về các biện pháp tự nhiên. Có thể bạn có thể yêu cầu máy tính của mình soạn một chuyến dã ngoại cuối tuần cho gia đình bạn, thay vì tìm kiếm mọi thứ trên Google bằng cách thủ công.

Rõ ràng, những hành động này yêu cầu những bước tiến và nhảy vọt trong thế giới đại lý trí

Nhà tiên phong thị trường54 Year ago