ChatGPT重磅升级：可以看图、说话，几秒钟制作出逼真的合成语音

2023-09-27 10:02:56 浏览：261 作者：管理员

据OpenAI官网9月25日消息，OpenAI宣布在接下来的两周内，将在ChatGPT中向Plus和Enterprise用户推出语音和图像。语音将在iOS和Android上推出（在您的设置中选择加入），图像将在所有平台上提供。

图片来源：OpenAI官网

用语音与ChatGPT交流

语音输入功能类似于手机上的语音助手，用户只需按下一个按钮，说出自己的问题，ChatGPT 就会将其转换为文本，然后生成答案，再将答案转换为语音，播放给用户。

例如，让ChatGPT听一段小猫咪的文本故事，然后选择人类语音便可以一键完成转录。完成后，用户可以下载这段语音。

OpenAI称，这项新的语音技术能够从几秒钟的真实语音中制作出逼真的合成语音，为许多有创意和无障碍的应用打开了大门。然而，这些功能也带来了新的风险，例如恶意行为者可能冒充公众人物或实施欺诈。OpenAI 表示，这种模型不会被广泛开放，而是会受到严格的控制和限制。

图像输入功能：可以向ChatGPT提问图片

图像输入功能则类似于 Google Lens，用户可以拍摄自己感兴趣的事物，并上传到 ChatGPT 中。ChatGPT会尝试识别用户想要询问的内容，并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题，或者配合语音或文本输入来进行交流。

用户可以向ChatGPT展示一张或多张图片，提问相关的问题。例如，发送一张坏掉的烧烤炉图片，然后询问无法启动原因；拍摄一张冰箱中的食材，询问多种菜品制作方案。

带视觉的GPT-4（GPT-4V）使用户能够指示GPT-4分析用户提供的图像输入，OpenAI称，这是我们广泛提供的最新功能。将额外的模态（如图像输入）纳入大型语言模型（LLM）被一些人视为人工智能研究和开发的关键前沿。多模式LLM提供了一种可能性，即通过新颖的接口和功能扩大纯语言系统的影响，使其能够解决新任务，并为用户提供新颖的体验。在该系统卡中，我们分析了GPT-4V的安全特性。我们在GPT-4V安全方面的工作建立在GPT-4的基础上，在这里我们深入研究了专门针对图像输入所做的评估、准备和缓解工作。

基于视觉的模型也带来了新的挑战，从对人的幻觉到在高风险领域依赖模型对图像的解释。在进行更广泛的部署之前，我们与红色团队成员一起测试了该模型在极端主义和科学熟练度等领域的风险，以及一组不同的阿尔法测试人员。我们的研究使我们能够在几个关键细节上保持一致，以便负责任地使用。

OpenAI还放出了一段视频，是和ChatGPT商量着修自行车，不断问 ChatGPT：这里是扳手吗？是调整这里吗？甚至还把说明书拍照发给ChatGPT求解释。

图片来源：OpenAI官网

OpenAI表示还采取了技术措施，大幅限制了ChatGPT分析和直接陈述他人的能力，因为ChatGPT并不总是准确的，这些系统应该尊重个人隐私。

据中国基金报，国盛证券分析称，Chatgpt即将开放图生文及语音对话功能，AI技术持续迭代再翻新一页。

二级市场上，近期AI板块的走强，离不开行业利好的刺激。

7月13日，网信办等七部门联合公布《生成式人工智能服务管理暂行办法》。8月31日起，百度文心一言、讯飞星火等大模型正式向公众开放。9月5日，WPS AI正式面向社会开放，率先应用在WPS智能文档。

9月21日，微软举行了秋季发布会，在发布会上微软宣布将于本月26日发布Windows 11的下一个大更新23H2，据介绍本次系统更新将会有超过150项新功能，包括新的人工智能驱动的Windows Copilot功能。

Prev Chapter：ChatGPT能说能听能看了！但是朋友圈已经不关心了

Next Chapter：ChatGPT开口说话了：五种不同语音，语气更像真人

评论区

共 0 条评论

这篇文章还没有收到评论，赶紧来抢沙发吧~

ChatGPT重磅升级：可以看图、说话，几秒钟制作出逼真的合成语音_tiknovel-最新最全的nft,web3,AI技术资讯技术社区

ChatGPT重磅升级：可以看图、说话，几秒钟制作出逼真的合成语音

评论区

【随机内容】