先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gpthuiyuan
对我而言,可以说,GPT4的图像功能是继 Code Intepreter (现在叫Advanced Data Analysis)之后又一个大大提升我工作效率的功能升级。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
其实,在最初,多模态版功能被放出的新闻刚出来时,我还颇不以为然。新闻中提到GPT Plus的订阅用户已经可以使用图像和声音了,然而我打开Web时却没发现任何变化。于是升级了一下手机APP,果然,出现了一个上载图片的按钮。
我随手拍了一张书中上的地球仪照片传了上去。她说:
这是一张地球仪的照片,显示的是部分亚洲和非洲的区域。地球仪是一个三维模型,用来表示地球的表面。你想知道更多的信息还是有其他问题呢?
我问道:
我可以上传什么文件呢?
她说:
在这个聊天环境中,你主要可以上传图片进行交互。其他类型的文件,如文档、音频或视频等,目前不被支持。如果你有图片想要分享或讨论,可以直接上传,我会尽量帮助你分析或回答相关问题。
闹了半天,只支持图片啊。我重新试用了一下APP里一直有的发送语音功能,一如既往地「弱」,于是我顿时失去了兴趣……
直到几天后,我需要给PPT写讲解词,在调用Code Interpreter 写代码对PPT进行内容提取报错之后,我想起她这个新放出的原生功能,于是新建了一个对话,把PPT截图扔了进去,他果然毫不费力地把图片中的内容进行了详细、完整的描述。从图片到文字?这可太方便了!于是,在接下来的时间里,只要涉及到PPT内容提取,我就全靠她的这个图像识别功能,比OCR什么的可是好用太多了!!!
LLM所代表的AI进化速度,可真是太快了!不得不再次狠狠地感慨:20年后,世界一定会完全、完全被改变,在这一次的巨大浪潮里,我能够在其中做些什么呢?
写这篇文章前,我简单翻了一遍微软放出来的那篇166页关于Chat GPT 4 V 的研究文档。这才发现,我只不过用到了她这新功能的小小皮毛而已!!!
以下是这篇文档的总结部分,供参考:
11 Conclusions 11 结论
11.1 Summary and Conclusions 11.1 概要与结论
In this report, our primary focus is on probing GPT-4V across various application scenarios. 在这篇报告中,我们主要关注在各种应用场景中探索GPT-4V。
The findings reveal its remarkable capabilities, some of which have not been investigated or demonstrated in existing approaches. 研究发现它具有出色的能力,其中一些在现有方法中尚未被研究或展示。
While we strive to uncover as many of these capabilities as possible, we acknowledge that our presentation may not be exhaustive. 尽管我们努力尽可能地揭示这些能力,但我们承认我们的介绍可能不是详尽无遗的。
Nevertheless, this report can serve as a reference for future research aimed at exploring additional uses of GPT-4V, deepening the understanding of LMMs, and building even more powerful LMMs. 尽管如此,这篇报告可以作为未来研究的参考,目的是探索GPT-4V的其他用途,加深对LMMs的理解,并构建更为强大的LMMs。
11.2 Towards Future LMMs 11.2 朝向未来的LMMs
The weaknesses and limitations of GPT models have been extensively discussed in related reports [99, 100, 24]. GPT模型的弱点和局限性在相关报告[99, 100, 24]中已经进行了广泛的讨论。
In this section, we briefly focus on presenting our perspective on future research directions. 在这一部分,我们简要地关注于展示我们对未来研究方向的观点。
Models like GPT-1, GPT-2, and GPT-3 function primarily as text-in-text-out systems, capable of processing natural language only. 像GPT-1、GPT-2和GPT-3这样的模型主要作为文本输入-文本输出系统,只能处理自然语言。
GPT-4 (no vision) demonstrates unparalleled competence in text understanding and generation, while GPT-4V exhibits a strong ability to comprehend the image domain as well. GPT-4(无视觉)在文本理解和生成方面展现了无与伦比的能力,而GPT-4V也展现了对图像领域的强大理解能力。
As a natural progression, LMMs should be able to generate interleaved image-text content, such as producing vivid tutorials containing both text and images, to enable comprehensive multimodal content understanding and generation. 作为一个自然的进展,LMMs应该能够生成交错的图像-文本内容,例如制作包含文本和图像的生动的教程,以实现全面的多模态内容理解和生成。
Additionally, it would be beneficial to incorporate other modalities, such as video, audio, and other sensor data, to expand the capabilities of LMMs. 此外,整合其他模式,如视频、音频和其他传感器数据,将有助于扩展LMMs的能力。
Regarding the learning process, current approaches predominantly rely on well-organized data, such as image-tag or image-text datasets. 关于学习过程,当前的方法主要依赖于组织良好的数据,如图像标签或图像-文本数据集。
However, a more versatile model may be able to learn from various sources, including online web content and even real-world physical environments, to facilitate continuous self-evolution. 然而,一个更为多功能的模型可能能够从各种来源学习,包括在线网页内容甚至真实世界的物理环境,以促进持续的自我进化。