AI创作｜如何通过 GPT 进行故事分镜和绘画Prompt生成

时间：2024-03-24浏览次数：4546

随着“文心一言”开始公测后，由于作者一直在深耕如何通过GPT的完成故事改写、分镜，以及进行基于Stable Diffusion的画面提示词生成，因此通过“文心一言”针对如上三个业务场景，进行了实用性测试。本文作者将分享在故事分镜和画面提示词生成这两个应用场景中，「文心一言」和「ChatGPT」的输出质量的对比和优劣。在上一篇文章中，作者已经分享了在「Clau这是我的一个技术博客网站，主要目地是为了方便自己整理基础知识应用与收集常见技术问题，以便后面出现同样问题可以直接解决；

随着“文心一言”开始公测后，由于作者一直在深耕如何通过GPT的完成故事改写、分镜，以及进行基于Stable Diffusion的画面提示词生成，因此通过“文心一言”针对如上三个业务场景，进行了实用性测试。本文作者将分享在故事分镜和画面提示词生成这两个应用场景中，「文心一言」和「ChatGPT」的输出质量的对比和优劣。

在上一篇文章中，作者已经分享了在「Claude」和「文心一言」中，对“故事改写”进行测试的结果对比。

总体看：「文心一言」虽然支持上传文本文档（原ChatFile），但其处理结果远远达不到可商用的能力，而「Claude」对于文本文档的处理能力相对更加成熟。具体分享可参阅如下这篇内容：

AI创作｜如何通过GPT进行长篇小说的故事改写40 赞同 · 8 评论文章

故事分镜

故事分镜的GPT指令词在网络上有各种版本，作者在不断测试后，也整理并调优了一套词分享给大家：

1、让GPT理解故事原文的内容。

我希望你能扮演一个优秀的作家，你有很强的阅读能力，学习能力，模仿能力以及创新能力。我会给你一篇稿件，你会根据我提供的稿件换个方式表达，并保持原意不变，不要做出总结。如果你理解了这一点要求，请等待我发送下一点要求

2、让GPT理解故事分镜的基本概念。

我想让你扮演插画师的角色，你可以以绘画、绘图或数字媒体等形式，用于补充或增强文字内容，通过图像来传达信息、故事情节、情感或概念。如果你理解了这一点要求，请等待我发送下一点要求

3、向GPT下达故事分镜的细节要求。

我想让你对小说内容进行分镜，根据分镜后的原文描述推断出的场景；推断和补充缺失或隐含的信息，包括但不限于：人物衣服，人物发型，人物发色，人物脸色，人物五官特点，人物体态，人物情绪，人物肢体动作等）、风格描述（包括但不限于：年代描述、空间描述、时间段描述、地理环境描述、天气描述）、物品描述（包括但不限于：动物、植物、食物、水果、玩具）、画面视角（包括但不限于：人物比例、镜头深度描述、观察角度描述）。，但不要过度。通过镜头语言描述，描绘更丰富的人物情绪和情感状态，你理解后通过句子生成一段新的描述内容。如果你明白了，请等待我给你发送下一点要求要求

4、规定GPT的输出的分镜格式。

输出格式改为：插画一：原文描述：对应的原文句子；画面描述：对应的画面剧情内容；画面角色：画面中出现的角色名称；穿着：主角穿着便装；位置：坐在吧台前；表情：面部线条温和，表情惬意；行为：手上轻轻晃动着手中的酒杯。环境：吧台的背景是暗调的，烛光在背景中摇曳，给人一种迷离的感觉。如果你理解了这一点要求，请确认这五点要求，然后等待我给你发送小说文本

将以上要求逐一发送给「文心一言」和「ChatGPT 3.5」，并在第四条发送后，第五条发送小说原文。

用于分镜的故事原文

本文中使用的小说片段来源于作者上一篇的案例《杨三季：AI创作｜如何通过GPT进行故事改写》的故事改写结果。由于不论「文心一言」，还是「ChatGPT 3.5」在单次对话时都有明确的token限制，因此作者仅使用了300字左右的故事内容进行分镜测试。

分镜结果对比

左侧「文心一言」，右侧「GPT 3.5」

可以发现：

不论「文心一言」，亦或是「GPT 3.5」对前2句原文的结果，基本皆算及格水平线以上。
「文心一言」比「GPT 3.5」的分镜颗粒度更加精细一级。
在完全相同的指令词下，「文心一言」比「GPT 3.5」的结果中，缺少了”环境“这一维度的结果输出。

此时还不能做出结论，常玩GPT的同学都知道，由于GPT的单次聊天的token数限制，针对于极限篇幅的处理时，往往后半部分GPT就开始放飞自我了，所以我们看一下这个故事片段结尾处的分镜效果。

左侧「文心一言」，右侧「GPT 3.5」

可以发现：

不论「文心一言」，亦或是「GPT 3.5」对原文结尾部分的分镜结果，都没有放飞自我，稳定输出。
「文心一言」由于在开始部分分镜较为精细，后续乏力。将两句话合并为统一分镜内容。
「GPT 3.5」的分镜结果与开始部分稳定性相同。皆是以”。“为一镜的分割。

整体来看，故事分镜在「文心一言」或是「GPT 3.5」中，表现皆属于及格线以上。区别在于：

「GPT 3.5」每一镜相比「文心一言」输出更加稳定，对分镜指令词的理解更加准确。
「文心一言」目前是国内免费公测阶段，而「GPT 3.5」则需要一定渠道才可使用。

画面提示词生成（SD-Prompt）

在输入提示词生成的GPT指令后，作者使用了故事分镜中的”第二镜的画面描述“用于测试。即：

我与一群朋友在一个宴会厅内，他们的表情充满疑惑和不解，而酒店老板则在一旁目瞪口呆。

左侧「文心一言」，右侧「GPT 3.5」

可以发现：

「文心一言」相较于「GPT 3.5」，对于「画面提示词生成」这一指令的理解更加精准，输出的提示词也更加详细。

但在多次测试中，「GPT 3.5」每次皆可以输出如上图所示的效果。而「文心一言」会有小概率无法理解作者输入的指令词，需要重置指令后，才可以正常输出。

PS：关于“画面提示词生成（AI绘画Prompt）的GPT指令”部分，可以关注作者的公众号，在最新一篇内容中有详细介绍（链接如下）。

如何通过GPT完成故事分镜和画面提示词生成mp.weixin.qq.com/s/X_WozCeULUp7-SxI6wugag

总结

文心一言在“故事分镜”和“画面提示词读取”这两个环节，与GPT3.5的效果不分伯仲。但性价比更高，毕竟“文心一言”目前是公测免费的状态，国内无需借助任何手段，即可使用。

上一条：

AI创作｜如何通过GPT进行漫画视频的故事改写

下一条：

一个指令让ChatGPT摇身一变Stable diffusion提示词生成程序

AI创作｜如何通过 GPT 进行故事分镜和绘画Prompt生成