炼丹分享：AI 写网文小说的 GPT 模型（100M参数量），以及一种新采样方法

admin 2024-02-13 09:27:11 49 0

　　这是常见的 100M 参数量 12-12-768 GPT 架构。做过一些魔改（见 PENG Bo：只需几行代码，改进Transformer自注意力机制（几乎不增加计算量））。大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

　　生成效果，点击看动图：大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

　　下载链接：GitHub - BlinkDL/AI-Writer: 用魔改 GPT 生成网文小说。Tuned GPT for novel generation.

　　这么小的模型就不要指望很连贯了。优点是，生成的内容丰富，因为训练的数据够多（全部都是网文，没用其它素材，保持纯净，所以很多常识它仍然是不懂的）大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!。速度快（如果优化估计可以再快100%）。

　　缺点是，由于训练数据全是网文，小白程度相当之高。如果一个人只看网文，可能就会变成这个模样。同时，由于模型很小，它也是个纯智障，纯属娱乐。

　　另外，用了特殊的采样方法，对于这种小模型，效果比 top-p top-k 好。方法是：对于段落开头：几乎完全按照输出的概率分布采样，不需要截断（只设置个 top-p 0.995 意思一下）。这样可以加强行文的变化，观感好很多。对于其它位置：先找到最高概率的字的概率 p，然后移除所有概率小于 0.02*p^2 的字。

　　说说这个设计的思路。

　　两种极端情况是："开放字"（后面可以跟各种字）和"封闭字"（后面只能跟几种字）。采样过于保守，就会单调，甚至陷入重复。采样过于放任，对于小模型会有过多语法错误，影响观感。

　　Top-k 的问题是，在"开放字"的截断过多（只允许 k 个），在"封闭字"的截断不够（仍然允许 k 个）。

　　Top-p 的问题是，如果取到 0.9，在"封闭字"的截断过多；如果取到 0.99，在"开放字"的截断不够。

　　这里的方法，实验下来，较能同时保持"变化够多"和"语法错误较少"，连续写个 X 万字没问题。稍后看看有没有好的理论模型。

　　另外还炼了 24-16-1024 的大一级模型，用 Apple 那个 AFT （ https://export.arxiv.org/pdf/2105.14103 ）魔改，线性注意力，效果还可以，但炼的成本高，等以后优化训练架构后再炼到底。

　　由于训练成本贵，如果大家觉得有意思，欢迎打赏，多谢，哈哈。

　　另外建了个交流 QQ 群 143626394 （加入时请简单自我介绍）。

炼丹分享：AI 写网文小说的 GPT 模型（100M参数量），以及一种新采样方法-第3张图片-

炼丹分享：AI 写网文小说的 GPT 模型（100M参数量），以及一种新采样方法-第4张图片-

本文地址： https://jinzhushangyuan.com/post/526.html

版权声明：除非特别标注，否则均为本站原创文章，转载时请以链接形式注明文章出处。

上一个有创意的篮球比赛口号100条

下一个天津泰达足球比赛时间天津泰达足球比赛时间安排

抱歉，评论功能暂时关闭!