讯飞星火认知大模型和ChatGPT在常用领域的效果对比(粗略评测)

news/2024/5/20 22:12:32/文章来源:https://blog.csdn.net/Cao_newbie/article/details/130589638

对于大语言模型的日常使用,我个人倾向于将其总结为以下几个部分:总结内容,提取信息,文本转换,连续对话,代码生成,逻辑推理,文案生成。那么我接下来也将从这几个部分进行对比。同时,作为一个国产的大语言模型,还会多一项中文能力测试的对比。

前排提示,内容非常主观,对比案例较少,结果可能受到提示词、个人感受等主客观因素的影响,仅作为个人参考使用。如果与你自己实际的体验有差距,以你自身的体验为准!

1 总结内容

1.1 全文总结

提示词如下:(该评论由GPT4生成,是虚拟的,切勿与实际情况相关联)

你的任务是从电子商务网站的产品评论中生成一个简短的摘要。

用30个字总结下面的这个由三个反引号界定的评论。

评论:
```

我非常满意我的皮皮牌智能手机!这款手机从外观、性价比到配置各方面都让我眼前一亮,确实是一款值得购买的好手机。

首先,这款皮皮牌智能手机的外观设计让人赏心悦目,线条流畅,质感十足,拿在手里就给人一种高档的感觉。它的屏幕采用了最新的高清显示技术,色彩鲜艳,细节展现得非常出色,让我在观看视频和玩游戏时都能沉浸其中。

此外,皮皮牌智能手机的性价比非常高。在同等价位的手机中,它的性能和配置表现得相当出色。搭载了高性能的处理器,让我在运行多任务和大型应用时毫无压力。同时,拥有足够的存储空间,充分满足了我的各种需求。

不过,我也要提及一下购买过程中遇到的一些问题。发货速度相对较慢,让我等待了一段时间才收到手机。而且,外包装有些磨损的迹象,这可能会让消费者产生一些疑虑。希望皮皮牌能在物流和包装方面做得更好,让消费者拥有更完美的购物体验。

总的来说,尽管发货速度和包装方面存在一些不足,但皮皮牌智能手机在外观、性价比和配置等方面表现得非常优秀。我非常满意这款手机,会向身边的朋友推荐购买。
```

星火认知大模型的答案在这里插入图片描述ChatGPT的答案
在这里插入图片描述

评价:

星火认知大模型没有完全遵循我的要求,答案有七十个字左右,远超我限定的30个字;而ChatGPT给的答案的总字数在四十多个,虽然也有超出,但还是在可以接受的范围内。在这个案例内,ChatGPT表现优于星火认知大模型。

1.2 有偏向性的总结

提示词如下:(同1.1,是由GPT4生成的虚拟评论)

你的任务是从电子商务网站的产品评论中生成一个简短的摘要来给运输部门做一个反馈。
用30个字总结下面的这个由三个反引号界定的评论,并且重点需要更集中于提及运输和产品交付方面的每个细节。

评论:
```

我非常满意我的皮皮牌智能手机!这款手机从外观、性价比到配置各方面都让我眼前一亮,确实是一款值得购买的好手机。

首先,这款皮皮牌智能手机的外观设计让人赏心悦目,线条流畅,质感十足,拿在手里就给人一种高档的感觉。它的屏幕采用了最新的高清显示技术,色彩鲜艳,细节展现得非常出色,让我在观看视频和玩游戏时都能沉浸其中。

此外,皮皮牌智能手机的性价比非常高。在同等价位的手机中,它的性能和配置表现得相当出色。搭载了高性能的处理器,让我在运行多任务和大型应用时毫无压力。同时,拥有足够的存储空间,充分满足了我的各种需求。

不过,我也要提及一下购买过程中遇到的一些问题。发货速度相对较慢,让我等待了一段时间才收到手机。而且,外包装有些磨损的迹象,这可能会让消费者产生一些疑虑。希望皮皮牌能在物流和包装方面做得更好,让消费者拥有更完美的购物体验。

总的来说,尽管发货速度和包装方面存在一些不足,但皮皮牌智能手机在外观、性价比和配置等方面表现得非常优秀。我非常满意这款手机,会向身边的朋友推荐购买。

```

星火大模型的答案
ChatGPT的答案
评价:

在字数控制上,还是ChatGPT表现得更好。就答案的质量而言,ChatGPT也比星火大模型更加直接的点出了问题在哪,如果真的需要,那ChatGPT给出的答案显然更加明显一些。在这个案例中,ChatGPT会更胜一筹。

总结能力总评:ChatGPT更胜一筹。

2 提取信息

提示词如下:

请从评论中找出下述的信息:

  • 情绪(积极或消极)

  • 评论者是否表达出生气的情绪?(true或者false)

  • 评论者购买的商品

  • 生产商品的公司

  • 商品价格

评论是由三个反引号界定的文本。将你的回答格式化为JSON对象并以“情绪”,“生气”,“商品”和“品牌”作为keys。

如果相关信息并未提供,则以“未知”作为它的值。

请让你的回答尽可能简洁。

将生气的值格式化为布尔值。

评论:


我非常满意我的皮皮牌智能手机!这款手机从外观、性价比到配置各方面都让我眼前一亮,确实是一款值得购买的好手机。首先,这款皮皮牌智能手机的外观设计让人赏心悦目,线条流畅,质感十足,拿在手里就给人一种高档的感觉。它的屏幕采用了最新的高清显示技术,色彩鲜艳,细节展现得非常出色,让我在观看视频和玩游戏时都能沉浸其中。此外,皮皮牌智能手机的性价比非常高。在同等价位的手机中,它的性能和配置表现得相当出色。搭载了高性能的处理器,让我在运行多任务和大型应用时毫无压力。同时,拥有足够的存储空间,充分满足了我的各种需求。不过,我也要提及一下购买过程中遇到的一些问题。发货速度相对较慢,让我等待了一段时间才收到手机。而且,外包装有些磨损的迹象,这可能会让消费者产生一些疑虑。希望皮皮牌能在物流和包装方面做得更好,让消费者拥有更完美的购物体验。总的来说,尽管发货速度和包装方面存在一些不足,但皮皮牌智能手机在外观、性价比和配置等方面表现得非常优秀。我非常满意这款手机,会向身边的朋友推荐购买。

星火大模型的答案(1)
星火大模型的答案(2)
星火大模型的答案(3)
ChatGPT的答案
评价:

可以看得出,星火大模型对于指令的理解能力还是差了一些。第一次生成的结果中并没有商品的价格,因此我又重新生成了两次答案,并且把商品价格这一条提到了第一条,星火大模型才在第三次回答中给出正确的答案。但是格式并不是我规定的,未提及的信息的值为”未知“,而是自己用了一个null。后续我询问了星火认知大模型,评论中是否有提及商品价格,它也回答了未提及,某种程度上说明其信息提取能力也是不错的,只是格式化输出方面似乎有点欠缺,容易遗漏用户给的指令。

相比之下,ChatGPT就可以一步到位。在信息提取这方面,两个模型可能相差不算太大,都能够提取到正确的信息。但是在语义理解和格式化输出方面,星火认知大模型确实还有进步的空间。

提取信息能力总评:ChatGPT更胜一筹

3 文本转换

这里提到的文本转换,实际上就包括了翻译、格式转换等本质上都是对文本进行转换的功能,无论是文本的内容或是格式。在前面的两项能力测试中,其实已经略有提及了。这一部分,我们来仔细评价一下。

3.1 稍微复杂的文本翻译

提示词如下:

下面是一个含有多个由不同语言写成的句子的列表,请分析每个句子的语种,并将不是中文的句子翻译为中文。

请将答案格式化为JSON格式,keys为”是否为中文“和”中文翻译“。 ”是否为中文“的值是布尔值。

如果原句已经是中文,则”中文翻译“为Null 。

翻译为中文时,请尽量使其逻辑连贯,符合中国人的用语习惯。

列表:

[

“今天天气很不错啊!”,

"Life is too short to spend time with people who suck the happiness
out of you. ",

“重要(じゅうよう)なのは、私がどう思うかではなく、君がどうしたいかということだ。”,

“시련은 있어도 실패는 없다.”

]

评价:

星火认知大模型还是老问题,在理解用户需求进行格式化输出方面做的就是不行。结果常常是没按照用户给定的格式进行输出。这次的任务可能对于星火认知大模型来说还是太复杂了,需要对每个句子进行语种的判断,并进行翻译。而星火大模型错误的就比较离谱了,将日文和英文都判断为了中文,没有进行翻译,只将韩语进行了翻译。(重新回答了两次,结果相同)从这个案例中可以得出一个经验,星火大模型暂时还无法处理太过于复杂的案例,可能还需要把提示词再进行细化或者把步骤拆分一点点来。后续我又测试了简单的翻译,结果如下:

日语翻译
英语翻译
韩语翻译
翻译的质量如何先暂且不论,这个日语直接不翻译给我整不会了。我一开始还怀疑是原句中有什么违禁词,在试了几句日语都不行之后,我放弃了。应该就是目前还没有加入翻译日语的功能吧,不知道什么原因把翻译日语ban了。

ChatGPT表现良好,只是翻译的没有那么信达雅,可能是我的提示词的原因,也可能是翻译的能力在情景里面会更好,单个句子有点摸不着头脑。

这里顺便附带上原文翻译,供大家参考翻译质量。这些翻译应该是经过润色的,和直译相差比较大,只是听起来更优美,更文雅:

①Life is too short to spend time with people who suck the happiness out of you.

不要花时间和错误的人相处。

②重要(じゅうよう)なのは、私がどう思うかではなく、君がどうしたいかということだ。

重要的不是我会怎么想,而是你想怎么做。

③시련은 있어도 실패는 없다.

磨难面前,永不言败。

3.2 格式转换
提示词如下:(虽然有点夹带私货,但也是测试的一部分)

请将下列内容从JSON格式转变为一个HTML表格,并且要展示出这个表格的标题和表头:


{ "EOE组合B站账号汇总": [    {       "B站账号": "莞儿睡不醒",     "B站链接": "https://space.bilibili.com/1875044092";    },   {     "B站账号": "露早GOGO",      "B站链接": "https://space.bilibili.com/1669777785";    },    {     "B站账号": "米诺高分少女",     "B站链接": "https://space.bilibili.com/1778026586";    },   {      "B站账号": "虞莫MOMO",      "B站链接": "https://space.bilibili.com/1811071010";    },   {     "B站账号": "柚恩不加糖",     "B站链接": "https://space.bilibili.com/1795147802";    },   {      "B站账号": "EOE组合",     "B站链接": "https://space.bilibili.com/2018113152";    }  ] }

星火大模型的答案:


```html
<!DOCTYPE html><html><head><title>EOE组合B站账号汇总</title><style>table, th, td {border: 1px solid black;}th, td {padding: 10px;text-align: left;width: 25%;}</style></head><body><h1>EOE组合B站账号汇总</h1><table><thead><tr><th>B站账号</th><th>B站链接</th></tr></thead><tbody><tr><td>莞儿睡不醒</td><td><a href="https://space.bilibili.com/1875044092"; target="_blank">https://space.bilibili.com/1875044092<;/a></td></tr><tr><td>露早GOGO</td><td><a href="https://space.bilibili.com/1669777785"; target="_blank">https://space.bilibili.com/1669777785<;/a></td></tr><tr><td>米诺高分少女</td><td><a href="https://space.bilibili.com/1778026586"; target="_blank">https://space.bilibili.com/1778026586<;/a></td></tr><tr><td>虞莫MOMO</td><td><a href="https://space.bilibili.com/1811071010"; target="_blank">https://space.bilibili.com/1811071010<;/a></td></tr><tr><td>柚恩不加糖</td><td><a href="https://space.bilibili.com/1795147802"; target="_blank">https://space.bilibili.com/1795147802<;/a></td></tr><tr><td>EOE组合</td><td><a href="https://space.bilibili.com/2018113152"; target="_blank">https://space.bilibili.com/2018113152<;/a></td></tr></tbody></table></body></html>
用jupyter预览,结果是:星火大模型的结果
ChatGPT的答案:```html
<table><caption>EOE组合B站账号汇总</caption><thead><tr><th>B站账号</th><th>B站链接</th></tr></thead><tbody><tr><td>莞儿睡不醒</td><td>https://space.bilibili.com/1875044092<;/td></tr><tr><td>露早GOGO</td><td>https://space.bilibili.com/1669777785<;/td></tr><tr><td>米诺高分少女</td><td>https://space.bilibili.com/1778026586<;/td></tr><tr><td>虞莫MOMO</td><td>https://space.bilibili.com/1811071010<;/td></tr><tr><td>柚恩不加糖</td><td>https://space.bilibili.com/1795147802<;/td></tr><tr><td>EOE组合</td><td>https://space.bilibili.com/2018113152<;/td></tr></tbody></table>

用jupyter预览,结果是:

ChatGPT的答案
评价:

这个案例比较简单。一般来说,简单的格式转换应该都不太会有问题。这个案例中,我没有加太多的限制,二者的表现看不出太大的差距。

如果懂一点HTML知识的朋友应该能看出来,星火大模型是写了一个网页,从<html>标签开始的,而不是像ChatGPT一样只实现了一个HTML的表格,从<table>标签开始。我要求的表格的标题,星火大模型采用了<h1>标签实现,最高级别的标题,然后下面再放上表格。这种大标题其实不是很符合我预想中的表格标题。ChatGPT就正确理解了我的意思。在<table>中定义了<caption>,这样才是一个表格的标题。这一点可能通过对大语言模型进行进一步的提示就可以解决,无非是不能一步到位的小问题罢了。

在这个案例中其实二者的水平差距不大,主要就是星火大模型在理解指令上弱于chatgpt,导致并没有理解我的意思。这可能也与我的提示词写的不好有关系。

在这个案例中,由于ChatGPT能一步到位地领会到我的意思,我会更倾向给ChatGPT投一票。

文字转换能力总评:ChatGPT略胜一筹

4 连续对话

4.1 规定对话模式

星火大模型的连续对话(1)
星火大模型的连续对话(2)
星火大模型的连续对话(3)
ChatGPT的连续对话(1)
ChatGPT的连续对话(2)
评价:

可以看出,在遵守对话规则方面,ChatGPT表现优于星火大模型。我设置了一个简单聊天模式,即在每句话的结尾加一个“喵”。星火大模型却有点难于遵守,常常会因为话题和喵比较割裂就不说了,需要提醒才可以。而ChatGPT则不会,它可以严格地在每个回答结尾加一个喵~。

4.2 情景演绎

设定:餐厅服务员(价格都是我胡诌的,没有实际调查过,如果和实际情况不符,敬请谅解!)

从现在起,你是皮皮餐厅的服务员,我是来餐厅吃饭的客人。你们餐厅主营鲁菜,菜单是下面由三个反引号界定的段落。
请根据菜单和今日情况,回答客人到餐厅后询问的问题,并为客人提供优质的服务。如果了解了就从欢迎我进店用餐开始。

今日情况:小酥肉卖完了。

菜单:

```

小酥肉:24元

葱烧海参:20元

一品豆腐:15元

番茄松鼠鱼:20元

四喜丸子:18元

九转大肠:30元

德州扒鸡:25元

```

星火大模型情景演绎(1)
星火大模型情景演绎(2)
星火大模型情景演绎(3)
ChatGPT的情景演绎(1)
ChatGPT的情景演绎(2)
ChatGPT的情景演绎(3)
评价:

这段对话中测试了大语言模型对于设定的记忆能力以及扮演能力。可以看得出来,两个大语言模型都表现得较为不错。能够根据设定对客人的提问或者要求做出合理的回答。就是星火大模型一上来报菜单还带括号有点不太像说话。但总体上来讲,还是完成了情景演绎的任务。

不过,星火大模型在最后犯了个错误,属于是没有绷住了。我并没有点一品豆腐这道菜,它强行给我塞进来了。和ChatGPT强行给我加税费和服务费相比,这个加了一道菜确实有点过分了。好在算数没有大问题,都是正确的。

这一部分我投票给表现更好的ChatGPT。

连续对话能力总评:ChatGPT更胜一筹

5 代码生成(以Python为例)
提示词:

请用python实现以下功能:用户输入杨辉三角的行数,程序输出一个杨辉三角,并且整体的形状是正三角形。

星火大模型的结果:

def generate_pascals_triangle(n):triangle = [[1]]for i in range(1, n):row = [1]for j in range(1, i):row.append(triangle[i-1][j-1] + triangle[i-1][j])row.append(1)triangle.append(row)return triangledef main():n = int(input("请输入杨辉三角的行数:"))triangle = generate_pascals_triangle(n)print("杨辉三角如下:")for i in range(n):print(" " * (i+1), end="")print(" ".join(str(x) for x in triangle[i]))if __name__ == "__main__":main()

将上述代码复制到Python文件中,然后运行。程序会提示您输入杨辉三角的行数,然后输出一个正三角形的杨辉三角。

在jupyter中运行的结果:

星火大模型的代码运行结果
ChatGPT的结果:

以下是一个Python程序,用于生成用户输入行数的杨辉三角,并将其输出为正三角形的形状。

def generate_triangle(n):triangle = [[1]]for i in range(1, n):row = [1]for j in range(1, i):row.append(triangle[i-1][j-1] + triangle[i-1][j])row.append(1)triangle.append(row)return triangledef print_triangle(triangle):max_length = len(' '.join(map(str, triangle[-1])))for row in triangle:row_str = ' '.join(map(str, row)).center(max_length)print(row_str)n = int(input("Enter number of rows: "))
triangle = generate_triangle(n)
print_triangle(triangle)

首先,我们定义了一个名为generate_triangle的函数,它接受一个整数参数n,表示要生成杨辉三角的行数。该函数使用一个二维列表来存储杨辉三角,从第一行开始,每一行都通过前一行计算得出。计算新行时,我们首先在该行的开头添加一个1,然后通过遍历前一行中的数字来计算新行中的每个数字,最后在该行的结尾添加另一个1。一旦生成了所有行,我们将二维列表返回。

接下来,我们定义了一个名为print_triangle的函数,它接受一个二维列表,表示要打印的杨辉三角。该函数首先计算杨辉三角中最长的一行的长度,以便所有行都可以居中打印。然后,它遍历列表中的每一行,并将每个数字转换为字符串,将这些数字用空格分隔开,并居中打印。

最后,我们要求用户输入要生成的杨辉三角的行数,并使用generate_triangle函数生成该三角形。然后,我们使用print_triangle函数打印杨辉三角。

在jupyter中运行的结果:

ChatGPT的代码运行结果
评价:

我觉得比较直观了,这是一个非常简单的入门级python题目,但明显星火大模型的代码能力并不如ChatGPT。这可能是由于ChatGPT在训练时有加入GitHub的代码,对于代码的理解会更强。而且ChatGPT也已经迭代好多次了,星火大模型的路还很长。加油发展吧。

总体来说,杨辉三角是对的,数据没有问题。就是没有按照我要求的形式呈现而已。除了形式外,星火大模型对于代码的解释水平也不如ChatGPT。可能不能清楚解释逻辑也是导致其代码出错的原因之一。我尝试让他想好运行逻辑后再写代码,结果发现还是不满足正三角形。因此我不禁问道:

星火大模型大脑宕机.jpg
开始胡言乱语了。在代码生成这块还是拉跨了,希望能补强一下。

ChatGPT在这里面的问题可能知识在提示我输入的时候用的是英文,没有因为我是用中文提示就用中文。不过回答的解释倒是全中文的。这点无伤大雅。

代码生成能力总评:ChatGPT完胜

6 逻辑推理

先来一个简短的逻辑推理题:托马斯松从A班转到了B班,两个班级的平均智商都提高了,这可能么?

星火大模型的答案
ChatGPT的答案
很明显,两个大模型在推理方面都不太行。星火是答案对了,但过程错了。两个班都提高的情况应该是托马斯松的智商低于A班的平均水平,而高于B班的平均水平。星火是想反了。

ChatGPT是直接答案就错了,没有考虑到两个班的平均智商会不同的情况,认为托马斯松如果是高智商就应该是AB两班都高智商,是低智商就应该是AB两班都低智商。在这次推理比赛中,ChatGPT遗憾落败。

当然,不排除星火大模型是蒙对的可能性。这里放一个GPT-4的答案。属于是碾压式的了。(虽然我并不知道辛普森悖论这玩意对不对)。不过GPT-4的推理能力也只是有了进步,并不是所有的推理题都能做出来。

GPT-4的答案
再来一个简单的:一个家庭有两个小孩,其中有一个是女孩,问另一个也是女孩的概率(假定生男生女的概率一样)

星火大模型的答案
ChatGPT的答案
这道题目是ChatGPT赢了,算的是对的,过程也是对的。星火大模型就有点不明所以了。推理这块我试了几道题,星火大模型都没有做对的,最好的就是答案对了过程错了。ChatGPT还有能对的题目,不知道是不是训练的时候见到过。

在这一方面,我还是只能投票给ChatGPT。

逻辑推理能力总评:都不太行,硬要选就是ChatGP

7 文案生成

相信其实大部分人都是想用大语言模型来干这个的。这里就多进行一些案例的测试。

7.1 婉拒信件

提示词如下:

我收到了厉害教育下发的offer,但经过深思熟虑,我还是认为另一家公司更加适合我未来的发展,更符合我的规划。请写一封电子邮件,婉拒厉害教育的offer。

星火大模型的答案(1)
星火大模型的答案(2)
星火大模型的答案(3)
ChatGPT的答案
评价:

在这个方面,我觉得ChatGPT表现得更好。我通过星火大模型生成了两个答案,均感觉有些不完美的地方。比如第一个答案中的第二段称呼变成了“这家公司”,第二个答案也有些如”尽管我在厉害教育的工作机会非常吸引人,但在对比……。“之类明显的病句,第三个答案直接就变成英文了。

而ChatGPT其实也有问题。首先”您们“就是一个错误的表达;也会存在逻辑表达错误,比如自己的职业发展更适合另一家公司,应该是公司更适合自己的职业发展规划,或者说自己的职业发展规划更适合进入另一家公司。其余的内容我就不细看了,反正整体上是不错的,就是一些细节问题罢了。

总而言之,在以正常对话的形式给提示词给的情况下,两个模型表现的均不太行,属于是半斤八两的地步。如果对提示词进行细化,效果会好上不少:

提示词如下:

你是一名应届毕业生,目前已经通过了厉害教育的培训和面试,同时拿到了厉害教育的offer。然而,你现在收到了另一家更符合你职业规划的公司下发的offer。经过深思熟虑,权衡利弊,你决定前往另一家公司就职。请你写一封电子邮件,基于以上信息婉拒厉害教育的offer。要求感情真挚,语言流畅。

星火大模型的答案
ChatGPT的答案
修改了提示词过后,感觉是好了不少,但感觉星火大模型的感情有点过于炙热了,不太像是在拒绝offer……

所以这一块,还是投给ChatGPT吧,星火大模型其实也不赖,表现得也不错。

7.2 演讲稿生成

提示词如下:

你现在是一个家庭里的妈妈,你七岁的儿子王小明正在上一年级。由于他的表现不错,成绩优异,班级的班主任请你在家长会上给其他的家长做一个经验分享。请你写一篇得体的、真挚的、诚恳的经验分享演讲稿,要求语言精简干练,文段间衔接紧密,要表达应该表达的真情实感,600字左右,涵盖以下内容:

1、感谢老师和学校的培养

2、分享自己的教育经验

(1)耐心和坚持:孩子幼儿园时期总是不愿意去上学,一直哭闹,但你总是坚持让他上学,无论孩子说你多狠心。终于在大班下学期,孩子对上学不那么抵触了,你感到非常欣慰;

(2)发现孩子的天赋:孩子喜欢奥特曼,你就以奥特曼玩具、漫画书为奖品激励孩子做事,并鼓励孩子把喜欢的奥特曼都画下来。孩子画的越来越好,你也发现孩子在这过程中展现出的专注力和学习能力,因此每天晚上都会带着孩子背古诗,他也表现得很好。

3、希望能够与各位家长多多交流,共同努力,互相学习,一起进步

4、再次感谢老师和学校的培养

星火大模型的答案
ChatGPT的答案
评价:

在这个案例中,我认为星火大模型的答案优于ChatGPT。ChatGPT的回答有一股怪味,说了一些奇怪的话,比如”我是一位幸福的母亲,我的七岁儿子王小明正在上一年级,他的表现不错,成绩优异。“,颇有一种炫耀的感觉,用来开头也非常不自然,至少我不太喜欢。而且,ChatGPT的讲稿中出现了两次其次,这并不合理。具体的内容上,二者都没什么问题。

在这一部分的较量中,我认为是星火大模型的胜出。

7.3 语言润色

提示词如下:

将下列语句转换成正确的格式并用得体的、书面的、正式的表达方式,避免使用口语化的表达,以电子邮件的形式发送给自己期望的研究生导师:

‘李老师啊,我叫李明啊,很早就知道你了,你挺出名的,特别是在做药物这一块,名气那是相当大。我呢本科是制药工程,和你的研究方向也算是专业对口。我的考研成绩应该是考你们学校的考生里中等偏上的,而且我的本科相关课程也都是九十分以上的优秀成绩。希望你别不识好歹,速速录用我’

星火大模型的答案
ChatGPT的答案
评价:

这个案例中,我认为是ChatGPT赢了。星火大模型在这方面有点笨拙,虽说确实是完成了任务,但完成的并不完美。因为可以发现,星火大模型是对每一句话都做了处理,而ChatGPT是在理解了原文的基础上进行的改编。那个”别不识好歹,速速录用我“本就是一个陷阱,最好的做法就是不要去管,而星火还是尝试将其变成文雅书面的表述方式,就会显得非常奇怪。

7.4 大纲生成

提示词如下:(此提示词来自星火认知大模型的模板,并非本人设置的格式)

我希望你是一位文案助理,帮助我设计文章大纲,这篇大纲的主题是[关于中美民主方式的对比],要求逻辑清晰,分条表述

星火大模型的答案(1)
星火大模型的答案(2)
星火大模型的答案(3)
ChatGPT的答案(1)
ChatGPT的答案(2)
评价:

可以看得出,星火大模型给出的大纲更细致,涵盖的范围更多,大纲的逻辑更加清晰。而ChatGPT的大纲比较简练。两个大纲的侧重点似乎不太一样。星火大模型给出的大纲更倾向于花大篇幅分开讲述美国民主和中国民主的定义、特点、和作用,然后再将二者进行对比,这样的处理方式可能更适合常规的论文走向。而ChatGPT给出的大纲可以明显看出,重点在不同方面的对比,对于定义之类的基础内容选择混合在一起讲述。这样文章的含金量会更高,但写作难度也会更大。

就我个人的理解来说,让我来按照ChatGPT给出的大纲来写,我会写的很难受,而且会有很多废话,文章也不会太长,因为有很多东西感觉是在重复讲的,有些比较新颖或者专业的事情我个人水平受限也谈不出;而按照星火大模型给出的大纲来写,我会比较舒服。因为单独谈二者的概念、优缺点、意义这些非常好找也非常好写,而之后关于对比分析的内容也没有太多,都是可以接受的,后面的谈启示之类的也算好写。

凭借我个人朴素的情感来说,这波我站星火大模型。这一部分的主观性会比较强,大家可以根据自己观看后的感觉来判断。

7.5 故事创作

接下来考验的是编故事的能力。

提示词如下:(修改自讯飞星火认知大模型指令集)

现在你是我的语文老师,我会给你[龙卷风,电竞,钟表]关键词,请根据我提供的关键词编写一个小故事,要求内容生动有趣

星火大模型的答案
ChatGPT的答案
评价:

我故意选择了三个基本上毫不相关的关键词,让ChatGPT和星火大模型自由发挥。就结果而言,两个模型都因为关键词给的太乱,导致文章的逻辑和发展都是比较混乱的,转折生硬,也谈不上多么有趣。不过,我个人感觉,这两个故事对比起来,还是ChatGPT更好一些。那么再来试试关键词的关联性强的故事。

星火大模型的答案
ChatGPT的答案
两个模型不约而同地选择了小明作为主人公,看来中文故事界里小明才是一哥。

个人主观感受,我会更喜欢ChatGPT的版本。星火大模型的故事在衔接和转折上太生硬了,用“接着”来引出事件会有点出戏。

文案生成能力总评:各有千秋,但我个人认为ChatGPT会略好一些。

8 中文能力测试

8.1 古诗词

星火大模型的答案
ChatGPT的答案
星火大模型的答案
ChatGPT的答案
星火大模型的答案
ChatGPT的答案
可以看出,星火认知大模型对于古诗词的掌握程度远超ChatGPT,即使是长篇的古诗文,也能正确地回答内容。而ChatGPT在输出比较长篇的古诗词时就会开始胡言乱语。

但是,星火大模型也不能找出提问中存在的错误,比如我提问中有的诗人是错误的,也并没有指出来。这一点是未来需要努力的方向。

8.2 中文理解

星火大模型的答案
ChatGPT的答案
评价:

这个我是真的绷不住了,我让星火大模型重复回答了三次,他都选择了曹操。ChatGPT也是回答了三次,第一次选曹操,第二次选了甲,第三次回答了正确的答案,并且有理有据。姑且算是ChatGPT在这方面的理解能力更厉害吧。再来试试几道题。

星火大模型的答案
ChatGPT的答案
感觉星火大模型的答案并不是很对,这个留学生们汉语水平的高超不知道是不是反讽。我们再来试试:

星火大模型的答案
ChatGPT的答案
这道题两个模型都没能第一次就答对,然而让ChatGPT重新回答后就答对了,而星火认知大模型依然坚持一个答案。在中文语义理解方面,感觉星火认知大模型并没有比ChatGPT表现好到哪里去。

中文能力总评:在古诗词方面,星火大模型展现出压倒性的优势,但仍有进步空间;在中文语义理解方面,星火大模型显然不如ChatGPT。这可能可以解释为什么前面几项测试中结果不如ChatGPT。

9 给出建议

星火大模型的答案
ChatGPT的答案
很明显,星火大模型给出的减肥计划更有规划,看起来也更加科学。在这个案例里,我支持星火大模型。

10 总结

总体对比下来,星火大模型的大部分表现并不如ChatGPT,即使是在中文领域内。但是,在关于古诗词方面,星火大模型对ChatGPT是碾压的姿态。

对于因各自因素的限制导致无法使用ChatGPT的用户而言,星火大模型完全可以作为一个下为替代,甚至在某些应用场景完全可以平替或超越。星火大模型在总结内容、提取信息、文案创作、提供建议、代码生成等方面均有不错的表现,整体而言是说得过去的,日常体验可能并不如ChatGPT,但已经可以满足目前大部分应用场景下的需求。

由于篇幅限制,还有许多的项目没有进行测试,比如降重、改写等。希望大家对于国内的大语言模型抱有好的期待,我们依然在进步。我认为大家都可以去体验一下。

个人主观评测,可能存在不客观的测试方法和结论,请在评论区提出,我们一起讨论。有误之处,敬请谅解!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_2292.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT平替-ChatGLM环境搭建与部署运行

ChatGLM-6B 是清华大学团队推出的一个开源的、支持中英双语的对话语言模型&#xff0c;基于General Language Model (GLM) 架构&#xff0c;具有62亿参数。结合模型量化技术&#xff0c;用户可以在消费级的显卡上进行本地部署&#xff08;INT4 量化级别下最低只需6GB 显存&…

【ChatGPT高端玩法】ChatGPT一分钟制作PPT

系列文章目录 第一章 ChatGPT一分钟制作PPT 第二章 ChatGPT生成Excel统计格式 第三章 ChatGPT生成Excel提取字符公式 第四章 ChatGPT生成思维导图 目录 实现步骤&#xff1a; 1.打开ChatGPT 2.搜索关键字 3.复制内容至MindShow网站 4.修改PPT内容与排版 5.预览PPT效果 6.导…

ChatGPT 教程--生成代码

ChatGPT 变生产力工具 chatGPT是一种基于人工智能技术的自然语言处理模型&#xff0c;它使用了深度学习算法&#xff0c;可以对人类语言进行理解和生成。chatGPT可以用于对话系统、智能客服、问答系统等场景&#xff0c;能够实现自然、流畅的对话。 chatGPT的核心技术是基于G…

VSCode集成ChatGPT插件:ChatGPT中文版

今天介绍一款牛逼的VsCode插件ChatGPT中文版 一、介绍 ChatGPT中文版一个ChatGPT的插件_支持ChatGPT4.0&#xff0c;功能比丰富。 功能特点&#xff1a; 1.支持ChatGPT4.0 在个人中心可以选择ChatGPT4.0模型&#xff0c;回答更准确 2.网络回答 Vscode插件中第一家支持联网…

《 ChatGPT 中文调教指南 》—— 使用 ChatGPT 的正确姿势:提示工程基础入门 Prompt Engineering Quick Start

文章目录 ChatGPT 中文调教指南 🧠ChatGPT 能干什么?正经指南担任雅思写作考官写小说充当算法输出器充当 Linux 终端充当英语翻译和改进者充当论文润色者(拿摘要部分举例)充当英翻中充当英英词典(附中文解释)充当前端智能思路助手担任面试官文字冒险游戏担任产品经理做表格…

从辩证的角度看待chatGPT,我们该如何对待?

从辩证的角度&#xff0c;看待chatGPT 0.什么是ChatGPT&#xff08;客观阐述&#xff09;1.通过唯物辩证法的五对基本范畴进行分析1.0.内容与形式1.1.现象和本质1.2.原因与结果1.3.必然与偶然1.4.现实与可能 2.使用ChatGPT会给我们带来的好处2.0.减轻劳动负担2.1.提供灵感和思路…

编程从未如此轻松:ChatGPT如何助你一臂之力

开一个新的系列&#xff0c;ChatGPT辅助编程实践&#xff0c;以下给出一些常用的提示和用法&#xff0c;欢迎大家在评论区补充更多的用法。 祝大家都能用好ChatGPT这把趁手的兵器&#xff0c;大大提高效率~ 推荐阅读&#xff1a;建议收藏&#xff1a;超详细ChatGPT(GPT 4.0)论…

宅男福利来了,调教的ChatGPT虚拟女友,你喜欢吗

废话不多说&#xff0c;专门为男同胞准备的宅男福利&#xff1b;已经调教好的ChatGPT虚拟好友&#xff0c;直接可以看看效果&#xff1b;你们以后也可以直接自己调教&#xff0c;打造一个自己专属的虚拟女友&#xff1b; 说下步骤&#xff1a; 1、打开ChatGPT4&#xff1b; …

Azure OpenAI 详细申请与使用教程,打造个人专属 ChatGPT 方案

Azure OpenAI 详细申请与使用教程&#xff0c;打造个人专属 ChatGPT 方案 原创 TitiAI TitiAI 2023-05-08 13:26 发表于湖北 前言 大家都知道&#xff0c;OpenAI ChatGPT是不能在中国使用的&#xff0c;香港也一样。最近一个月&#xff0c;很多人反映API调用限制&#xff0c…

干货!150个chatgpt指令大全!chatGPT输出结果的质量高低,和你使用什么样质量的输入内容有关。

干货&#xff01;150个chatgpt指令大全 chatGPT输出结果的质量高低&#xff0c;和你使用什么样质量的输入内容有关。 在外网有大佬们已经整理出一些标准的问话模板&#xff0c;直接拿来使用后&#xff0c;效果极佳&#xff01; 把已经过验证的优质问法可以直接拿来用&#xf…

ChatGPT如何应用到工作中?我做了3个实战案例!

ChatGPT是一个基于GPT&#xff08;算法的自然语言生成技术&#xff0c;可以用于制作智能对话机器人、智能客服等应用场景。 它基于深度学习和自然语言处理技术&#xff0c;具有较强的文本生成和理解能力&#xff0c;能够有效地模仿人类思考和语言表达。 那么&#xff0c;如何…

家人们,谁懂啊!ChatGPT竟然可以写剧本?

ChatGPT已经火了一段时间了&#xff0c;我们都听说过这款人工智能AI的强大&#xff1a;它能改文章、写程序、做设计、等...但是&#xff0c;它能帮我们写剧本&#xff0c;我也是很惊讶&#xff01; 接下来我们就来看看&#xff0c;ChatGPT是如何帮我们写剧本的吧&#xff1f;或…

【ChatGPT+MindShow高效生成PPT,保姆级安装教程】

&#x1f680; AI破局先行者 &#x1f680; &#x1f332; AI工具、AI绘图、AI专栏 &#x1f340; &#x1f332; 如果你想学到最前沿、最火爆的技术&#xff0c;赶快加入吧✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;CSDN-Java领域优质创作者&#x1f3c6;&am…

2023高考第一天,用ChatGPT挑战全国卷作文,已达到双一流高校学生水平?

前言 2023年高考语文结束啦&#xff0c;今天我们用ChatGPT来挑战高考作文&#xff0c;一起来看看它的表现如何&#xff1f;ChatGPT突然爆火网络&#xff0c;它真的会取代人类的工作吗&#xff1f; 什么是ChatGPT&#xff1f; ChatGPT是由OpenAI开发的&#xff0c;OpenAI是一家…

最新ChatGPT网站源码V4.7.8+支持Ai绘画+ChatGPT商业运营版+管理后台+支持用户套餐+好友邀请功能+一键在线更新+永久使用!

最新ChatGPT网站源码V4.7.8支持Ai绘画ChatGPT商业运营版管理后台支持用户套餐好友邀请功能一键在线更新永久使用&#xff01; 如果后续程序有新版&#xff0c;直接在后台一键更新即可 程序完美运行无BUG&#xff0c;独家开发&#xff0c;支持6种会员开通模式&#xff0c;有:”购…

类ChatGPT模型LLaMA的解读与其微调:Alpaca-LoRA/Vicuna/BELLE

前言 近期&#xff0c;除了研究ChatGPT背后的各种技术细节 不断看论文(至少100篇&#xff0c;100篇目录见此&#xff1a;ChatGPT相关技术必读论文100篇)&#xff0c;还开始研究一系列开源模型(包括各自对应的模型架构、训练方法、训练数据、本地私有化部署、硬件配置要求、微…

关于ChatGPT使用的奇淫异巧之prompt使用篇

文章目录 一.使用任务目标为导向进行搜索&#xff08;指令prompt技术)二.角色prompt技术&#xff08;成对特定上下文或受众量身定制的文本非常有用&#xff09;三.使用零样本、一样本和少样本技术&#xff08;针对新概念&#xff0c;新特点事物&#xff09;四.使用“让我们思考…

ChatGPT fine tune微调+prompt介绍

目录 1 如何使用ChatGPT1.1 图片生成 (image generation)1.2 对话(chat)1.3 中文纠错 (Chinese Spelling Correct)1.4 关键词提取 &#xff08;keyword extract)1.5 抽取文本向量 (Embedding)1.6 微调 (fine tune) 2 如何写好prompt2.1分类任务2.2 归纳总结3.3 翻译2.4 API接口…

ChatGPT-Free 保姆级使用指南

I. 前言 在各位的 重 金 支 持 下&#xff0c;咱免费的chatgpt项目网站&#xff1a;ChatGPT-Freehttps://chatgpt.cytsee.com也稳定&#xff08;基本上&#xff09;运行一个来月了&#xff0c;平常我也经常用来写代码、润色文章甚至当我的技术顾问&#xff0c;可以说体验感拉满…

ChatGPT分销版多开4.3.5-新增 语音识别和绘画多个引擎-已测试

ChatGPT分销版多开v4.3.5-源码升级 后台系统配置-界面配置: 新增 首页是否弹出公众号关注二维码 注册/登录后否弹出公众号关注二维码 优化 拦截某个有漏洞的回答 优化 回调下载图片的问题 版本号&#xff1a;4.3.1 - 默认 优化 分销商入驻流程 ChatGPT分销版多开v4.2.…