00ae-fe0f

有了 ChatGPT-4o 帮忙数据分析,狗生没那么艰难了

2024/06/07 发布 2024/06/14

欢迎交流与合作
微信 Positivism_y
b 站 up 主:hellomedstat

为什么要找大语言模型辅助写代码?

作为一个还没被人工智能取代掉的社畜,未来的狗生中还得亲自干活 🙂 (不记得谁回我一句,狗有你这么老?)
至于用 ChatGPT-4o 来数据分析,并不是我赶时髦,仅仅是我的 R 语言编程在学习中,发现由于接触代码的频率没那么高,更不是学代码出身,所以学亿点忘亿点,实在是不能忍!!不过反复折腾之下培养了一些代码素养,很容易借助工具,间接使用 R 语言。

当我在网上搜:R 语言代码自动生成,巴拉巴拉......果然有一些网站,我就一个个去试了。最后和这个 RTutor 确定了关系:

image.png

(一种朴实的极客之美?)

RTutor 不用梯子,且接入 GPT-4o(使用的 GPT 版本几乎是即时更新)。 开发者是在美国的华人 Steven Ge。关于 RTutor,他有 8 分钟介绍视频,看完视频我决定,就它 & 他了。

一开始我用 RTutor 提供的样例数据库玩了玩,接着又上传了自己的一些科研数据,对照团队里用 Stata 运行的结果,发现全部符合。所以你也不妨尽情提问,和 ChatGPT 对话是一样的。而且 Steven Ge 说了,中文对话完全可以,在“Examples”下拉菜单选择 Chinese 即可。

RTutor 操作界面是这样的:
image.png

RTutor 界面功能解释:

image.png

比如用样例的 “mpg” (汽车)数据集,再随意选择“Examples”下拉菜单中的一个模板问题 “Relationship: numbers-numbers”(查看变量间关联),进一步选择当中的 “numbers-categories”(即数值变量与分类变量)即可查看年份(数值)与车型(分类)之间有无关联。选好之后便自动生成了自然语言的指令。

意为:用箱形图作图(且交换横纵坐标让箱子“倒下”),用颜色区别年份,让点散开一些(jitter)。

(这些都是很有用的语句,RTutor 光是样例就包含了足够多的数据分析需求,新手用它学习真心可以跳过很多枯燥部分。我们以后可以照搬这些语句向 RTutor 提要求,分析自己的数据,毕竟数据分析大多是套路。)

RTutor 给出的代码和图表为:
image.png

还可以选择图中右半边下方的 “interactive via plotly” 看看会发生什么。主打一个边玩边学🤨

上传自己的数据进行分析

过了几天,我又用 RTutor 尝试了自己 meta 回归收集的数据。数据来自临床的电子病历,包含了我们认为重要的所有变量(比如白细胞指标是一个变量,是否患病也是一个变量),所以在数据分析之前需要做变量精简,去伪存真。而一个重要方法就是查看变量之间是否有重复信息。一般可以通过临床专业知识来识别,但如果变量繁多,或变量间关联隐蔽的情况下,从数据统计的角度来查看也是一种靠谱的方法。

所以在对话框告诉 RTutor我想要分析变量间的两两关系,返回结果是:
image.png

其实在 RTutor 的 EDA 界面,已经默认用流行的 GGally 包生成“相关性矩阵”(数据科研文章当红图表之一):
image.png

作为一个 RTutor 的介绍,本期就讲到这里,鼓励小伙伴打开网页玩一玩:https://rtutor.ai/

欢迎交流与合作
微信 Positivism_y
b 站 up 主:hellomedstat

还没有评论,赶紧评论下,抢个沙发?