我们已经讨论过如何保护数据和隐私,但现在我们需要考虑如何将ChatGPT技术应用于医疗领域,特别是医学影像和放射治疗?
这涉及到IRB(机构审查委员会)的审批标准和个人信息的保护,也是一个比较关键的问题。 刘天明:目前在医疗领域中,数据隐私的保护非常重要,目前还没有合适的方法将医疗数据提供给ChatGPT。
我们正在准备一篇论文,探讨在保护隐私的前提下,如何让ChatGPT更好地应用于医疗领域。
我们发现使用本地大规模模型可以解决部分问题,对于无法解决的问题,我们可以利用ChatGPT去除隐私信息并提高数据识别率。
这将对医疗领域产生重大影响,未来医疗文本可以通过ChatGPT进行推理。我们会很快发布一篇论文来详细介绍我们的思路。 闫平昆:在医疗数据的准备上,我们需要更多的图像和文本数据,例如临床记录、放射学报告等等。现有的公开数据集(例如MIMICS)相对较少。
此外,现在有很多编码器和Embedding等技术,我们是否还需要共享原始数据?或者是仅共享编码过的数据? 李响:刚才有老师提到了关于共享计算的问题,实际上联邦学习在影像上的应用已经比较成熟,但在语言方面还需要一个大规模的语言模型,这也是一个挑战。
另一方面,如果要在本地部署一个大规模语言模型,将会对算力提出很大的要求,这几乎是大规模语言模型在医疗领域中最大的挑战了。
在我看来,并不是所有的医院都有条件做这项工作,其中还存在着数据的不平衡性等问题,这是很值得我们关注的一点,并且现在还没有很好的解决方案,即使是我们使用的联邦学习等方法,也存在类似的弊端,需要有本地的处理方案。 刘伟:闫平昆老师刚刚提到的新思路是,利用联邦学习在本地模型中对数据做初步的处理,再进行分享,从而在保护保护病人隐私的前提下得到更好的结果。
但正如李响老师所说,在医疗领域数据协调和隐私保护是一个很大的挑战。我们曾经考虑使用区块链技术来分享数据,这也许是一个好的思路。 沈定刚:我们之前在放射学、肿瘤学、基因学等领域做了很多工作,采集了影像和基因信息。现在有了ChatGPT这样的技术,它可以帮助我们理解影像和基因之间的关系。我们可以使用ChatGPT中的自学习功能来发现新的关系和规律,并将其应用于肿瘤学、基因学和放射学等领域。 如何将ChatGPT与在放射学和其他许多生物医学领域中的应用串联起来? 刘天明:与我们合作的西北工业大学张拓老师带领着一个七八人的团队,已经开始尝试使用ChatGPT,将人脑的结构和功能连接到一个高层的语意空间。
使用类似的方法,可以处理很多领域中的信息,比如基因组学和生物信息学,我认为ChatGPT在这两个领域中的应用还没有开始。我们可以使用知识图谱的方法,将图像、文本、基因组等所有相关的信息全部映射到一个图空间里,然后使用ChatGPT等技术,对这个图网络空间进行推理和分析。
这是将改变整个生物信息学、临床信息学、医疗影像的NLP方法,是未来大势所趋。 沈定刚:这种方法可以改变所有表达的方式,让所有的信息处于同一个空间中,可以相互查到信息,从而实现多模态表达。
我们已经花费多年时间研究了多模态信息,使用了CCA来将不同空间的信息转化为同一个空间,使用深度学习将远距离的信息向量转换到同一空间,这样做可以让信息之间最大程度地协调一致。
我们还需要将不同的信息编码到同一空间中,并且在解码时可以返回原始模态的信息。这样做可以让很多事情变得更容易。
这个领域很有趣,我读了很多论文,了解新的技术,就像2012年时,我读了很多Deep Learning的论文,然后安排我的学生们去做第一批Deep Learning的研究。
我们必须紧跟技术发展的步伐,读所有的文章,了解所有的研究动向和技术细节,这样才能有效地指导我们的学生和年轻教师,让他们在短时间内取得好成果。我认为我们应该冲在最前面,才能把这个事情做好。 闫平昆:我们现在处于一个非常重要的时刻,需要在思想上进行转变。过去我们注重特征工程,后来又转向网络工程,而现在,我们需要将自己的研究与大型语言模型相结合。
另外,我们也需要不断提高机器交互的层次,从像素级别到特征级别,再到知识层次的交互。
ChatGPT的出现也重新定义了机器学习的可解释性。就像今天各位老师在这里分享的知识,我们不需要知道大家大脑中的神经元是如何工作、如何相互联系的,只要学到你们分享的逻辑与知识就足够了。
我们需要了解网络中神经元的工作方式,而不必了解其具体实现。这样我们就可以重新定义可解释性。这些都是非常重要的研究方向,正如沈定刚教授所说,需要我们投入大量的精力去学习,掌握最新的技术进展 李响:我认为我们需要重新定义多模态融合的思想。过去大家谈到多模态融合,大多是指在一个特定的任务中融合不同种类的数据,并沿着一个路径走下去。
我认为多模态融合应该更多源自于生成,而不是单纯的融合模型或者将不同的信息融合在一起。我们要让不同模态之间互相生成彼此,在各自的学习过程中对抗彼此。
如今在语言模型和图像生成模型上已经有了成功的例子,我们可以尝试在多模态生成模型上取得进步,实现真正的多模态融合。 刘伟:我也认为学习更多的论文,了解技术细节非常重要,这样才能够更有效地与学生共同工作。作为临床医生,我可能相对保守,但我认为我们应该做出改变,去拥抱最新的技术并将其应用于临床工作中。
比如,我们可以像沈定刚老师一样去尝试ChatCAD,将多模态数据结合起来,将其应用到不同的领域中。
我认为ChatAug这项工作很有前途,如果能够将其与多模态数据联系起来,不仅仅是文本和图像,还可以包括其他各种数据进行数据增强,那么模型效果也会得到提升。
此次学术沙龙中涉及的文章,以及之后参与的几位专家发表的ChatGPT在医学中的发展与应用的文章,可以参考以下列表:
ChatGraph: Interpretable Text Classification by Converting ChatGPT Knowledge to Graphs
Prompt Engineering for Healthcare: Methodologies and Applications
Differentiate ChatGPT-generated and Human-written Medical Texts
ChatABL: Abductive Learning via Natural Language Interaction with ChatGPT
Exploring the Trade-Offs: Unified Large Language Models vs Local Fine-Tuned Models for Highly-Specific Radiology NLI Task
ImpressionGPT: An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT
Evaluating Large Language Models on a Highly-specialized Topic, Radiation Oncology Physics
DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4
Chataug: Leveraging chatgpt for text data augmentation
Chatcad: Interactive computer-aided diagnosis on medical image using large language models
Transformers in medical image analysis: A review
DoctorGLM: Fine-tuning your Chinese Doctor is not a Herculean Task