医疗大模型的数据挑战及解决方案

10/24/2024

许多业内人士将2023年定义为国产医疗大模型发展元年。如今，医疗大模型在市场上依旧炙手可热，从医学科研、药物研发、医院管理，到智慧诊疗的各个阶段，市场上均有大模型产品不断涌现，许多大型企业纷纷进行相关探索和布局。

尽管医疗大模型在市场热度不减，但与其他大模型垂类相比，医疗行业的高度专业性、严肃性、复杂性、数据敏感性、优质数据稀缺性等特质，让生成式AI在医疗场景的产业落地仍充满重重挑战。

亿欧在《2023AI大模型医疗健康场景应用研究预热》中指出，目前在医疗行业，我国生成式AI还存在基础要素的不足。究其原因，缺乏高质量、多模态的医疗数据，将影响到医疗大模型在知识领域的应用能力。

医疗大模型是智慧医疗进化的产物。智慧医疗作为一种新型的医疗服务模式，通过先进的信息化手段，为患者提供更加便捷、高效的医疗服务。本期案例故事中的澳鹏客户，在智慧医疗领域深度耕耘，精准解决了医疗大模型行业落地的数据痛点，成为推进医疗大模型落地的创新先行者之一。

挑战

大模型的本质是基于数据给出合理的判断和预测，因此当大模型进入医疗系统，更准确、细化的数据是关键。客户希望从数据的专业、高质量出发，训练出真正具备行业优势的、优质的医疗大模型。

然而，由于学科门槛和专业要求的限制，医疗大数据平台模型往往具有高要求的数据训练标准。对专业和理论化的内容进行整理、审核、分类、排序，获得大规模、高质量的数据集，需要一定数量具备专业医学知识背景的从医人员完成。

在国内，拥有专业医学管理团队和具规模的专业医学标注人员的公司非常少。零散的训练量始终达不到模型训练所需的数据要求，必须找到涵盖医学多学科的从业人员，标注每个数据点，并进行高质量的质检以确保标注量和准确性。因此，客户找到了澳鹏Appen团队，让我们为其提供一套可行的方案。

解决方案

澳鹏Appen医疗团队为客户提供专业知识、资源和创新型解决方案，包括专业的医学内容标注、审核、分类，并进行必要的专业质量检查。

通过深度分析客户的数据需求，我们定位了专业维度，快速匹配对应学科的医疗专业人员，达到定制化项目管理团队的无缝搭建。针对和专业理论有冲突的地方，澳鹏医疗团队也做出了适配性的纠正，达到灵活调整、按时按需交付。

澳鹏Appen医疗团队充分利用自身的专业知识和及时的权威资料学习更新，帮助客户把专业、生涩的医学内容做出了有效的整理，为客户的医疗大模型部署提供了高效、大规模的数据训练养料，帮助客户以及时、高质量的医疗训练数据快速进行行业落地，覆盖更多医疗场景。

成果

目前，在客户的大数据训练平台上，绝大多数的医学专业数据（涵盖临床医学、中医学、护理学等），均由澳鹏Appen团队为其提供专业的医学数据标注/质检支持。百余名医学全职人员及200+名医学兼职人员在灵活、高效的项目管理体系下，在仅1年的时间内，帮助客户将医学大模型数据训练量及准确率大幅提升至远超预期水平。

澳鹏医疗数据解决方案

在医疗领域，澳鹏Appen团队是国内在医学AI数据训练领域布局最早、投入最大的团队之一。4年多的医学项目实战积累，我们为行业内30余家客户、近500个医学项目提供专业的医学AI数据服务，涉及医学大模型、医学文本、医学专业图像（放射医学、病理、消化内镜、心电图等）、医学语音/视频等各领域的专业数据训练和审核工作。

如今，澳鹏医学团队拥有近300名医学专业的全职AI数据训练师，学科广泛覆盖临床医学、中医学、护理学、药学、医学心理学、健康管理学等。其中有执业医师资格证、规培证的高阶医学人员占比10%以上，硕士学历人员占比15%以上。

同时，我们拥有200+人的专业医学众包资源池，包含三家医院的各学科专家、各级医院的主治/住院/实习医师、医学院校的学生等，为解决专业/专科医学数据问题提供有力支持。

澳鹏医学团队从项目经理到主管再到培训师，均为医学专业背景，具有多年临床经验，可以为客户提供全流程的专业把控；与此同时，各项目组还配备具有多年标注经验、管理过百人以上规模的项目管理人员，达到专业和管理的双向奔赴，在医学领域得到客户源源不断的信任和口碑。

此外，在技术方面，澳鹏Appen智能大模型开发平台在医疗等垂直行业领域的模型研发正不断取得突破。澳鹏医疗大模型在保留基座模型通用知识能力的基础上，在医疗垂直领域进行优化加强，覆盖医疗咨询、医学问答、导诊、预问诊、检查建议、用药建议等常见实用的医疗场景。