油气大模型破局需从三方面发力

来源：科技日报

时间：2024-10-21 17:00:13

热度：

在人工智能技术日新月异的今天，生成式人工智能的代表——ChatGPT的横空出世，不仅在短时间内吸引了全世界关注的目光，更激发了各行业对大型预训练模型的无限遐想。油气行业作为国民经济的支柱之一，同样期待它能为油气勘探、

在人工智能技术日新月异的今天，生成式人工智能的代表——ChatGPT的横空出世，不仅在短时间内吸引了全世界关注的目光，更激发了各行业对大型预训练模型的无限遐想。油气行业作为国民经济的支柱之一，同样期待它能为油气勘探、开发带来新变革。尤其是随着国内油气资源品质逐步劣质化，油气勘探开发难度逐渐加大，亟须运用新技术提质增效。

油气大模型应用面临挑战

数据、算力和算法是大模型发展的核心要素。其中，数据是大模型应用的基石，算力是大模型应用的保障，算法是大模型应用的工具。由于油气行业具有特殊性，在上述三个层面，油气大模型开发都面临着诸多挑战。

在数据方面，油气大模型应用面临数据稀缺、复杂和安全性的挑战。一是油气行业的数据涵盖了地质勘探、钻井、生产和运输等多个环节，每个环节的数据采集都伴随高昂的成本，样本数量少且获取非常困难，采集回的数据还具有多解性和不可验证性的特点。二是油气行业的数据类型非常多样化，处理这些不同种类、不同版本、不同结构的数据本身就充满挑战。三是大模型需要学习海量数据，但油气行业对数据的安全性和保密性有着极高的要求，数据不能上传公有云，且必须防止泄露，因此普遍存在“数据孤岛”问题。这一现状使得如何在保障数据安全前提下，整合分散的数据并训练行业基础模型，成为油气行业大模型应用的关键难题。

在算力方面，油气大模型的训练和优化也面临着算力资源不足的挑战。大模型的训练和优化通常需要巨大的算力资源，这往往伴随着相当高的投入成本。自建算力中心需要巨额资金投入，而租赁算力又存在数据安全和隐私保护的问题。目前，国内油气行业仅具备有限的微调算力，普遍不具备训练行业基础模型所需的高水平算力。此外，由于各种原因，国内油气行业在短期内很难建立起满足大模型需求的算力资源。这一问题进一步加剧了算力资源的短缺，使得大模型的应用和发展受到严重制约。

在算法方面，油气大模型也面临版权纠纷等挑战。算法的优劣直接影响大模型的实际应用效果。相较于传统深度学习等算法，大模型的技术门槛更高，目前的发展主要依赖少数高端算法人才推动。尽管许多开源大模型算法可以作为研发基础，但它们可能缺乏必要的技术支持和安全保障，存在商业机密泄露的风险，且其能力往往不如闭源算法。此外，开源算法的版权协议中存在诸多限制条款，使得基于开源算法进行研发时可能面临版权纠纷。如果选择使用闭源算法，则难以实现核心算法的自主可控。

从数据、算力和算法入手推动大模型应用

油气大模型应用并非坦途，需要在数据、算力和算法等方面破局。

首先，数据之困需破冰。面对数据采集高成本与复杂性并存的挑战，破解数据之困，要以大模型应用为契机，推动数据治理，确保数据的全面性、准确性和时效性。油气行业在大模型方面的核心竞争力是“行业数据”，要做好“训练样本库”的基本功。油气企业必须强化数据全生命周期管理，从数据源头、数据采集、数据清洗、数据融合和匹配、数据完整性增强、数据标注等环节严格规范，建立高质量的训练样本库，提升数据治理能力，为模型提供坚实的数据基础。同时，应通过数据脱敏、数据加密、访问控制和审计、合规性审查等方式加强数据安全和隐私性保护。如设置合适的权限和用户角色，限制用户对数据库的访问和操作，保护数据的安全性。还需进行数据库的维护和优化工作，包括定期备份、数据清理、性能监控等。在此前提下，构建一批高质量开源数据集，推动油气大模型研发生态建设。

其次，算力建设应灵活。面对资金投入与隐私保护之间平衡的挑战，破解算力之困，应以油气大模型为契机，推动融合算力建设。可采取租赁与自建相结合的方式，注重智算能力建设的同时，加强数据安全与隐私保护。例如，企业应根据自身业务需求、成本预算和技术实力，灵活选择算力获取方式。对于常规的计算任务，可通过租赁公有云资源快速响应；而对于涉及敏感数据或需长期稳定运行的任务，则可考虑自建或合作共建数据中心，确保数据安全与算力的可持续供给。在算力设施规划上，应注重长远，实现通用计算、智能计算和高性能计算的融合布局，通用计算满足日常运营的基本计算需求，智能计算侧重于深度学习、机器学习等智能算法的高效执行，高性能计算则针对大规模科学计算和复杂模拟，满足不同场景的需求，显著提高算力资源的利用效率。

此外，算法创新勿盲从。面对大模型训练周期长与迭代速度快的双重考验，破解算法之困，应量身定做适合行业特性的算法模型，避免盲目跟风。应理性认识大模型的价值，优先实施场景模型和数据质量优良的L2行业基础模型，重点应放在微调和适配下游任务上，避免盲目投入通用基础模型的研发，确保技术栈的自主可控。油气行业应秉持资源优化配置的原则，聚焦油气主营业务，从投入成本、产出效益、技术成熟度，以及稳定性、行业聚焦、核心竞争力等方面慎重考虑。在岩心分析、地震资料处理解释、测井数据分析等特定领域，大模型能发挥显著作用，但不可过度依赖，应明确模型的适用范围。

为了推动大模型技术的自主可控，还需加强“AI+能源”复合团队的建设。训练、应用大模型不能闭门造车，要打破传统行业壁垒，注重联合研发生态的建设，例如推动油气行业与互联网企业、高校等的合作，促进跨学科人才整合，形成产学研用紧密结合的创新体系，为油气大模型应用构建可持续的人才保障。同时，可通过项目合作、人才培养、共建研发平台等方式加强大模型算法等方面的合作交流，并明确合作目标与分工，以及知识产权分配与管理、数据保密和隐私保护等制度和规范。

大模型必将推动油气行业新质生产力发展，未来可期，但道阻且长。油气行业要充分认识油气大模型的特殊性，从数据、算力、算法等方面做好工作，稳扎稳打，逐步推进，让AI成为推动油气行业转型升级的重要驱动力。

（作者系中国工程院院士、中国石油勘探开发研究院正高级工程师）

热门标签：油气模型数据

免责声明：此资讯系转载自互联网其它网站，全球江南娱乐-意甲尤文图斯亚登载此文出于传递更多信息之目的，并不代表本网赞同其观点和对其真实性负责，文章内容仅供参考。如涉及作品内容、版权等问题，请在30工作日内与本网联系，我们将在第一时间处理！

上一篇：晶科能源拟发行GDR赴德上市

下一篇：全国首个百兆瓦级混合储能调频项目并网

西南油气前三季度生产天然气超75亿方

2024-10-16
数据显示9月全球新能源车销量增长30.5% 中国市场销量跃升47.9%

2024-10-16
浪潮KaiwuDB联合中国信通院数据库应用创新实验室召开能源行业数据库研讨沙龙

2024-10-15
中国石油长庆油田在长征路上建成33个油气田

2024-10-15
中压配电守卫者｜守护化工油气行业电力生命线

2024-10-15
重磅数据!央行公布!

2024-10-15
外贸数据发布：连创两个“首次”!

2024-10-15
前三季度外贸数据出炉，稳增长态势延续

2024-10-15
GTC泽汇资本：数据中心热推天然气需求

2024-10-15
以“新”促兴，以“智”增效，施耐德电气引领化工油气行业转型升级

2024-10-14
税收数据显示，前三季度中国经济稳中有进

2024-10-14
颜巴赫快速启动型往复式天然气发电机组及其在数据中心的应用

2024-10-14
贝克休斯：美国钻井商四周来首次增加油气钻井

2024-10-14
国内首个油气田微电网系统团体标准正式发布

2024-10-14
我国计划2026年底基本建成国家数据标准体系

2024-10-10