在湖屋中,物品存储是基础。它保存所有原始数据和建模数据,并通过S3 API将其公开给分析引擎、人工智能框架和治理工具。为了支持这些用例,对象存储必须做的不仅仅是存储数据。它必须提供细粒度的访问控制、静止和传输中的数据加密、对象锁定的不变性、集成密钥管理、审计日志记录和多站点复制,同时提供高性能和弹性可扩展性。

在存储层之上,Apache Iceberg等开放表格式添加了结构化元数据、模式和分区演化以及时间旅行。Polaris和Nessie等目录管理这些元数据,并在表和分支级别执行治理规则。这些组件共同构成了安全且合规的数据湖屋的支柱。

本指南概述了在对象存储系统中要查找的功能,如何保护数据和元数据层,以及如何在不牺牲性能或灵活性的情况下满足治理和合规性要求。唯一有用的数据湖屋解决方案是安全的。



保护Prem和Air Gaped网络中的数据

许多行业要求敏感数据保持在严格控制的基础设施(金融、政府、医疗保健等)中。经常在气隙环境中本地运行数据湖屋,可以完全控制网络和硬件。在气隙部署中,节点无法访问互联网(通常只能通过堡垒主机或VPN访问)。这种隔离是故意的:“你不能把”你的数据暴露给外界。 

如果无法实现气隙环境,则保护堆栈的一种方法是在分段VLAN或专用区域内部署。通过这种方式,您可以确保只有受信任的应用程序和用户(防火墙后面)可以与存储进行通信,从而消除了外部攻击的风险。所有软件依赖项(操作系统包、二进制文件等)都存储在内部“操作系统”网络上,因此更新来自经过验证的内部镜像。这种方法使数据工程团队能够完全控制他们的基础设施堆栈。



确保大规模的可用性和耐用性

在生产环境中,高可用性是不可谈判的。现代对象存储通过多层提供耐用性和弹性。这些功能对于数据湖屋的安全性来说是不可谈判的。

擦除编码和自愈

每个对象在所有节点上都会自动进行分片和编码(例如,默认情况下使用8+4或更高的擦除码)。这种内联擦除编码需要比传统的三重复制(HDFS)少得多的存储开销,同时容忍多个磁盘/节点故障。如果甚至单个分片被损坏(比特腐烂),比特腐烂检测将使用奇偶校验分片实时修复它。与传统存储不同,不会有无声的数据衰减。

主动-主动、多站点复制

为了实现本地可靠性,数据湖应该采用真正的多站点、主动-主动桶复制。通过这种方法,您可以在两个(或多个)数据中心配置相同的存储桶,以便几乎实时地将对任何站点的写入复制到其他站点。重要的是,每个站点的bucket都有相同的名称,并且对象版本、标签和S3对象锁保留信息的复制是原子性的。在实践中,这意味着任何应用程序(或人员)都可以在不更改bucket名称或路径的情况下故障转移到远程站点,因为对象及其元数据保持不变。复制应使用同步和最终模式的组合:在站点内,它的行为具有严格的一致性,在广域网内,它应在带宽允许的情况下尽快传播更改。应配置通知,以便管理员在任何复制延迟或失败时得到提醒。通过利用数据中心之间的暗光纤或专用链路,这种地理复制可以完全在公共互联网之外进行。关键任务数据的结果应接近零RPO/RTO。即使整个站点发生故障,所有数据也应在其他站点保持可用和同步。



线性扩展

扩大规模至关重要。数据湖屋存储层必须能够从8个节点扩展到数百个节点。即使添加节点,每个集群也必须作为单个逻辑命名空间(单个S3端点)运行。不应有孤立的“热”主服务器;每个节点都应该平等参与。这种设计允许简单的增长:你应该能够添加更多的节点来向外扩展。当需要升级或现代化时,交换和丢弃标准硬件应该是绝对的。唯一可扩展的是简单性。 

细粒度访问控制和合规性

一个现代化的湖畔别墅必须满足严格的治理和监管要求(GDPR、HIPAA等)。虽然其中一些要求可以而且应该在计算层的堆栈中得到进一步满足,但数据湖屋的存储层也应该实施数据治理。例如,为了成为数据湖屋堆栈中安全性的一流公民,底层对象存储必须具有以下功能:



身份及访问管理

底层存储必须具有IAM,允许您定义用户/组并在存储桶/对象级别附加细粒度策略。在实践中,这可能意味着您可以授予数据科学团队对包含策划数据集的特定存储桶的只读访问权限,同时授予摄入管道对暂存存储桶的完全写入权限。您应该能够与现有的目录服务(LDAP/Kerberos/Outhor)集成以实现SSO,或直接管理凭据。应通过“加密飞地”支持多租户,允许不同部门拥有隔离的密钥和访问域。这确保了一个团队无法解密另一个团队的安全数据。

加密和密钥管理

如前所述,所有数据在传输(TLS)和静止时都应加密。行业标准AES-256-GCM、ChaCha20-Poly1305等,具有完全的SSE(服务器端加密)兼容性。密钥应在内部或通过外部HSM/KMS进行管理。这涵盖了HIPAA(§164.312(a)(2))和GDPR(假名化)等法规,因为敏感信息可以用您控制的密钥进行加密。底层存储层原生的KMS是一个有吸引力的选择,特别是对于绿地部署。

对象锁定和保留



为了符合要求,底层对象存储应允许应用程序使用WORM保留策略,以便在给定日期之前无法删除或更改对象。如果需要,“合法保留”标志可以无限期地防止删除。这些功能有助于满足SEC、FINRA或HIPAA的记录保留规则。至关重要的是,对象锁设置应跨站点复制(如果启用了多站点),以确保您的保留策略在任何故障转移中都能幸存下来。

审计与监控

所有对象API调用都应该能够被记录以进行审核。更可取的是,这些日志应该能够流式传输到监控系统。内部部署通常使用Prometheus、ELK等工具来实现可观察性。这样,每次读/写都可以追溯到合规性审查。

总之,这些控制意味着lakehouse中的数据始终受到管理:只有授权的主体才能访问PII或PHI;静止的数据被加密;防篡改日志和WORM保护符合GDPR的“被遗忘权”控制和HIPAA的数据完整性和访问规则等法规。

相关:7个数据湖实例在行动

Apache Iceberg用于表元数据和分析

数据湖屋的核心是开放表格式(OTF)。目前有三种标准:阿帕奇冰山、阿帕奇胡迪和德尔塔湖。尽管Apache Iceberg总体上很突出,但所有这些OTF都将原始文件组织成可查询的表。



Apache Iceberg在对象存储中与数据文件一起维护元数据(清单、分区索引、快照等)。此元数据支持高级功能:原子提交、时间旅行、模式和分区演化、分支和隐藏分区。任何使用Iceberg的SQL引擎或分析工具(Spark、Flink、Trino、Dremio、Snowflake等)都可以同时读取相同的表,而无需锁定或预拷贝。Iceberg的多引擎兼容性确保您在数据保持在一个地方的同时“选择您最喜欢的工具”,与传统的数据库解决方案相比,为数据工程团队提供了前所未有的灵活性。

为您的数据湖选择合适的对象存储可以带来具体的好处。耐用且专为销售而构建的对象存储意味着冰山元数据可以可靠地持久化。当与S3 over RDMA结合用于超低延迟、高吞吐量读取时,您的冰山表可以以接近本地磁盘速度提供给GPU/CPU集群,这对AI工作负载至关重要。Apache Iceberg计算和对象存储的组合平台提供了一个真正的湖畔小屋:灵活、高性能和安全。

冰山目录级治理和访问控制

冰山目录可以成为强大的数据湖屋安全计划的核心部分。一种可能的方法是通过lakehouse目录利用集中式基于角色的访问控制(RBAC),组织可以精确地管理权限和安全性。

像Apache Polaris和Nessie这样的Lakehouse目录具有这种关键能力。Polaris提供了全面的RBAC,包括服务主体、角色分配和详细的权限,如TABLE_READ_DATA,以及短期访问令牌的凭证自动售货,大大降低了安全风险。Nessie反过来支持Git风格的治理方法,为每个分支或表路径提供精细的访问控制,使其成为管理版本化数据访问的理想选择。



此外,冰山REST目录通过为每个表访问提供临时的、作用域的S3凭据来增强安全性。这种做法确保了最小的权限访问,并最大限度地减少了潜在安全事件的暴露窗口。此外,在Iceberg Java 1.6+之后,出于安全考虑,内置的OAuth令牌端点已被弃用。相反,建议冰山目录与外部身份提供者(如Okta或Cognito)集成,通过标准标头促进安全令牌传递。总的来说,这些功能巩固了冰山作为现代数据湖畔安全合规编目解决方案的地位。

为什么MinIO AIStor是合乎逻辑的选择

MinIO AIStor采用安全第一的设计,以满足现代人工智能和分析工作负载的需求。它提供端到端的零知识加密/这意味着数据在传输过程中(TLS 1.3)和静止时(AES-256)进行加密,服务器端加密与外部密钥管理系统(KMS)集成,以完全符合企业安全策略。多用户、多租户隔离是通过严格的命名空间分离来实现的,完全支持HIPAA和GDPR等监管要求。




所有操作都有日志记录和可审计,管理员可以配置对象锁定、合法保留和WORM(一次写入多次读取)保护,以实现数据不变性和治理。尽管有这种强大的安全态势,AIStor在性能上并没有妥协。它使100GbE网络饱和,即使部署到EKS,也始终超过Amazon S3吞吐量。它在标准的商用硬件(NVMe驱动器、JBOFs、10-100GbE交换机)上运行,具有轻量级的100 MB二进制占用空间,无外部依赖关系。

对于数据主权至关重要的是,AIStor可以在您的数据中心或colos(在裸机或Kubernetes上)运行,将所有控制权都留在内部。对于混合架构,AIStor还可以无缝部署到公共云,为您提供完全的可移植性,而不会锁定供应商。

当你比较本地和混合对象存储时,很少有符合这个标准:安全性、速度、规模和简单性。AIStor独树一帜。

数据湖的数据安全

总之,现代的本地/混合湖畔小屋需要一个安全的、兼容S3的云原生对象存储,MinIO AIStor提供了这个存储。它开箱即用地统一了耐用性、安全性和治理,因此您可以专注于从数据中提取价值,而不是纠结于存储。对于构建下一代数据平台的技术领导者来说,AIStor代表了真正的云原生数据湖屋解决方案(没有公共云)的低TCO、高灵活性基础。