架构挑战人的问题和技术问题
Posted: Sun Feb 16, 2025 3:40 am
对于采用或发展其 AI 基础设施的企业来说,技术只是其中的一部分。许多组织都有企业架构团队,他们定义系统应如何连接和运行,以确保标准化和安全性。挑战不在于 Dataiku 难以集成,而是在于确保它能够顺利融入现有的企业框架,帮助团队采用更有效的方法。
Dataiku 不会要求组织从头开始构建,而是提供最佳实践建议,以简化 AI 部署。如何实现这一点在很大程度上取决于公司在本地部署和云原生部署中所处的位置——每个部署都有自己的挑战、限制和机遇。
企业 AI 架构的 3 种常见场景
1. 本地和遗留系统:稳定性与复杂性的交织
由于安全和合规性要求,许多大型组织(尤其是金融、政府和国防等受监管行业)都在严格的本地环境中运营。虽然云采用率正在增长,但这些企业通常无法将敏感工作负载移出本地,因此必须采用高效、可扩展的方式来管理其现有基础设施。
然而,本地架构也面临着挑战:
专业知识: Hadoop 和其他本地数据环境通常需要 Java、MapReduce、Scala 和 PySpark 方面的技能,从而限制了可用性。
基础设施成本高:维护大规模的内部计算集群的成本很高。
可扩展性限制:与基于云的替代方案相比,在内部环境中扩展 AI 工作负载更加复杂。
Jed 分享道,Dataiku 长期以来一直支持本地部署,并与 Hadoop 集群、Teradata、Greenplum MPP 数据库和其他企业系统集成。这种灵活性使 Dataiku 能够作为一个集中式平台运行 — 即使在复杂的环境中,也能为分析师、数据科学家和工 巴拉圭 电话号码数据 师提供更简化的工作方式。
dataiku on-prem 使用 hadoop 进行计算
借助 Dataiku,组织可以更好地管理这些复杂性,从而提供在现有基础架构内更高效地工作的方式。通过与现有的本地计算引擎集成,Dataiku 允许团队无缝执行分析和 AI 工作负载,而无需完全迁移到云。
2.混合模式:向云端的务实过渡
对于许多企业来说,全面迁移到云并非一蹴而就,甚至不现实。相反,它们在混合环境中运营,其中一些工作负载仍保留在本地,而其他工作负载则随着时间的推移转移到Snowflake或Databricks等云平台。虽然这种方法提供了灵活性,但也带来了复杂性,因为同时管理本地和云资源可能具有挑战性。
Jed 和 Lynn 分享了一家大型金融机构的例子,该机构在应对这一转变的过程中为数千名用户使用了 Dataiku。他们的安全架构 (SecArch) 团队正在逐步批准云组件,允许某些工作负载逐步过渡。一些数据仍在 Cloudera 上运行,而其他工作负载已经在 Snowflake 中运行。
正如 Jed 所解释的那样,“数据集就是数据集,无论是 Cloudera Hadoop 集群的数据集,还是 Snowflake 的数据集,或者是 Databricks 的数据集。”在 Dataiku 中,这意味着团队可以在不中断其工作流程的情况下交换底层连接,从而更容易随着基础设施的发展而适应。
Dataiku 不会要求组织从头开始构建,而是提供最佳实践建议,以简化 AI 部署。如何实现这一点在很大程度上取决于公司在本地部署和云原生部署中所处的位置——每个部署都有自己的挑战、限制和机遇。
企业 AI 架构的 3 种常见场景
1. 本地和遗留系统:稳定性与复杂性的交织
由于安全和合规性要求,许多大型组织(尤其是金融、政府和国防等受监管行业)都在严格的本地环境中运营。虽然云采用率正在增长,但这些企业通常无法将敏感工作负载移出本地,因此必须采用高效、可扩展的方式来管理其现有基础设施。
然而,本地架构也面临着挑战:
专业知识: Hadoop 和其他本地数据环境通常需要 Java、MapReduce、Scala 和 PySpark 方面的技能,从而限制了可用性。
基础设施成本高:维护大规模的内部计算集群的成本很高。
可扩展性限制:与基于云的替代方案相比,在内部环境中扩展 AI 工作负载更加复杂。
Jed 分享道,Dataiku 长期以来一直支持本地部署,并与 Hadoop 集群、Teradata、Greenplum MPP 数据库和其他企业系统集成。这种灵活性使 Dataiku 能够作为一个集中式平台运行 — 即使在复杂的环境中,也能为分析师、数据科学家和工 巴拉圭 电话号码数据 师提供更简化的工作方式。
dataiku on-prem 使用 hadoop 进行计算
借助 Dataiku,组织可以更好地管理这些复杂性,从而提供在现有基础架构内更高效地工作的方式。通过与现有的本地计算引擎集成,Dataiku 允许团队无缝执行分析和 AI 工作负载,而无需完全迁移到云。
2.混合模式:向云端的务实过渡
对于许多企业来说,全面迁移到云并非一蹴而就,甚至不现实。相反,它们在混合环境中运营,其中一些工作负载仍保留在本地,而其他工作负载则随着时间的推移转移到Snowflake或Databricks等云平台。虽然这种方法提供了灵活性,但也带来了复杂性,因为同时管理本地和云资源可能具有挑战性。
Jed 和 Lynn 分享了一家大型金融机构的例子,该机构在应对这一转变的过程中为数千名用户使用了 Dataiku。他们的安全架构 (SecArch) 团队正在逐步批准云组件,允许某些工作负载逐步过渡。一些数据仍在 Cloudera 上运行,而其他工作负载已经在 Snowflake 中运行。
正如 Jed 所解释的那样,“数据集就是数据集,无论是 Cloudera Hadoop 集群的数据集,还是 Snowflake 的数据集,或者是 Databricks 的数据集。”在 Dataiku 中,这意味着团队可以在不中断其工作流程的情况下交换底层连接,从而更容易随着基础设施的发展而适应。