遏制措施足够吗？

pappu6327 · Post by **pappu6327** » Sun Feb 16, 2025 4:43 am

左图：每种方法检索到的前 200 个候选中测量到的包容性总体分布。右图：回归图突出显示了数据湖中更高的包容性和更好的预测性能之间的关系。这两个图都是在选择的不同数据湖上完成的。
仔细观察包容性，我们注意到精确方法可以检索所有具有高包容性的候选结果（左图），而基于 MinHash 的方法生成的候选结果的平均包容性往往比其竞争对手低得多。右图显示高包容性和良好结果之间存在正相关性：这是有道理的，因为基表和任何候选结果之间的“匹配行”数量与包容性成正比。

然而，虽然这些结果似乎表明单凭遏制就足以保证良好的结果，但我们观察到实践中情况并非如此（正如最高遏制结果在连接选择器阶段所证明的那样）。

事实上，涉及非常高冗余度的场景可能会导致选择同一候选的多个副本，这些副本可能具有相同的包含度。高包含度的候选仍可能引入对预测任务无用的特征。最后，包含度不会跟踪集合基数：集合 {0, 1} 将与另一个集合 {0, 1} 完全重叠；加入此类候选在最好的情况下是无用的，在最坏的情况下会导致内存错误。

这些问题的可能解决方案包括在加入完美匹配的集合之前执行健全性检查或对基表和数据湖表进行分析和过滤以防止出现问题（例如，避免使用数字键、低基数列等）。

总体信息是，虽然遏制并不能保证良好的性能，但它仍然与之相关，因此仍然有用。通过在查俄罗斯电话号码数据询之前对数据湖进行分析和过滤，可以缓解冗余和低基数的情况。

聚合
在我们的场景中，我们正在训练一个 ML 模型，并希望保持训练样本的数量不变。如果连接涉及一对多匹配（例如，将电影导演与其所有电影连接起来），则保留所有匹配会增加训练样本的数量。为避免这种情况，应聚合重复的行。

一个简单的解决方案是仅选择每个重复行的第一个（第一个），或选择数值和分类特征的众数的平均值（平均值）。我们认为“第一个”等同于“随机选择”，因为我们的数据湖样本是随机排序的。更复杂的解决方案深度特征合成(DFS) 为每个原始特征生成新特征，例如平均值、方差或唯一值计数。

我们希望 DFS 引入的新特征能够提高模型的性能。然而，我们的结果表明，DFS 仅比更简单的替代方案略胜一筹。此外，DFS 的速度要慢得多，因为生成特征是一个昂贵的过程，而新特征会增加训练时间。

总体而言，我们观察到聚合通常不是什么大问题，尤其是当连接针对键类（即基数非常高）特征执行时。在绝大多数情况下，从组中随机选择一个值与取最常见的值具有相同的结果。