大模型Text-to-SQL论文与代码阅读整理:MAC-SQL

2 02 2 年,我遇到了一个主题,一篇关于处理那些“巨大”数据库的文章,它叫做 MAC-SQL。
这篇文章解决了一个很大的问题:数据库中的表格和信息太大,导致模型难以处理,用户提出的问题非常复杂,需要很多推理步骤。
这就像在满是书的教室里找到一本书,并且必须了解其中复杂的情节。

论文中,作者提出了一个新的想法,创建了一个多智能体协作架构,有点像在研究中雇佣一个帮手。
一种称为SelectorAgent,另一种称为DecomposerAgent。
SelectorAgent负责筛选并帮助选择有用的书籍页面,以减少找书时的困难。
而DecomposerAgent解决了这个问题,就像把长篇小说分成短篇小说一样。
您可以毫不费力地一一阅读它们。

当时我很困惑,SelectorAgent和DecomposerAgent怎么用?我一看代码,啊哈哈,明白了。
SelectorAgent 使用一些技巧来过滤表和字段,而 DecomposerAgent 使用自然语言处理将复杂的问题分解为简单的问题。

我还记得有一个例子,用户想查询2 02 2 年某个城市的订单量,这个问题需要从某个表中查找信息。
DecomposerAgent可以把这个大问题分解成很多个小问题,比如哪个城市有多少个订单,有多少个订单。

在代码中,这些代理非常智能,并且使用了多种注意力机制和自然语言处理技术。
我还注意到他们还使用大型 SQL-Llama 模型进行训练,功能相当强大。

总之,MAC-SQL是一项非常有趣的研究。
它解决了大问题,并使模型在处理复杂问题时更加高效。
我怀疑这种多代理方法将来会在更多领域发挥作用。
嘿嘿,这让我有点兴奋!

字节算法 一二三面+HR面

另一方面 自我介绍:使用XGBoost提高召回率1 5 %“特色Python、SQL、推荐系统等机器学习项目”。
实习生评价:“用户保留率下降 2 % SQL窗口函数:“使用电商订单表分页查询;使用 row_number() 解决偏移问题。
辛普森悖论:“按年龄段划分的转化率有所增加,但随着年轻用户比例的增加,总体转化率却下降了5 %。
” 猫变APP视频质量分析:节目“通过增加优质内容权重,互动率恢复了8 %”。
GBDT 和 XGBoost:“GBDT 是基础,XGBoost 使用 GPU 加速,我的项目运行时间为 3 小时到 3 0 分钟。
” 比较优化器:“SGD收敛缓慢,Adam在推荐系统AB测试中提高了1 2 %的CTR”。

双方: 订单分析营销时间:“对比5 个促销时间组,8 -1 0小时转化率最高,提升了9 %。
” 应用留存下降分析:以“由于广告推送策略不同,iOS用户留存率比Android低5 %”为例。
微信朋友圈权限更新:“个人更新后,内容互动减少1 0%;但优质内容的分享率将提高2 0%。
” 回归水平指标:使用“我的项目使用RMSE控制在0.8 ,比MAE更敏感”。
推荐系统下线指标:“Precision@5 达到0.3 5 ;参见“通过负采样优化到0.3 8 ”的情况。
算法问题:最长的回文标题是“中心化方法;时间复杂度 O(n^2 );我的代码使用 LeetCode 跳过了 9 0% 的用例”。

三边 FM和DeepFM:“FM我的项目特征跨维度是1 000,说DeepFM使用了额外的DNN,效果提升了5 %。
职业规划:“从优化特征工程到主导召回策略;我以后想负责冷启动教程。
” 人力资源面试 成长路径:讲解“数据标注-->日志分析-->策略A/B测试;要了解整个过程的概述,请使用 数据分析框架:“提高DAU目标;利用机密数据进行趋势分析;查找首页滚动问题。
” 基本选项:“推荐算法团队在杭州,团队规模2 00人,我想参与实时反馈项目。
” 未来计划:“短期内,我们将针对召回进行优化,而从长远来看,我们希望参与制定用户增长策略。
” 字节的目标:“我喜欢字节的2 8 天技术培训,想参与重复抖音的推荐策略。
” 内部提示支持:“我通过内部提示收到了代码,但状态已经7 天没有更新了。
我已联系HR解决这个问题。

实用提醒:准备1 -2 个项目使用STAR规则,练习算法题的动态规划。