雪花:简化机器学习
引言:雪花的策略
雪花的使命是让每个人都能访问、使用和有价值的数据. 使雪花成为行业领导者的支柱之一是其坚定不移的承诺,即易于使用和交钥匙. 雪花首席执行官弗兰克•斯洛特曼在23年第二季度财报电话会议上的一句话证明了这一点:
你认为最大的不同在于总拥有成本, 这还不包括计算和存储的成本. 换句话说,运行这项技术的成本是多少? 这就是雪花的巨大优势,mg官方游戏中心的客户也知道这一点. 只是减少了技能, 更少的人, 并且不必触及底层平台的复杂性. mg官方游戏中心更像是苹果和特斯拉的后代,而不是Hadoop的后代, 就像有些人在市场上一样, 正确的? 所以mg官方游戏中心把复杂性抽象出来了. 这就是产生TCO优势的原因. 但是计算和存储的原始成本,并没有那么多的机会.
以这一战略为基础, 雪花继续创新和简化即使是最复杂的任务. 展望未来, mg官方游戏中心可以预期,雪花标志性的用户友好方式将塑造以下项目:
容器:为应用程序提供隔离的环境.
低管理:减少运营开销.
非组织性数据:简化对多种数据的管理.
DocumentAI高级文档处理和见解.
机器学习:用户友好的ML工具和功能.
ML SQL函数:在SQL中嵌入ML功能.
AI
带有NVDA的AI:尖端人工智能工具的协作.
微软:合作将微软直接带入数据云
法学硕士的公司数据:扩大数据覆盖范围和效用.
数据应用使以数据为中心的应用程序更易于访问.
Streamlit
本机应用程序框架:应用开发的无缝集成.
机器学习SQL函数在开放预览
为什么可用性测试很重要,而且对任何项目或应用程序都很重要,原因有很多. 用户体验设计师经常被提醒“你不是用户”这句话。. 这是一个需要记住的重要短语, 因为即使一个设计对设计师来说很有意义, 这并不意味着用户将获得良好的体验. 这也是用户体验设计的全部目标, 确保您的应用程序为最广泛的用户提供最佳的用户体验. 这对于早期发现问题也很重要. 想象一下,有人在校对你写的论文时发现了一个语法错误, 即使你没有注意到. 可用性测试也是如此. 经常, mg官方游戏中心离设计太近了,一双新鲜的眼睛可以帮助mg官方游戏中心发现mg官方游戏中心从未注意到的东西.
Designing a Usability Test
雪花的ML SQL函数目前处于开放预览状态,它正在改变mg官方游戏中心看待SQL和ML的方式. 这三个先行者是:
1. 预测:根据过去的数据预测未来的值. 理想的销售预测,股票趋势,和更多.
2. 异常检测识别数据中不符合预期行为的异常模式. 用于欺诈检测、系统健康监控等.
3. 贡献的探险家了解导致特定结果的因素. 这就像对每个“什么”都要问一个“为什么”.
需求 & 限制
与开发中的任何工具一样,存在需求和限制. 以下是这些函数的当前约束:
最多500,000行用于模型训练.
至少12行用于模型训练.
1秒最小粒度.
季节性组件的最小粒度为1分钟.
时间戳必须具有固定的间隔.
与输入频率相关的自回归特征的季节长度.
Existing models cannot be updated; a new one must be trained.
异常值会影响算法. 如果不需要,用户可能需要删除.
不可能跨帐户克隆模型.
开始学习ML SQL函数
深入研究这些功能需要一个系统的过程:
准备数据整理和清理您的数据,以确保其准备就绪.
最重要的一步
创建模型:为你的机器学习模型建立基础.
火车模型:使用你的数据来训练和完善模型.
获取数据:提取见解和结果.
例子:
我有一个数据集,里面有纳斯达克所有股票的收盘价数据 & 陶氏. 我想在接下来的两个月里对数据集进行预测分析. 我想在2019年1月1日开始的数据上训练模型.
准备数据
在这一步中,视图是您的朋友. 这是进一步为ML准备数据的地方. 做事要符合要求. 对于这个股票数据集,有一些事情需要处理:
1. 有少于12行的股票(新股发行或上市后12天内上市的股票).
通过视图排除这些记录
2. 有一个日期列,但我需要这是一个时间戳数据类型
将数据类型更改为视图中的时间戳
3. 周末和节假日数据不存在. 需要通过模拟这些日期的数据来满足固定的间隔.
缺失的数据是否通过视图显示为之前的收盘价
4. 当在更大的集合上训练时,重要的是最终视图按照TIMESTAMP列排序
创建模型
现在艰苦的工作已经完成了. mg官方游戏中心创建模型.
火车模型
对模型进行60个预测周期的训练. 这一步可能会花费很长时间,但搭建仓库可以减少这一时间.
获取数据
如果使用直接SQL, 使用RESULT_SCAN函数将前一步的结果放入表中,以便进一步分析.
结论
雪花通过引入功能强大且用户友好的工具,继续塑造数据分析和机器学习的未来. mg官方游戏中心期待着进一步的创新和改进, 很明显,雪花, 机器学习真的适合每个人.
以前所未有的方式潜入、探索和利用数据的力量!