SQL
是否需要了解SQL具体取决于个人所属公司和数据科学团队。有些团队有数位数据工程师和数据分析师以及机器学习工程师,而有些团队则只有一位数据科学家。所以数据科学家是否需要了解SQL,你心中自有答案。
但是,讨论一下是否需要了解SOL的原因,以及不需要SOL的时机是颇为有趣且十分重要,讨论这个问题也有助于即将入职的数据科学家了解工作期望。以下是我使用SQL的原因:
使用SQL查询表格以获得有用的数据集
保持自主感(尽管也需要帮助)
在现有的SQL查询中随时发现和创建新功能
尽管数据科学可以看作是只专注于Python和R以及复杂机器学习算法的工作,但如果不充分利用SQL的优势,一个团队可能很难执行数据科学运算进程。不过,有时SQL并不是必需的,这取决于个人在数据科学领域的具体角色。
如果能从数据工程师或数据分析师那里获得一些帮助,便可以参考其他替代方法。此外,当SQL查询功能完全不符合专业时也不需要SQL,因为此时专注点在于数据科学模型开发,类似于在已获取的数据上相互测试各种机器学习算法。
替代方法
从数据分析师或数据工程师处获取数据集后,对数据集的下一步改进就是创建新功能要素,而不只是直接从数据表中获取字段。例如,如果数据集中有10个字段,则可以开发几个全新指标作为字段,而不是通过计算第1列和第2列来直接创建新的第11列。除了SQL以外,另一个比较容易进行此计算的工具是pandas。充分理由显示,数据分析师和数据科学家已广泛使用该库。
使用pandas,能够快速执行复杂计算,并且只需一行代码。有时很难使用SQL计算数据,因为它在视觉上呈多行布局(仅为个人看法)。
以下是一些常用的pandas 数据框操作,旨在方便化数据集特征工程运算。
SQL是必学的吗?数据科学家的技能树该如何点?
SQL 是否需要了解SQL具体取决于个人所属公司和数据科学团队。有些团队有数位数据工程师和数据分析师以及机器学习工程师,而有些团队则只有一位数据科学家。所以数据科学家是否需要了解SQL,你心中自有答案。 但是,讨论一下是否需要了解SOL的原因,以及不需
本文来自网络,不代表站长网立场,转载请注明出处:https://www.tzzz.com.cn/html/shuju/2021/1212/36836.html