推荐:用于数据清理的顶级R包(附资源)
译者:Anna Kayfitz,CEO of StrategicDB Corp
译者:顾华林?校订:刘刚
责任编辑约1700字,提议写作5两分钟。
保证统计数据数据整洁整洁如果仍旧是统计数据数据自然科学组织工作销售业务流程中重中之重也是最关键的部份。
统计数据数据清扫是统计数据数据自然生物学家最关键和最费时的各项任务众所周知。下列是用作统计数据数据清扫的世界顶级R包。
每晚有上百万或数千万的统计数据数据原素步入您的民营企业,其中无可避免的存有许多缺少创建高效率销售业务数学模型的必要性产品质量的统计数据数据原素。不过,保证统计数据数据整洁整洁如果仍旧是统计数据数据自然科学组织工作销售业务流程中重中之重也是最关键的部份。即使没有它,您将极难看见关键的文本,并可能由于统计数据数据多次重复,统计数据数据极度或缺少关键信息等其原因作出严重错误的重大决策。
?
R,做为一类能应用作统计数据排序和绘图的开放源码词汇,是最常见和最强悍的统计数据数据程式设计辅助工具众所周知。R提供更多了创建统计数据数据自然科学工程项目所需的大部份辅助工具,但无论借助任何人一类辅助工具,它根本无法努力做到提供更多它拒绝接受到的统计数据数据成正比同的关键信息。但保有了这些辅助工具,R自然环境很多库可以在任何人工程项目开始以后进行统计数据信息处理和操作方式。
?
积极探索统计数据数据
绝大多数您已经引入的用作积极探索统计数据数据系列产品的辅助工具已存有于R网络平台中。
?
全文(统计数据数据)
这个方便的命令只是概述了大部份统计数据数据属性,显示了每个属性的最小值,最大值,中值,平均值和类别拆分。这是一类快速发现任何人潜在统计数据数据极度的好方法。
接下来,您可以使用直方图来更好地理解统计数据数据的分布。这将可视化显示统计数据数据集或您特别希望观察的任何人数字列中的任何人极度值。
?
plyr包
您需要安装plyr软件包以创建直方图,使用标准R功能来安装库。
这能创建统计数据数据的可视化,以快速发现任何人极度。箱形图可视化使用相同的包,但分成四分位数以进行离群检测。这两个组合将很快告诉您是否需要限制统计数据数据集或仅在任何人算法或统计数据建模中使用它的某些部份。
?
纠正严重错误
R有很多预先构建的方法来纠正统计数据数据严重错误,例如转换值,就像在Excel或SQL中那样,使用简单的逻辑,例如as.charater()将列转换为字符串。
但,如果要开始更正在直方图或箱形图中看见的严重错误,则可以选择其他软件包执行此操作方式。
?
stringr包
stringr可以通过几种不同的方式帮助清扫统计数据数据,包括修剪空格和替换某些不必要性的单词。这些是非常标准的代码,结构为str_trim(YOUR_DATA_FIELD),它只是删除了空格。
但,如何消除我们直方图告诉我们的极度?它需要比这更复杂,但做为一个基本的例子,我们可以告诉R用该字段的中值替换我们字段中的大部份极度值。这将把大部份东西都放在一起并消除极度偏见。
?
缺少值
在R中检查不完整的统计数据数据并对该字段执行和操作方式非常简单。例如,此函数将完全消除所选统计数据数据列中缺少的值。
有类似的选项可以用0或N / A替换空白值,具体取决于字段类型,并提高统计数据数据集的一致性。
?
tidyr包
tidyr包旨在整理您的统计数据数据。它的组织工作原理是识别统计数据数据集中的变量,并使用提供更多的辅助工具将它们移动到具有三个主要功能的列或gather(),separate()和spread()。
gather()函数采用多列并将它们收集到键值对中。举个例子,假设您有考试成绩统计数据数据。
名称
考试A
考试B
约翰
55
80
麦克
76
90
山姆
45
75
gather收集功能通过将其转换为可用的列来完成。
名称
考试
成绩
约翰
A
55
麦克
A
76
山姆
A
45
约翰
B
80
麦克
B
90
山姆
B
75
现在我们真的能分析考试成绩。单独和传播函数做类似的事情,一旦你有了包,你可以积极探索,但最终根据需要你的统计数据数据。
这里有许多其他的注释包可能对R中的统计数据数据清扫有用:
?
purr包专为统计数据数据整理而设计。它与plyr包非常相似,虽然年龄较大,但有些用户只是觉得它的使用更容易,功能也更标准化。
?
很多R用户更习惯用SQL词汇而不是R编码。这个函数允许你在R studio中编写SQL代码来选择你的统计数据数据原素
?
该软件包能通过多个列查找多次重复项,并轻松地从您的统计数据数据框中创建友好列。它甚至还有一个get_dupes()函数,用作在多行统计数据数据中查找多次重复值。如果您希望以更高级的方式多次重复统计数据数据删除,例如,查找不同的组合或使用模糊逻辑,您可能需要查看多次重复统计数据数据删除辅助工具。
?
这是一个较旧的包,可以使用统计数据数据框列中的逗号分隔值。用作调查或文本分析准备。
R保有大量的软件包,责任编辑只是触及了它可以做的事情的表面。随着新的库一直涌现,在开始任何人新工程项目以后进行研究并获得正确的库是非常关键的。
学习天然资源:
相关文章:
译者简介:
Anna Kayfitz,StrategicDB Corp首席执行官,该公司是一家统计数据数据清扫和分析公司。她保有Schulich商学院的MBA学位,在创建StrategicDB以后,他在统计数据数据分析和市场营销方面组织工作了10多年。
原文标题:
Top?R?Packages for Data Cleaning
原文链接:
http://www.kdnuggets.com/2019/03/top-r-packages-data-cleaning.html
译者简介:顾华林,帝国理工与IE商学院毕业生,现为SxGroup咨询实习生。热情活泼,积极乐观,对统计数据数据自然科学充满热情。
END
转自:统计数据数据派THU 公众号;
版权声明:本号文本部份来自互联网,转载请注明原文链接和译者,如有侵权或出处有误请和我们联系。
合作请加QQ:365242293
统计数据数据分析(ID?:?ecshujufenxi?)互联网科技与统计数据数据圈自己的微信,也是WeMedia自媒体联盟成员众所周知,WeMedia联盟覆盖5000万人群。
推荐阅读
-
?宝马新5系配置详解!这17款车型你最想入手哪一个?
-
黑龙江省290农场一天比一天热这钱真不好挣是用汗水换来的哎
{{if!data.isVip&&data.isActText}}{{elseif!data.isVip...
-
黑龙江干流堤防290农场段再次出现溃口
本报记者从吉林省水利厅水利厅司令部了解到,继16日再次出现宁远河后,27日7时,吉林河段堤防290农庄段悲剧重演宁远河。历经三个多...
-
黑龙江农险冰火两重天地方财力不足致补贴不一|农业保险|农险|财力
位于中俄林密吉林沿线的集贤县五原镇东方村今年遭遇洪水侵袭,许多农农作物受灾地区,农民周俊民种的200亩小麦几乎无人问津。幸好他参与...
-
黑龙江农垦290农场大雁繁育基地成为湿地生态养殖亮点
【编者按·中国军用养殖业网】日前,农牧一八〇农庄红树林自然保护区不远处,1500万头毛发亮光、身形丰满的雁在大坑里无拘无束地玩耍,...
-
鲜为人知的“料罗湾海战”——晚明与荷兰的战争
事件起因国内背景明崇祯时期,受小冰河期影响。中国北方长年干旱、中原和东部数次特大地震、北方瘟疫流行。除江浙闽粤一带受灾影响后仍然恢...
-
魏县关于进一步调整疫情封控管控措施的通告
肥乡县禽流感防控工作工作组办公室关于更进一步修正禽流感封控管控举措的通告各阶层农村居民:为统筹推进禽流感防控工作和经济社会发展,...
-
高职高考2022年可报考院校及最低录取分数线
-
高尿酸常常没有症状尿酸高可致痛风肾病和结石
-
高一学生举报老师教师节强制收礼:教师节,你准备送礼吗
立刻就要到此日了,每月那个时期,小学生家长们都心里感到恐惧,特别是新升学的小孩小学生家长,不晓得要千万别给同学赠礼,也不晓得新幼儿...