R 的优秀前端
R 是开源世界中事实上的统计软件包。它也正迅速成为许多科学学科中默认的数据分析工具。
R 的核心设计包括一个运行代码的中央处理引擎,以及一个非常简单的外部世界接口。这种基本接口意味着可以轻松构建图形界面来包装 R 的核心部分,因此存在许多选项可供您用作 GUI。
在本文中,我将介绍可用的 GUI 之一:RStudio。RStudio 是一个商业程序,具有免费的社区版本,适用于 Linux、Mac OSX 和 Windows,因此无论在何种环境下,您的数据分析工作都应该可以轻松移植。
对于 Linux,您可以从下载页面安装主要的 RStudio 软件包。从那里,您可以下载用于基于 Red Hat 的发行版的 RPM 文件或用于基于 Debian 的发行版的 DEB 文件,然后使用 rpm
或 dpkg
进行安装。
例如,在基于 Debian 的发行版中,使用以下命令安装 RStudio
sudo dpkg -i rstudio-xenial-1.1.423-amd64.deb
重要的是要注意,RStudio 只是 GUI 界面。这意味着您需要单独安装 R 本身作为一步。使用以下命令安装 R 的核心部分
sudo apt-get install r-base
还有一个可用的软件包的社区存储库,称为 CRAN,可以为 R 添加大量功能。您需要安装至少一部分软件包,以便拥有一些常用的工具来使用
sudo apt-get install r-recommended
RPM 基础发行版也有等效的命令。
此时,您应该拥有一个完整的系统来进行一些数据分析。
当您首次启动 RStudio 时,您将看到一个类似于图 1 的窗口。

图 1. RStudio 创建一个新的会话,包括 R 的控制台界面,您可以在其中开始您的工作。
窗口的左侧主窗格提供了一个控制台界面,您可以在其中直接与在后端运行的 R 会话进行交互。
右侧分为两个部分,每个部分都有多个选项卡。顶部部分的默认选项卡是环境窗格。在这里,您将看到已创建并在当前 R 会话中存在的所有对象。
其他两个选项卡提供每个给定命令的历史记录以及到外部数据源的任何连接列表。
底部窗格有五个可用的选项卡。默认选项卡为您提供当前工作目录的文件列表。第二个选项卡提供一个绘图窗口,您生成的任何数据图都将显示在该窗口中。第三个选项卡提供了 R 库系统的有序视图。它显示所有当前已安装库的列表,以及用于管理更新和安装新库的工具。第四个选项卡是帮助查看器。R 包括一个非常完整且强大的帮助系统,该系统以 Linux man 页面为模型。最后一个选项卡是用于查看其他类型对象的通用“查看器”窗格。
RStudio 中对管理多个研究领域的人员非常有帮助的一个部分是使用项目的功能。单击菜单项“文件→新建项目”会弹出一个窗口,您可以在其中选择新项目在文件系统上的存在方式。

图 2. 当您创建一个新项目时,可以在新目录、现有目录中创建,也可以从代码存储库中检出。
作为一个示例,让我们创建一个托管在本地目录中的新项目。右下角窗格中的文件显示更改为新目录,您应该看到一个以项目名称命名的新文件,文件名以 .Rproj 结尾。此文件包含新项目的配置。虽然您可以直接通过控制台与 R 会话进行交互,但这样做实际上并不能轻松实现可重复的工作流程。更好的解决方案,尤其是在项目中,是打开脚本编辑器并在脚本文件中编写代码。这样,当您超出研究的开发阶段时,您会自动拥有一个起点。
当您单击“文件→新建文件→R 脚本”时,窗口的左上方会打开一个新的窗格。

图 3. 脚本编辑器允许您构建比仅使用控制台界面更复杂的代码片段。
从这里,您可以使用在代码编辑器中期望的所有标准工具编写 R 代码。要执行此代码,您有两种选择。第一种是简单地单击此编辑器窗格右上角的运行按钮。这将运行光标所在位置的单行代码或先前已突出显示的整个代码块。

图 4. 您可以在脚本编辑器中输入代码,然后运行它们,使代码开发和数据分析对您的大脑来说更容易一些。
如果您有一个要作为一个整体运行的完整脚本文件,您可以单击编辑器窗格右上角的源按钮。这使您可以重现较早时间完成的分析。
最后要提到的是 RStudio 中的数据可视化。实际上,数据可视化由 R 中的其他库处理。R 的核心中有一个非常完整且复杂的图形功能。对于普通人来说,有几个库建立在此基础上。其中最受欢迎的之一,并且有充分的理由,是 ggplot。如果您的系统上尚未安装,您可以使用以下命令获取它
install.packages(c('ggplot2'))
安装后,您可以使用以下命令制作一个简单的散点图
library(ggplot2)
c <- data.frame(x=a, y=b)
ggplot(c, aes(x=x, y=y)) + geom_point()
如您所见,ggplot 将数据帧作为要绘制的数据,您可以使用 aes()
函数调用和 geom
函数调用来控制显示。在本例中,我使用 geom_point()
函数来获取点的散点图。然后,该图在左下角窗格中生成。

图 5. ggplot2 是 R 环境中最强大和最流行的绘图工具之一。
RStudio 中还有更多功能可用,包括可以在集群上运行的服务器部分,允许您在本地开发代码,然后将其发送到服务器进行实际处理。