# Apache Sqoop
– https://sqoop.apache.org/
是一种工具,用于在「Apache Hadoop」和「结构化数据存储」(如关系数据库)之间高效传输批量数据。
# HDFS – Hadoop Distributed File System
-「HDFS Architecture Guide」
一种分布式文件系统,设计用于在商用硬件上运行。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的差异很大。HDFS具有高度容错能力,旨在部署在低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问,适用于具有大型数据集的应用程序。HDFS放宽了一些POSIX要求,以实现对文件系统数据的流式访问。HDFS最初是作为Apache Nutch网络搜索引擎项目的基础设施而构建的。HDFS现在是Apache Hadoop子项目。
参考文献