不使用SimpleDB的10个理由-数据中心专区

不使用SimpleDB的10个理由

作者：IT168.com 编辑：蔡松 2009-07-09 19:05 来源：IT168�

　　【IT168 资讯】自从Amason推出SimpleDB，基于key-value键值对的分布式数据存储系统受到了广泛关注，类似的系统还有Apache的CouchDB，以及最近重磅推出的Google App Engine的基于BigTable的Datastore API等，毫无疑问，分布式数据存储系统提供了更好的横向扩展能力，是未来的发展方向。但是现阶段，对比传统的RDBMS，也还有一定的差距和不足。Ryan Park撰文指出了SimpleDB的10大不足之处：

1.数据完整性无法保证

　　类似SimpleDB的分布式数据存储系统目前还无法实现和RDBMS一样严格的完整性约束，例如唯一性约束和外键约束等，所以数据的完整性需要在应用中来实现。

2.数据一致性无法保证，将导致非常糟糕的用户体验

　　SimpleDB做写入操作做了优化，调用API时只需要写入数据到一台SimpleDB服务器即返回写入成功的信息，随后数据会被分布复制到更多的SimpleDB服务器上，而在分布完成之前无法查询到最新的数据。所以需要在应用中来处理这种查询延时导致的数据一致性问题。

3.数据聚合将需要更多的额外编码实现

　　SimpleDB没有实现诸如join，group by，sum/average，sort等，这些操作都需要在应用中来实现。

4.复杂查询和即席查询更难实现

　　SQL标准已经出现很多年，数据库引擎对于一些复杂的SQL查询做了足够多的优化。SimpleDB对于过于复杂的查询和条件不定的Ad hoc查询没有提供特别的支持，所以SimpleDB还不太适合数据仓库等OLAP应用。

5.数据聚合操作性能比RDBMS差

　　RDBMS引擎对于join,group by等聚合操作做了很多优化，优化器可以提供根据不同的情况使用诸如hash join,nested loop join等方式来实现。自己在应用中实现这些操作可能效率会不如成熟的RDBMS。当然，这一点有些牵强，在应用中实现有可能更坏也有可能更好，从分布式趋势来看，数据库将倾向于做越来越简单的数据存储，计算更多的应该交给前面的应用服务器来完成。

6.数据的导入导出，备份等操作更慢更繁琐

　　RDBMS提供了很多成熟的数据迁移和备份工具，这一点刚刚出世的SimpleDB等自然有不足，但这不是问题，只要有需求和时间，就会有工具。

7.SimpleDB并没有想象中的快

　　Todd Hoff在一篇文章中的数据：从SimpleDB的1000条记录的表中读取10条记录需要141ms，从100000条记录中读取10条记录需要266ms，而从1000000记录中读取10条需要433ms，这比RDBMS明显要慢很多。当然，对于分布式系统，数据量越大才能体现出优势。在小数据量的情况下，集中式比分布式肯定更有优势。

8.RDBMS也可以良好的可扩展性

　　列举了一些RDBMS的成功应用案例，如Facebook和Livejournal使用MySQL，myspace使用MS SQL Server，Salesforge.com使用Oracle。通过良好的应用设计、数据的垂直分割和水平分割、主从复制和群集等技术，传统的RDBMS也能实现不错的可扩展性，支撑大型的网站系统毫无问题。

9.超级可扩展性是一种过度设计

　　技术应该以适用为原则，过度设计是一种巨大的浪费。

10.SimpleDB非常有用，但也要用在合适的场合

　　SimpleDB并不是为了替代OLTP数据库而生的，它的key-value存储结构更加适用于处理半结构化的数据。好的产品也要用的合适的地方才能扬长避短。

关注我们