Una colección de los mejores sets de herramientas de open data y open source para data science. Disponible como un Vagrant VM autocontenido o un EC2 AMI que puedes desplegar tú mismo. Es esencialmente una distribución de Linux especializada, con un montón de software para data pre-instalado y con una interfase simple. Para documentación completa:

http://www.datasciencetoolkit.org/developerdocs

http://www.datasciencetoolkit.org/