Una colección de los mejores sets de herramientas de open data y open source para data science. Disponible como un Vagrant VM autocontenido o un EC2 AMI que puedes desplegar tú mismo. Es esencialmente una distribución de Linux especializada, con un montón de software para data pre-instalado y con una interfase simple. Para documentación completa:
http://www.datasciencetoolkit.org/developerdocs
http://www.datasciencetoolkit.org/