El servidor de inteligencia artificial de Lenovo logra por primera vez implementar la implementación local de DeepSeek, un modelo completo de menos de 1 TB, con soporte para 100 concurrencias.
La información de Jinshi del 3 de marzo, recientemente, el Grupo Lenovo anunció que, basándose en el servidor Lenovo Watan WA7780 G3, logró implementar por primera vez en la industria el despliegue único del gran modelo DeepSeek-R1/V3 671B, con una memoria gráfica inferior a 1TGB (realmente 768GB) para proporcionar una experiencia fluida a 100 usuarios concurrentes. Según los datos de prueba de Lenovo, en un entorno de prueba estándar de 512 TOKEN, este sistema puede admitir 100 usuarios concurrentes para obtener una producción estable de 10 TOKEN por segundo, con un tiempo de respuesta del primer TOKEN comprimido en menos de 30 segundos.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
El servidor de inteligencia artificial de Lenovo logra por primera vez implementar la implementación local de DeepSeek, un modelo completo de menos de 1 TB, con soporte para 100 concurrencias.
La información de Jinshi del 3 de marzo, recientemente, el Grupo Lenovo anunció que, basándose en el servidor Lenovo Watan WA7780 G3, logró implementar por primera vez en la industria el despliegue único del gran modelo DeepSeek-R1/V3 671B, con una memoria gráfica inferior a 1TGB (realmente 768GB) para proporcionar una experiencia fluida a 100 usuarios concurrentes. Según los datos de prueba de Lenovo, en un entorno de prueba estándar de 512 TOKEN, este sistema puede admitir 100 usuarios concurrentes para obtener una producción estable de 10 TOKEN por segundo, con un tiempo de respuesta del primer TOKEN comprimido en menos de 30 segundos.