Home Archivio Microsmeta Home Galleria Forum Podcast Contatti
Cerca in Digital Worlds
 


Alex - Webmaster



Martina - Redazione


Vega AI
Vega - AI Host

EDIZIONE DEL 29 05 2026
🎧 Qui trovi
150 DAILY
podcast da
ascoltare!

AI AVATAR GUESTS
VALERIA
ADWOA
INAYA
SARITA
GEORGINA
AMELIA
ESMERALDA
SOFIA
COSMINA
MARIA
SARA
KIRA
CASSANDRA
CLOE
HISTORY
DEMCHENKO

Ringrazio tutti i rispettivi autori (raggiungibili ai link) attribuendo ai loro video AI (aggiunti ai miei articoli) tutti i diritti, contribuendo a diffonderli!

📊 SYSTEM STATUS
31
â—Ź LIVE ACCESS
Commenta su Telegram LASCIA UN
COMMENTO
TELEGRAM


Titolo
Accessori (25)
Amici animali (32)
Audio e Video (110)
Automotive (6)
Beni Arte e patrimonio UNESCO (24)
Bici Elettriche (4)
Capolavori tecnologici (14)
Cultura Geek (18)
CuriositĂ  (42)
Domotica (18)
Donne scienziate (12)
Droni (11)
E-commerce e Retail (10)
ENGLISH VERSION (1)
Futuro (22)
Gaming (59)
Gatget (96)
Geopolitica e tecnologia (50)
Green Tech (88)
Guide e Tutorial (29)
Hackintosh (2)
Hardware PC (154)
Indossabili (10)
Intelligenza Artificiale (136)
Intelligenza Artificiale e scacchi (5)
Internet e Social (91)
iPad (12)
iPhone (14)
Linux e Open Source (180)
Mac (7)
macOS (7)
Medicina e Tecnologia (29)
Meraviglie Naturali Recondite (22)
Microsoft Windows (89)
Misteri (95)
Mitologia e Cinema (16)
Mondo Android (9)
Mondo Apple (209)
Mondo Google (249)
Monitor (9)
Natura (11)
Networking e ConnettivitĂ  (18)
Neurotecnologie (8)
Notebook (21)
Notizie (12)
Nuove Tecnologie (218)
Nuovi materiali (23)
Parchi tematici, Musei sci-tech (40)
PC Desktop (7)
Podcast e Blog (84)
Preistoria (18)
Psicologia (2)
Razzismo USA spiega Trump (16)
Robotica (127)
Salute e benessere (27)
Schede Video (2)
Scienza Ambiente (11)
Scienza e Ambiente (10)
Scienza e Spazio (226)
Scienza e Tecnologia (43)
Scienziati dimenticati (10)
Sci-Fi e Rigore Scientifico (39)
Shopping e Offerte (1)
Sicurezza informatica (10)
Sistemi Operativi (9)
Smart Home Amazon Google (3)
Smartphone (59)
Sociologia (3)
Software e AI (1)
Software e Sicurezza (113)
Stampanti e scanner (5)
Storage (16)
Storia Antico Egitto (25)
Storia Aztechi, Maya e Inca (26)
Storia Cina, Hong Kong, Taiwan (21)
Storia console videogiochi (13)
Storia Contemporanea (27)
Storia degli scienziati (6)
Storia degli smarphone (72)
Storia dei Social Media (6)
Storia del Rinascimento (8)
Storia della Russia (7)
Storia delle invenzioni (57)
Storia delle scoperte mediche (17)
Storia EtĂ  Moderna (26)
Storia Giappone, Coree e Asia (13)
Storia Grecia Antica (60)
Storia Impero Romano (124)
Storia Medioevo (63)
Storia Mesopotamia (3)
Storia origini civiltĂ  e preistoria (8)
Storia Personal Computer (21)
Storia Prime CiviltĂ  (3)
Sviluppo sostenibile (30)
Tablet (8)
Tecnologia (224)
Tutorial (20)
Version Français (1)

Catalogati per mese:

Gli interventi piĂą cliccati

Ultimi commenti:
Un altro articolo interessante
17/05/2026 @ 08:57:21
Di Mirco
It should be nice if you could...
16/05/2026 @ 09:36:29
Di Dana
Nice blog!
22/03/2026 @ 08:56:22
Di Stupid spammer
Congratulations for this inter...
21/03/2026 @ 06:05:05
Di Danny
I like your posts on history
21/03/2026 @ 05:36:40
Di Jacklyn
How to hear your audio also in...
21/03/2026 @ 04:31:26
Di Cecil
Russian spammers are all IDIOT...
20/03/2026 @ 15:41:20
Di Berry
I still have my Zune HD!
20/03/2026 @ 14:37:40
Di Tyson
Spammers are working for me, c...
20/03/2026 @ 14:03:18
Di Sherlyn
Nice web site!
20/03/2026 @ 11:36:37
Di Mona

Think different!
Molla Apple e spendi 1/3!

No Apple Intelligence fino al 2025
su iPhone 16 Pro Max? Sono 1489
Euro buttati ...Davvero no grazie!

...Passato ad Android :-)







Scacchi, cibo per la mente!

Titolo
Bianco e nero (1)
Colore (12)

Le fotografie piĂą cliccate

Titolo
Quale sistema operativo usi principalmente?

 Windows 11
 Windows 10
 Windows 8
 Windows 7
 macOS Tahoe
 macOS Sequoia
 macOS Sonoma
 Linux
 iOS
 Android

NETMARKETSHARE




Blogarama - Technology Blogs


Titolo
Listening
Musica legale e gratuita: Jamendo.com

Reading
Libri:
Gomorra di Roberto Saviano

Ragionevoli Dubbi di Gianrico Carofiglio
Se li conosci li eviti di Marco Travaglio

Watching
Film:
The Prestige
Lettere da Hiwo Jima
Masseria delle allodole
Le vite degli altri
Mio fratello è figlio unico
Déjà vu - Corsa contro il tempo
Ti amerò sempre
The millionaire | 8 Oscar






29/05/2026 @ 16:38:17
script eseguito in 388 ms


Progetto grafico e web design:
Arch. Andrea Morales
P.IVA 08256631006



\\ Home Page : Articolo

HANNO SUPPORTATO DIGITAL WORLDS INVIANDO PRODOTTI DA RECENSIRE




Eseguire Deepseek in locale: risorse hardware e requisiti tecnici
Di Alex (del 29/05/2026 @ 08:00:00, in Intelligenza Artificiale, letto 98 volte)
[🔍CLICCA PER INGRANDIRE ]
Un potente computer con GPU per eseguire modelli DeepSeek localmente
Un potente computer con GPU per eseguire modelli DeepSeek localmente

Far girare un modello linguistico come DeepSeek sul proprio hardware non è più fantascienza. Grazie ai formati quantizzati e a software ottimizzato, è possibile avere un’intelligenza artificiale privata e offline. Ma di quali componenti avete davvero bisogno? Ecco una guida completa su potenza di calcolo, RAM e spazio di archiviazione necessari. LEGGI TUTTO L'ARTICOLO

🎧 Ascolta questo articolo




Bonus Video



I modelli DeepSeek e il panorama dell'inferenza locale
Quando si parla di eseguire DeepSeek in locale, il punto di partenza è comprendere la famiglia di modelli rilasciati dall’azienda cinese DeepSeek AI. A differenza di altri grandi modelli linguistici, DeepSeek ha rapidamente guadagnato popolarità per la combinazione di prestazioni vicine a quelle dei colossi proprietari e la piena apertura dei pesi, spesso accompagnata da licenze permissive. I modelli più noti sono DeepSeek-V2, DeepSeek-V3 e le varianti pensate per il codice come DeepSeek-Coder. Ciascuno di essi è disponibile in diverse configurazioni di parametri: da 7 miliardi fino a 671 miliardi per la versione completa Mixture-of-Experts di V3. Questa architettura MoE rappresenta una svolta fondamentale per il deploying locale, perché in ogni singolo passo di inferenza viene attivato soltanto un sottoinsieme di esperti, riducendo di fatto il costo computazionale rispetto a un modello denso di pari dimensioni. Per dare un’idea, DeepSeek-V3 ha 671 miliardi di parametri totali, ma ne attiva circa 37 miliardi per token, il che significa che i requisiti di memoria e calcolo sono molto inferiori a quanto suggerirebbe il numero grezzo. La community open-source ha poi prodotto decine di versioni quantizzate, convertite nei formati GGUF, GPTQ e AWQ, abbassando ulteriormente la barriera d’ingresso. Questi formati consentono di comprimere i pesi da 16 bit a 8, 6, 4 o persino 2 bit per parametro, con una perdita di qualità sorprendentemente contenuta. Ciò significa che un modello da 671 miliardi di parametri in quantizzazione a 4 bit può teoricamente entrare in circa 350-400 GB di memoria combinata tra RAM di sistema e VRAM, mentre una versione più piccola da 16 miliardi di parametri attivi può scendere a poche decine di gigabyte. Il panorama dell’inferenza locale si è arricchito inoltre di motori di esecuzione come llama.cpp, Ollama, LM Studio e text-generation-webui, che supportano nativamente l’architettura DeepSeek e permettono di sfruttare CPU multi-core, GPU NVIDIA, AMD e persino Apple Silicon. In questo ecosistema, il sogno di avere un assistente AI potente, completamente offline e sotto il proprio controllo, si concretizza attraverso scelte oculate di componenti hardware e configurazioni software. La flessibilità è tale che è possibile far girare modelli DeepSeek più piccoli perfino su laptop con 16 GB di RAM, purché si adotti una quantizzazione aggressiva e si accettino compromessi sulla velocità di generazione. I modelli di taglia intermedia, come DeepSeek-V2-Lite con 16 miliardi di parametri, rappresentano il punto di equilibrio ideale per molti utenti domestici e professionisti, offrendo capacità di ragionamento e codifica già molto elevate senza richiedere investimenti hardware proibitivi. La diffusione di DeepSeek ha inoltre stimolato la creazione di tutorial e script di installazione automatizzata, rendendo l’esperienza sempre più accessibile anche a chi non ha una formazione tecnica specifica. In definitiva, il problema di far girare DeepSeek in locale è oggi affrontabile con un’ampia gamma di soluzioni, dal PC da gaming con una buona GPU fino a workstation multi-GPU o server bare-metal, e la scelta della configurazione ottimale dipende in larga misura dal modello specifico e dal livello di performance che si intende ottenere.

Requisiti di CPU, RAM e l’impatto della quantizzazione

Il cuore di ogni sistema di inferenza locale è la memoria, sia quella volatile della RAM sia quella video delle GPU. I modelli linguistici di grandi dimensioni sono essenzialmente enormi matrici di numeri in virgola mobile, e la loro esecuzione richiede di caricare l’intero insieme di pesi in memoria. Per questo motivo, la RAM di sistema è il parametro più critico quando si usa la sola CPU, mentre la VRAM è determinante quando si dispone di una scheda grafica. Prendiamo il caso più comune: un utente che voglia eseguire un DeepSeek-Coder da 33 miliardi di parametri in quantizzazione Q4_K_M su una CPU moderna. In questa configurazione, il modello occuperà circa 20 GB di RAM, e sarà necessario disporre di almeno 32 GB di RAM per lasciare spazio al sistema operativo e ai buffer di contesto. Con 64 GB di RAM si possono gestire modelli MoE da 16 a 20 miliardi di parametri attivi, mentre per le versioni più grandi, come DeepSeek-V3 con 37 miliardi di parametri attivi in Q4, il fabbisogno di RAM sale a circa 25-30 GB, rendendo consigliabili almeno 48 o 64 GB. La velocità di inferenza su CPU dipende non solo dalla quantità di RAM, ma anche dalla sua banda passante e dal numero di core. Memorie DDR5 con frequenze elevate, abbinate a processori con molti core e un buon supporto alle istruzioni AVX-512, possono raggiungere velocità di 5-10 token al secondo, sufficienti per molte applicazioni interattive. L’uso di CPU AMD Ryzen 9 o Intel Core di tredicesima e quattordicesima generazione, con RAM dual-channel o quad-channel, permette di avvicinarsi alle prestazioni di una GPU di fascia media nei modelli più piccoli. Entra qui in gioco il concetto di quantizzazione, che è la tecnica principe per ridurre il footprint di memoria senza sacrificare eccessivamente la qualità. I formati GGUF offrono decine di varianti, da Q8_0 (circa 8 bit per parametro) fino a IQ2_XS (poco più di 2 bit). Ogni riduzione della profondità di bit dimezza approssimativamente lo spazio occupato, ma introduce anche un degrado nella coerenza delle risposte, che diventa più marcato al di sotto dei 4 bit. La scelta della quantizzazione ottimale è un compromesso tra qualità e risorse: per il DeepSeek-V3, la versione Q4_K_M è generalmente considerata il punto di equilibrio ideale, offrendo una qualità comparabile al modello non quantizzato in molti benchmark, pur richiedendo circa la metà della memoria. Esistono anche tecniche di offloading parziale, in cui parte del modello viene caricata in VRAM e parte resta in RAM di sistema, orchestrate da motori come llama.cpp con i parametri --n-gpu-layers. In questo scenario, avere 32 GB di RAM e una GPU con 12 GB di VRAM può permettere di eseguire modelli MoE di fascia media con una velocità superiore a quella della sola CPU. Il ruolo del sistema operativo non va trascurato: Linux offre generalmente overhead inferiori e una migliore gestione della memoria rispetto a Windows, mentre macOS su Apple Silicon beneficia dell’architettura a memoria unificata, che consente di allocare fino al 75% della RAM direttamente come memoria video. Su un MacBook Pro con chip M3 Max e 128 GB di memoria unificata, è possibile eseguire senza problemi DeepSeek-V3 in Q4_K_M interamente in GPU, raggiungendo prestazioni notevoli con consumi ridotti. In conclusione, i requisiti di CPU e RAM per DeepSeek in locale sono molto variabili: per modelli da 7-16 miliardi di parametri bastano 16-32 GB di RAM e una CPU moderna, mentre per sfruttare al meglio le versioni MoE più potenti è consigliabile partire da 64 GB di RAM e, se possibile, accompagnare il sistema con una o più GPU.

Il ruolo della GPU e della memoria video dedicata

Quando si passa all’accelerazione hardware tramite GPU, lo scenario cambia radicalmente in termini di velocità, ma diventano critici altri parametri: la quantità di VRAM, l’ampiezza del bus di memoria e il supporto a librerie come CUDA o ROCm. DeepSeek, come la maggior parte dei modelli moderni, è stato addestrato con framework che si appoggiano su CUDA, e pertanto le schede NVIDIA rappresentano ancora la scelta più fluida e performante per l’inferenza locale. Tuttavia, grazie a progetti come llama.cpp con backend Vulkan e ROCm, è oggi possibile utilizzare anche GPU AMD e, in misura sperimentale, Intel Arc. Per un modello DeepSeek-V2-Lite da 16 miliardi di parametri attivi in Q4, servono circa 10-12 GB di VRAM per caricare i pesi e mantenere un contesto di qualche migliaio di token. Una scheda come la NVIDIA GeForce RTX 3060 da 12 GB è quindi più che sufficiente, e può generare testo a velocità superiori ai 30 token al secondo, offrendo un’esperienza interattiva fluida. Modelli più grandi, come la versione base di DeepSeek-V3 con circa 37 miliardi di parametri attivi, richiedono invece almeno 24 GB di VRAM in Q4, il che li rende eseguibili su RTX 3090, RTX 4090 o sulle workstation A5000/A6000. Se si dispone di due GPU, è possibile distribuire il modello tra di esse, raddoppiando di fatto la memoria a disposizione e sfruttando il parallelismo per accelerare ulteriormente l’inferenza. Tecnologie come NVLink sulle schede professionali o il software di splitting di llama.cpp permettono di unire la VRAM di più GPU, anche di modelli diversi, sebbene in quest’ultimo caso le prestazioni possano risentire dei trasferimenti su bus PCIe. La larghezza di banda della memoria è un altro fattore cruciale: la HBM2e delle GPU enterprise o la GDDR6X delle RTX 3090/4090 offrono un throughput di centinaia di gigabyte al secondo, che si traduce in un caricamento rapidissimo dei pesi e in una generazione pressoché immediata dei token. Al contrario, una GPU con bus ridotto, come la RTX 4060 Ti da 8 GB, può rappresentare un collo di bottiglia anche se i pesi entrano nella VRAM, proprio a causa della banda limitata. Un’alternativa sempre più popolare è l’utilizzo di Apple Silicon, il cui punto di forza non è la potenza bruta ma l’enorme banda della memoria unificata e l’efficienza energetica. Un Mac Studio con M2 Ultra e 192 GB di memoria può eseguire DeepSeek-V3 in Q4 con 128 GB allocati alla GPU, ottenendo velocità comparabili a una RTX 3090 ma con la possibilità di gestire modelli che non entrerebbero in nessuna singola GPU consumer. Per chi desidera spingersi oltre, l’universo delle workstation multi-GPU e dei server ricondizionati offre opportunità interessanti: schede come le NVIDIA Tesla P40 da 24 GB, disponibili sul mercato dell’usato a prezzi contenuti, permettono di assemblare configurazioni con 48, 72 o più GB di VRAM senza spendere cifre astronomiche. In questi scenari, è necessario prestare attenzione all’alimentazione, al raffreddamento e al supporto dei driver, ma i risultati sono notevoli e consentono di eseguire modelli MoE completi con contesti lunghissimi. La scelta della GPU giusta per DeepSeek si riduce quindi a un bilancio tra budget, spazio disponibile e velocità desiderata: un utente domestico troverà soddisfazione con una RTX 3090 usata, mentre un professionista che lavora con basi di codice estese o testi molto lunghi potrà orientarsi su configurazioni con più GPU o su Apple Silicon ad alta capacità.

Spazio di archiviazione, software e configurazione dell’ambiente

Un aspetto spesso sottovalutato è lo spazio di archiviazione necessario per ospitare i file dei modelli e i tool correlati. I pesi di DeepSeek-V3 in formato GGUF Q4_K_M occupano circa 200 GB, mentre le versioni Q8 possono superare i 350 GB. A questi vanno aggiunti i file di configurazione, i tokenizer e, se si scelgono formati come GPTQ o AWQ, i tensori ottimizzati che possono richiedere ulteriore spazio. Un disco NVMe ad alta velocità è fortemente consigliato, poiché il caricamento iniziale del modello dalla memoria di massa alla RAM o alla VRAM richiede di leggere centinaia di gigabyte; con un SSD SATA tradizionale, questa operazione può richiedere diversi minuti, mentre con un NVMe PCIe 4.0 di ultima generazione si scende a poche decine di secondi. Inoltre, durante l’inferenza con contesti molto ampi, il sistema potrebbe avere la necessità di spostare temporaneamente porzioni di memoria su disco se la RAM è insufficiente (swap), ed è qui che un NVMe veloce può fare la differenza tra un sistema ancora utilizzabile e uno completamente bloccato. Per quanto riguarda il software, la configurazione di riferimento per DeepSeek in locale si basa su llama.cpp e sui suoi numerosi wrapper. Ollama, ad esempio, è uno dei metodi più immediati: con pochi comandi è possibile scaricare il modello prequantizzato, avviare un server API compatibile con OpenAI e iniziare a interagire tramite terminale o interfacce web come Open WebUI. LM Studio offre invece un’esperienza grafica completa per Windows, macOS e Linux, con la possibilità di regolare parametri, scegliere il backend e monitorare l’utilizzo di risorse in tempo reale. Per gli utenti più esperti, text-generation-webui mette a disposizione un’interfaccia potente che supporta training, fine-tuning e una galleria di estensioni. Indipendentemente dallo strumento scelto, è fondamentale verificare che la versione di llama.cpp utilizzata includa le patch specifiche per l’architettura MoE di DeepSeek, poiché senza di esse le prestazioni potrebbero essere compromesse o il modello potrebbe non funzionare affatto. Un altro elemento da non trascurare è la configurazione dei parametri di sampling, che influenzano direttamente la qualità del testo generato e la latenza. Parametri come top_p, temperature, repeat_penalty e max_tokens devono essere regolati in base al modello e al caso d’uso: un assistente di codifica richiederà impostazioni diverse rispetto a un chatbot creativo. Infine, è buona norma dedicare una partizione o un volume separato ai modelli, in modo da semplificare backup e aggiornamenti. Docker è un’opzione sempre più utilizzata per isolare l’ambiente e garantire la riproducibilità, specialmente in scenari server. Riassumendo, lo spazio di archiviazione per DeepSeek deve essere abbondante e veloce, il software va scelto con cura e configurato con attenzione, ma una volta messo a punto, l’intero sistema può funzionare in modo stabile per anni, garantendo privacy, bassa latenza e completa indipendenza da servizi cloud. Eseguire DeepSeek in locale è oggi un progetto alla portata di appassionati e professionisti, a patto di dimensionare correttamente RAM, VRAM e spazio su disco. Con le dovute accortezze, si ottiene un assistente AI privato, veloce e completamente sotto il proprio controllo, capace di rivaleggiare con i migliori servizi cloud senza rinunciare alla riservatezza dei dati.
 
 
Articolo Articolo  Storico Storico Stampa Stampa

 
Nessun commento trovato.

Antispam:
Request a code: microsmeta@gmail.com or
join our Telegram Digital Worlds community!!!
Comment permission code?
Testo (max 1000 caratteri)
Nome
e-Mail / Link


Disclaimer
L'indirizzo IP del mittente viene registrato, in ogni caso si raccomanda la buona educazione.