Domanda:
La più grande quantità di core sulla scheda più piccola
iXCray
2016-07-11 13:08:14 UTC
view on stackexchange narkive permalink

Sto cercando il calcolo parallelo nella forma più piccola possibile. Ad esempio, avere due Intel Xeon a 18 core parcheggiati su entrambi i lati della scheda madre con le dimensioni di una carta di credito sarebbe la soluzione ideale.

Impossibile trovare schede madri (compatibili con CPU con 10+ core) senza USB, Wifi, PCIe e altre porte, questo le rende solo più grandi.

Più specificamente, ho bisogno del miglior rapporto core per metro quadro possibile: CPU e modelli di scheda madre.

  • 1,5-2 GHz va bene. Di più = migliore, ma non critico
  • sì, è per costruire una CPU farm ad alta densità
  • no, non è per il mining, è per la matematica, calcoli non GPU
  • sì, la quantità di core (multithreading) è fondamentale
  • sì, le enormi schede madri per server 4x "CPU Intel Broadwell-EP" sono ok finché non portano il miglior rapporto core / quadrato

Aggiornato (12.07):

Considerando le risposte di seguito che ho al momento:

  • Niente AMD, processori Xeon, E5 o E7 deve essere valutato in base a costo / densità / fattore di potenza, verrà aggiornato con i calcoli in seguito.
  • Sono anche in server blade con densità estrema CON supporto di Xeon Phi - alcune applicazioni funzioneranno piacevolmente con il riutilizzo di codice e dati, ho passato una giornata a cercare specifiche e costi, si aggiornerà non appena avrà una buona configurazione a portata di mano
  • per quanto riguarda CUDA e Nvidia Tesla, questa è una domanda a parte e è già risolto, condividerà le specifiche con te più tardi, grazie, SEJPM!

Ciò che è già deciso è che la configurazione avrà SIA Xeon E5 / E7 che Xeon Phi sulle stesse schede (non su tutte però). I supercomputer Cray lo utilizzano già

Aggiornato (12.07) [2]:

Per essere chiari: ho molti piccoli binari (multipiattaforma, C ++ e Java), ognuno dei quali funziona per secondi con pieno supporto del calcolo parallelo. Quando si tratta di situazioni in cui ci sono molti meno core rispetto alla quantità di thread / processi avviati, l'efficienza complessiva diminuisce a causa di molti cambi di contesto tra i processi. E non c'è modo di mettere in coda i lavori, diciamo che devono essere eseguiti in tempo reale.

Il modo migliore è distribuirli tra Xeon Phi (memorizzare il codice e preconfigurare con i dati) + eseguirne altri come un piccolo servizio (che risolve un problema con il sovraccarico di caricamento binario) in attesa di lavori.

Ecco perché cerco una soluzione relativamente economica con un'elevata densità di core per non mantenere una grande quantità di unità, risolvendo più problemi con i dati -logistica.

Quattro risposte:
#1
+4
JBiggs
2016-09-09 00:05:17 UTC
view on stackexchange narkive permalink

Se sei disposto a lavorare ancora un po 'sull'integrazione con qualsiasi cosa tu voglia eseguire, puoi provare una scheda Parallella. Questo ti dà un co processore RISC a 16 core più un processore principale dual core su una scheda delle dimensioni di una carta di credito. Utilizzano pochissima energia e sono progettati specificatamente per essere utilizzati in cluster o in applicazioni parallele (da cui il nome). Come bonus, partono da circa $ 100 ciascuno e utilizzano Linux. https://www.parallella.org/

enter image description here

Ora, QUESTO è qualcosa a cui potrei essere interessato, anche se probabilmente mi ritroverò a costruire una custodia personalizzata in legno o qualcosa del genere. Non posso semplicemente farli disporre tutti non protetti.
#2
+2
Adam Wykes
2016-07-11 19:03:29 UTC
view on stackexchange narkive permalink

Presumo che tu abbia bisogno di core / thread compatibili con x86, e presumo che tu non voglia usare qualcosa come la scheda di calcolo Xeon Phi, per un motivo o per un altro. Assumerò anche, poiché non hai specificato, che i requisiti di alimentazione e le considerazioni sulla dispersione del calore non siano qualcosa di cui ti preoccupi, poiché non è stato menzionato.

Detto questo, ci sono alcuni mostri assoluti là fuori che puoi inserire in build piuttosto piccole.

Sul lato AMD, sei bloccato nel 2012 a meno che non ti piaccia ARM, ma puoi comunque ottenere 64 sistemi real-core molto potenti costruiti su schede server G34 quad-socket che sono in qualche modo stipate in chassis 1U di Supermicro e altre società.

Sul lato Intel, dove sospetto che finirai, puoi ottenere il formidabile Intel Xeon E5-2699 V4, con 22 core e 44 thread PER PROCESSORE , su schede multi-CPU di grandi dimensioni o su schede ITX sottili come questa: http://www.anandtech.com/show/9221/asrock-rack-announces-epc612d4i, o questa http://www.asrockrack.com/general/productdetail.asp?Model=EP2C612D8HM#Specifications, a seconda di quale sia la maggiore densità. Non sto nemmeno raccomandando AsRock come marchio in sé, ti sto solo mostrando cosa è possibile fare usando il loro sito.

Se niente di tutto ciò sarà sufficiente, dovrai davvero esaminare cose come Architetture Xeon Phi, IBM Power8 o ARM. Sebbene più esotici e quindi più difficili da lavorare, questi tipi di CPU presentano densità di elaborazione molto elevate, con approcci diversi ciascuno. Sarebbero necessarie ulteriori informazioni / ricerche prima che qualsiasi cosa in quest'area possa essere raccomandata.

AsRock con due socket 2011-R3 è il migliore finora. Controllerò Xeon Phi e dopo aggiungerò altri commenti, grazie! Se nei prossimi giorni non si troverà nessuno di meglio, segnerà la tua risposta.
@iXCray nota che gli Xeon E7 a volte hanno più core (almeno per Broadwell) e puoi eseguirli in configurazioni a 4 e 8 socket anziché 2 socket con E5. Tuttavia sono super costosi (come le schede 4/8 socket)
Grazie SEJPM - Pensavo mi mancasse qualcosa per quanto riguarda la formazione E7, ma nella mia breve ricerca non sono riuscito a trovare siti che vendessero quelli con informazioni sufficienti per me per fare una raccomandazione informata. nessun oggetto. Anche se dovessi "scendere" a Broadwell, le differenze IPC in esame non supererebbero quasi nessuna aggiunta di thread.
#3
+2
Mark Booth
2016-07-13 20:24:56 UTC
view on stackexchange narkive permalink

Un'altra opzione che potresti prendere in considerazione sono i computer a scheda singola industriali basati sulle specifiche PICMG 1.3.

Ad esempio, l'SBC ROBO-8122VG2R supporta una coppia di E5- CPU della serie 2600:

ROBO-8122VG2R Dual Xeon SBC

C'è anche Advantech PCE-9228, che in realtà specifica che supporta CPU v3.

Combinali con un backplane a chassis quad-split e potresti potenzialmente avere 8 Xeon e 4 Xeon Phi in un singolo chassis rack 4U da 19 ".

Quad split chassis backplane

Non sono sicuro che sarebbe più compatto di un cluster di server rack 1U, ma sospetto che potrebbe essere più facile lavorarci su.

Bene, sono fantastici, ma è più probabile che userò Knights Landing (Xeon Phi) che è già non solo sotto forma di co-processore ma sotto forma di CPU. Oltre 60 core, oltre 240 thread hardware.
#4
+1
SEJPM
2016-07-12 00:48:57 UTC
view on stackexchange narkive permalink

Nella mia risposta espanderò un po 'la risposta di Adam. Mi limiterò anche ai processori Intel e tutte le raccomandazioni del marchio dovrebbero essere prese con le pinze, dato che non ho alcuna effettiva / pratica esperienza con questo tipo di hardware.

Quindi il tuo obiettivo è la massima densità di core / spazio. Ciò significa che vuoi adattare il maggior numero di processori in spazi più piccoli possibile.

Se non ti interessa davvero la distribuzione delle CPU tra le schede madri, allora i server 1U con 2- socket Xeon E5 v4s è la strada da percorrere. Oppure, se sei disposto a dedicare un po 'di tempo alla ricerca e alla richiesta di fornitori di hardware, potresti anche procurarti una configurazione 1U Xeon E7 v4s a 4 socket (o se chiedi davvero bella una scheda madre a 8 socket può anche adattarsi, nota che le CPU 4XXX sono per configurazioni a 4 socket e le CPU 8XXX sono per configurazioni a 8 socket). Questo dovrebbe avere il maggior numero di core per unità spaziale se non ti interessa il raggruppamento.

Se vuoi avere il maggior numero di core possibile su una singola scheda, allora andare con Xeon E7 v4 a 8 socket è la strada da percorrere. Anche se è probabile che sarà meno ottimale nel reparto core / spazio.

Inoltre dovresti considerare l'utilizzo di Xeon Phi e / o Nvidia Tesla carte acceleratrici. Le schede Nvidia si adattano bene a carichi di lavoro altamente parallelizzabili (piccoli) mentre i Phis sono fondamentalmente ridotti ai processori Intel raggruppati su una scheda PCIe e quindi supportano molto meglio il carico di lavoro lineare.

Uno ultima nota: a seconda di ciò che si intende fare, una corretta architettura RISC come PowerPC, ARM e SPARC potrebbe valere la pena dare un'occhiata, dato che molti degli attuali supercomputer Top500 utilizzano queste architetture.

I fornitori di esempio di apparecchiature Xeon E7 includono computer Delta (solo in tedesco?), Lenovo e Supermicro.
Per quanto riguarda le CPU, l ' Intel Xeon E5 2699v4 è la CPU a doppio socket con il maggior numero di core. Intel Xeon E5 4669 v4 per 4 socket (solo 16 core ciascuno) e Intel Xeon E7 8890 v4 per 8 socket (24 core fisici ciascuno). La Nvidia Tesla P100 è la migliore scheda per super computing attuale di Nvidia e Intel Xeon Phi 7290F è la migliore scheda Xeon Phi attuale.

Non ho incluso le Tesla perché AFAIK sono essenzialmente GPU senza RAMDAC e altre parti specifiche per la grafica su di esse e la precisione DP abilitata nel firmware. Se guardi il post di OP, sembra che non vogliano il calcolo GPGPU.
@AdamWykes, li ho inclusi come opzione, perché non conosco il carico di lavoro esatto che ha e per rendere la posizione dello Xeon Phis più chiara e facile da capire.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...