Создан суперкомпьютер на базе Raspberri Pi

Как известно, Raspberri Pi не является высокопроизводительным решением. Компьютер стоимостью 35$ имеет 700МГц ARM-процессор, которого достаточно для выполнения базовых задач и воспроизведения HD-видео. Но для того, чтобы обеспечить низкую цену и доступность, производитель Raspberri Pi использует чипсет, которому уже несколько лет и который значительно отстает от большинства новых ARM-процессоров.

Но инженеры из университета Саутгемптона решили, что если собрать достаточное количество дешёвых таких компьютеров и заставить их работать вместе, можно создать недорогой энергоэффективный суперкомпьютер.

Вот что у них получилось:


Они взяли 64 плат Raspberri Pi, оснастили каждую из них 16Гб SD-картой (в сумме получилось 1Тб), и разместили в корпусе, сделанном из деталей конструктора Лего. После чего осталось только подключить все платы к локальной сети и настроить ПО для объединения плат в кластер.

О том, как это делалось: http://www.southampton.ac.uk/~sjc/raspberrypi/pi_supercomputer_southampton_web.pdf

Подробный фотоотчёт, сделанный профессором Саймон Коксом с участием его 6-летнего сын и эксперта в области конструкторов Лего, Джеймс Кокс: Your text to link...

Оригинал статьи: liliputing.com/2012/09/engineers-build-a-raspberry-pi-supercomputer-out-of-64-mini-pcs.html

Комментарии (87)

RSS свернуть / развернуть
и настроить ПО

Чую на этом вся идея и загнется. Оно дольше будет результаты по сети ждать чем работать.
+2
ставили эксперименты с распараллеливанием gcc при сборке gentoo. дело было давно, интернет был 64кбит… не смотря на это скорость сборки в среднем повышалась. если будет выполняться работа, при которой нужно раз в секунду отдать хабу несколько цифр, а в остальное время считать, то в принципе проблем не будет
0
  • avatar
  • xar
  • 22 сентября 2012, 20:49
Оно там для обучения работе с кластерами. В том числе — и настройке, и чтобы ручками железки подергали и увидели, что они гореть могут и контакты могут отходить. Производительность — далеко не на первом месте.
0
  • avatar
  • ali
  • 24 сентября 2012, 03:42
эхм. если по этой статье:
инженеры… решили,

Вот что у них получилось:

Они взяли

И ВДРУГ(!!!)
Подробный фотоотчёт, сделанный профессором… с участием его 6-летнего сын и эксперта в области конструкторов Лего

но, блин, кажется, все дернулись на профессора, и сложилось такое впечатление, что это чисто его идея и реализация…

(оригинальную статью не читал. это комменты на ...)
0
Чую один i7 будет более производительным.
+1
  • avatar
  • a9d
  • 22 сентября 2012, 20:41
Ага, и места займёт в надцать раз меньше
0
Чую один i7 будет более производительным.
Да и дешевле, и проще, чем 64 дешевых (64 x 35$ = 2240$) + память, которые еще надо соответственно загрузить, распараллелив задачи. Пока даже из 4х-ядерников редко когда удается все 4 ядра загрузить, и частенько 2 ядра работают быстрее, чем 4, из за накладных расходов на распределение задач и обмен результатами. И часто, пока одно ядро работает, другие просто ждут, когда оно выдаст результат…

В общем, херня все это. Лишь бы прокукарекать, что они сделали. А зачем, и что с этим делать дальше — им похрену…
+3
  • avatar
  • SWG
  • 22 сентября 2012, 20:56
Похоже вы правы: 700*64 = 44.8 ГГц (в идеале). core i7-3770k имеет 4*3.5 = 14 ГГц, Берем 3 системотехника на i7, примерно по 700$ (со встроенной графикой), получаем 2100$. Это получается даже дешевле самих плат Pi!
0
Вот только жрут они в сумме 220Вт. А этот ваш Core i7… Кстати, о встроенной графике. GPU-ядро не стоит списывать со счетов, они давно уже используются как мощный SIMD-сопроцессор. Так что скорее всего производительность девайса сравнима с топовым i7 с достаточно мощной видеокартой, но энергопотребление ниже.
Но судя по всему — это такая модель суперкомпьютера. Или кластера. Для целей обучения. Вполне в рамках предназначения RPi.
+2
  • avatar
  • Vga
  • 22 сентября 2012, 21:26
Согласись, такую штуку можно использовать лишь для учебных целей. Супер-ЭВМ, с которой я сталкивался стоит мегабакс, занимает целую комнату и жрет 40кВт только на охлаждение, при этом производительность 5ТФ (если не путаю) меня не впечатляет. А тут все бюджетненько :)
0
ну, флопсы и герцы — слегка из разных категорий.
0
Для Супер-ЭВМ, говорят обычно о флопсах (сравнивать гигагерцы какого-нибудь селерона и топового ксеона — бессмысленно). В данном случае я имел в виду, что потратили миллион долларов, а в итоге комп устареет раньше, чем его начнут использовать на всю катушку. А тут (Pi) — отличное решение для «сельского ВУЗа».
0
Угу. А тут (Pi) устарел ещё до того как его начали делать :)
0
в точку.
«мы строили, строили, и наконец построили». вот только теперь выезжать приходится на волне ажиотажа.
0
Я и говорю — модель.
Да и больше оно кластер напоминает, а не супер-эвм. Если, конечно, это не одно и то же…
0
  • avatar
  • Vga
  • 22 сентября 2012, 22:39
так это, кластеризация — разбиение системы на идентичные блоки (если память не изменяет). Тут больше на GRID-систему смахивает.
0
де-то пробегал линк — перец снизил потребление i7 до 5,9Вт в идле и около 90 под нагрузкой. так что и тут практически паритет.
0
Встроенная видюшка потребляет от силы ватт 15.
0
Только на нее и расчеты не спихнешь. А VC4 — DSP-ядро. Правда, на него еще пойди нарой доки и инструменты, чтобы полноценно загрузить.
0
  • avatar
  • Vga
  • 23 сентября 2012, 18:57
еще как спихнеш
0
О, таки появилось. Правда, только в свежих видяшках. И как оно по производительности? Встройки от интел что-то никогда ей не блистали, мягко говоря.
0
  • avatar
  • Vga
  • 26 сентября 2012, 14:42
ёпта. нашел на что равняться в видушках — на интел…
смотреть надо на лидеров! нвидию и ати/амд!
0
Перечитывай веточку до тех пор, пока не поймешь почему твой коммент не в кассу и на что я на самом деле равняюсь.
0
  • avatar
  • Vga
  • 27 сентября 2012, 01:04
перечитал уже. ошибку понял. голову пеплом посыпал. и в перьях вывалялся. в общем, совершил все ритуальные покаяльные действия…
;)
0
Ну так об этом уведомить надо было. Типа «ой, сорри, ступил».
0
  • avatar
  • Vga
  • 27 сентября 2012, 01:27
дык, только после твоего пинка. в чем незамедлительно и признался.
0
да пока не пробовал, только облизуюсь.
0
И да, главное — VC4 тоже не фонтан по скорости, но их 64 штуки. А встроенная — одна, поскольку предлагается весь кластер заменить одним системником на многоядерном i7. Поэтому я уточнял, что сравнивать лучше с системой i7 + мощная современная видюшка. А интел все равно врядли в кассу, он довольно тормозной несмотря на приличную поддержку технологий (когда я ими интересовался, это было поколение GMA 3xxx, они держали OpenGL2 и SM3 (тогда его еще не все умели — скажем, ATi Xx00), но криво и очень медленно).
0
  • avatar
  • Vga
  • 27 сентября 2012, 01:32
кстате.
VC4 — WTF??
0
Гм, я разве не в этом топике расшифровку приводил?..
Это VideoCore 4, броадкомовский DSP-GPU.
Ну и в принципе из контекста понятно, что раз я сравниваю его с видяхами — это видеоядро распи.
0
  • avatar
  • Vga
  • 27 сентября 2012, 02:42
Гм, я разве не в этом топике расшифровку приводил?..
не то что не в этом топике, но и вообще не в этом сообществе.
Это VideoCore 4, броадкомовский DSP-GPU.
спс.
Ну и в принципе из контекста понятно, что раз я сравниваю его с видяхами — это видеоядро распи.
нихера не понятно, на самом деле. что оно относится к малине — понятно. что что-то в районе видео — тоже. можно даже допустить что оно как-то там к броадкому имеет отношение, примерно тоже.
вот только ясного понимания — 0.

(как пара букавок «ЦЗ»… ;) )
0
но и вообще не в этом сообществе
В этом, в этом. В соседнем топике уточнял, что в распи проц не «броадком ARM1176xxx-x», а BCM2835 с ядром ARM1176xxx-x и видеоядром VideoCore 4.
0
  • avatar
  • Vga
  • 27 сентября 2012, 04:47
P.S. А GMA, OpenGL2, SM3 и ATi тоже расшифровать?)
0
  • avatar
  • Vga
  • 27 сентября 2012, 02:44
ну ёпта. это ведь прописные вещи как «кондер», примерно…
0
и да. а что такое SM3?
и кста. ати уже давно нет. есть амд, раз уж на то пошло…
0
Ну, во первых, AMD Radeon X800 не существует. Во вторых, они вроде до сих пор именяются ATi-AMD. Т.е. перешло под крылышко AMD, но от названия ATi отказываться не стали.
SM3 — Shader Model 3, термин из DirectX. Но применяется и OpenGL-щиками в качестве уточнения версии шейдеров. SM3 примечателен тем, что в нем появилось условное исполнение в шейдерах. Поддерживается начиная с NV GeForce 6xxx и ATi Radeon X1xxx. Поддерживается и в GMA 3xxx, но там, во первых, почему-то нет поддержки GLSL, а во вторых — он и без того адский тормоз.
P.S. В отличие от ATi, кстати, GMA вполне себе аббревиатурка. Так оно называется intel Graphics Media Accelerator 3xxx.
0
  • avatar
  • Vga
  • 27 сентября 2012, 04:52
Ну, я опасался что это не вопрос, а подколка по поводу моего бурчания относительно аббревиатур в теме про замок)
0
  • avatar
  • Vga
  • 27 сентября 2012, 04:54
вообще, это было два в одном.
тут упоминание шейдеров встретить, гхм, слегка непривычно. долго думал, вкуривал и размышлял над контекстом… потому и уточнил-переспросил.
0
Ну, где GPU и вопросы его использования кроме как вывод картинки на FFP (Fixed Function Pipeline) — там неизбежно всплывают и шейдеры (собсна, шейдерные процессоры — это и есть единственная программируемая часть GPU, если только это не DSP, запрограммированный на функции GPU), а SMx — удобное обозначение возможностей этих шейдеров. Для более-менее вменяемых возможностей делать на GPU что-то кроме графики надо SM3, а GPGPU — это уже SM4 и выше.
0
  • avatar
  • Vga
  • 27 сентября 2012, 07:48
Что ж, в таком случае подколка на тему «а не расшифровать ли и все остальное» была вполне по адресу ;)
0
  • avatar
  • Vga
  • 27 сентября 2012, 07:49
да ну, подколки там было 1% примерно. т.к. в том комменте (двух) я SM3 и VC4 и правда далеко не с первого раза понял, о чем речь. хоть они были и в графическом контексте…
0
Ну, это ты ветку невнимательно читал. Ибо смотри, вот в корне ветки:
Кстати, о встроенной графике. GPU-ядро не стоит списывать со счетов, они давно уже используются как мощный SIMD-сопроцессор.
Чуть ниже:
Только на нее и расчеты не спихнешь. А VC4 — DSP-ядро.
Здесь я, правда, не договорил что «VC4 — не просто GPU, а DSP, запрограммированный под GPU, поэтому его возможности как сопроцессора еще выше — если удастся найти доки, как программировать его непосредственно, а не через GLSL».
0
  • avatar
  • Vga
  • 27 сентября 2012, 09:06
Ну, это ты ветку невнимательно читал
есть такое дело.
0
Как лихо умножаешь. Когда делаешь кластер частоты не умножаются. Суммарная производительность с каждым новым процессором будет падать.
0
  • avatar
  • a9d
  • 22 сентября 2012, 23:46
это маркетингастая арифметика. ;)
0
В точку :)

Но чисто теоретически можно придумать задачу, которая будет считаться на 64 процессорах и обмениваться данными лишь раз в секунду (например), тут как-раз можно говорить, что все частоты складываются.

Ну а так — да, я видел как работает matlab на 512-и ядерном мэйнфрейме, особо не впечатляет, деньги потратили зря ;)
0
ну, всегда можно заточить как задачу под железо, так и железо под задачу. немало подобных скандалов было…
ну и про особенности распараллеливания не просто так кучи книг и статей написаны. помнится, интел и книжки по этому делу раздавала, когда начинали кору2дуо двигать.
0
Очень сильно зависит от конкретной задачи, на самом деле. И падает (когда падает, конечно) не суммарная производительность, а производительность на узел (проц или машину). Опять-таки, есть задачи (или варианты их решения) которые масштабируются практически линейно. Это одна из причин, по которой гугль все еще работает и не тормозит, кстати…
0
Задачки разные бывают, на таких девайсах обычно крутятся адаптированные к большому числу потоков (вон, в нынешних GPU уже вроде за тыщщу ядер и все заняты). Тем более что тут даже не потоки, а связанные по сети процессы.
Но в целом применение девайса и правда неясно. Разве что как модель суперкомпьютера, ибо производительность его довольно невысока.
0
  • avatar
  • Vga
  • 22 сентября 2012, 21:21
Мне уже постить картинку с троллейбусом из буханки или не надо?
+5
Так вот куда делись все платы! А я то думал, почему мне обещали прислать Pi в августе, а до сих пор не прислали :)
Ну а идея прикольная, Российским университетам с их системой финансирования, такую штуку чисто ради лузлов, к сожалению не собрать, а жаль.
+3
Что-то новости не профильные блогу пошли, не уверен, что это все интересно в данном случае. Вот если такую штуку соберут на AVR и смогут показать фильм на мониторе- это уже будет интересней.
+2
Уже делали в индии чувак avr -кой с карточки кино крутил на цветном экранчике
ну ессесвенно разрешение было небольшим.
0
Здесь наверно ни у кого нет задач для таких компьютеров. Если иногда и надо поделать тяжелые числодробления, то не настолько тяжелые, чтобы надо было параллелить несколько устройств и ждать результат недели/месяцы.
0
Хотя, авторазводка плат, хорошая задача и по теме. Сразу не подумалось. Но все равно этим никто здесь не занимается.
0
Хиловат он для полноценной числодробилки. И там VFP хоть есть?
0
  • avatar
  • Vga
  • 22 сентября 2012, 21:54
Да я не про него, а про такие посты.
0
VFP есть, но более вкусно было бы на его GPU дробить, только там спеки все под NDA, потому не выйдет
0
Для моей диссертации скорее всего придется заюзать суперкомпьютер, только нормальный а не ЭТО, хотя кто знает…
0
все есть, расширяй горизонты https://www.btcfpga.com/
0
И как оно по производительности, особенно в сравнении с современными GPGPU?
0
  • avatar
  • Vga
  • 22 сентября 2012, 22:41
есть де-то страничка сравнения. кстати, среди майнеров потому ати и популярны.
скажем, ати6770 дает примерно 200мегахэшей.
0
Гм, каждая FPGA-шка обеспечивает производительность расчета хэшей на уровне околотоповой видяхи? Неплохо.
0
  • avatar
  • Vga
  • 23 сентября 2012, 02:07
я когда-то курил сырки прошивки. там все сильно заточено именно под конкретную задачу. чем и достигается.
0
Это понятно, но все же, GPGPU — весьма суровая вещь. Сейчас там вроде уже количество потоковых процессоров за тысячу перевалило, причем они заточены под обмолачивание чисел и довольно производительны.
0
  • avatar
  • Vga
  • 23 сентября 2012, 02:16
насколько я помню, у видушек что-то куда-то не помещалось для расчета в одном вычислителе. со всеми вытекающими накладными расходами на пересылку.
да и от архитектуры сильно зависит. например примерно сравнимые 6770 и гт450 дают соответственно ~200 и ~40 мегахэшей.
(цифры по памяти, так что...)
0
кстати.
вот начало фпга-майнера.
а вот Mining hardware comparison
0
интересно чтоб ктота кто понимает в етих фпга обяснил чем хуже так хвалимые ЕСР3 от латтисов к тем что уже есть в списке альтер и ксилинксов
0
для этого нужен спец по латтисам. а для этого они должны быть хоть чуть доступны. но пока по распространенности они уверенно сливают как альтере так и ксилинксам.
мб они и чертовски хороши. мб. но абстрактно курить их нет ни малейшего желания.
0
Заточка рулит — не поверите, но в такой задаче как кодирование видео, топовые видюхи сливают в разы заточенным под это i7 3го поколения, даже с их тысячами «ядер»


потому, если железку заточить под что то конкретное она будет рвать любые GP железки
0
Суперкомпьютер собирался для обучения студентов. Есть решения лучше?
0
Истинная причина появления этого стала понятна после прочтения фразы:
Подробный фотоотчёт, сделанный профессором Саймон Коксом
0
  • avatar
  • N1X
  • 23 сентября 2012, 00:21
А мне вот интересно, не на денюшку ли от «Лего» купили эти 64 РасПи?
+2
  • avatar
  • Alfa
  • 23 сентября 2012, 01:27
Подумал, и ещё раз подумал. Возможно делать кластер не такое и плохое решение. Надо бы сделать простые расчеты производительности. Возможно у меня не верные данные, поправте кто знает.

dsp bfin — 400MHz x 2(16bit) MAC/cycle = 800 MMAC
stm32f2xx — 120Mhz x 2(16bit) MAC/2cycle = 120 MMAC
de0-nano(fpga cyclone xxx) — 50MHz x 66(16bit) MAC/2cycle = 1650 MMAC

Возникают мысли взять десяток stm32 и связать через can/spi/ethernet/… Будет не дороже. И набор инстументов один. Только места займет много, и возможно понадобится alien brain для написания софта.
0
Касательно кластера на stm32 не уверен, в вот с FPGA, для специфических задач, вполне юзабельное решение.

Вот, например, «кластер» из сец. микросхем, на котором ломали DES (брутфорсом) за 56 часов.
0
По поводу задач, мне интересна обработка и сжатие/разжатие картинок с камеры. А смысл кластера имеенно в том, чтобы избежать fpga (где тоже нужен alien brain, отсутсвие свободных инструментов, цена) или dsp (здесь только цена, bga корпус, и отсутвие простой МК-шной периферии, а значит добавляется и МК со вторым toolchain).
0
Почему 50МГц, а не 100?
0
А ничо, что некоторые люди маятся такой фигней просто ради интереса и галочки в личной записной книжке? Мне было бы интересно собрать кластер, но два компа — не кластер, да и места все же жопы. А для тренировки дома, чтобы потом хреначить мейнфреймы и так далее, или вообще студентам для исследований и лабороторок. Больше и не надо.
Я тут недавно встретил дяденьку из Калифорнии, я не запомнил на кого он работает, но он рассказывал, что они занимаются разработкой 64/128 ARM процов и он сказал, что у них есть блейд-кластер из 180 серверов на арме, сперва сделали как демо для клиентов, мол «мы можем», а потом чухнули и стали сами использовать для своих нужд. Такая вот история
0
Raspberry Pi
+1
Это всё не ради производительности и не просто хобби. Это оказалось дешевым вариантом собрать реальный железный кластер на много нод для обучения студентов. У них всё это обошлось в $3000, и это не виртуалки, на которых очень проблематично настроить правдоподобную эмуляцию реального железа. В общем, как учебный вариант — великолепное решание. А производительноть в данном случае не особо важна.
0
  • avatar
  • ali
  • 24 сентября 2012, 03:47
А теперь, студенты, продемонстрируем стойкость кластера. Отключаем одну плату и ..., вуаля. Как считало 2 года, так и будет считать 2 года. Из этого делаем заключение, что системе не имеет значения отключение любого из узлов. Далее по методу матиндукции доказываем что системе не критично извлечение следующих кластеров вплоть до последнего. Проверяем на практике и… Вуаля, всё как мы и предсказывали.
0
А теперь, студенты, предлагаем вам развернуть софт диагностики состояния нод, внедрить в расчетный софт динамическую переконфигурацию, реализовать ввод резервных нод и тому подобное. А когда наладите — поиграться с разичными конфигурациями сети, объединяющей ноды, и разобраться, как оптимизировать архитектуру софта под подархитектуру кластера, с учетом ограничений сети…

В общем много чего там можно придумать, никто ж не предлагает на этом реальные задачи кластерных масштабов считать.
0
  • avatar
  • ali
  • 25 сентября 2012, 03:08
Туше :)
0
Ну что, кто соберет суперкомпьютер на AVR?
0
как только наиграемся с убунтой на авр, примемся за кластер еа тиньках.
0
Ага. что бы грузилась не 5 часов, а хотя бы пол.
0
то уже «к черту подробности»
0
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.