Zooma Code

Эксперимент: Mutex vs MultiCore часть 2

2010-05-26T09:35:00.002+04:00

Почесав репу некоторое время, т.е. подумав: что же это за фигня такая и как интерпретировать полученный результат?

И думаю ответ тут вот какой:
1. Потоки выстраивались в очередь, по понятной причине (нет полезной работы кроме захвата мьютекса)
2. Синхронизация кэшей между ядрами одного процессора (два соседних ядра внутри QuadCore), где-то 50-100 тактов
3. Синхронизация кэшей между ядрами разных процессоров (2 проца внутри QuadCore), где-то 600 тактов
теперь производим простые вычисления:
Tsync - пенальти за синхронизацию в тактах
N - количество потоков
Hz - частота
M - количество циклов (количество захватов мьютекса на один поток)
T - суммарное пинальти
T = Tsync*N*M/Hz
И получаем около 7 секунд для пукта 2 и около 80 секунд для пункта 3 при частоте 3GHz
Что более менее коррелирует с результатами теста.

За истекшее время я еще немного поупражнялся на том же самом тесте (чуть позже я его выложу)
И выявил примерно следующее соотношение: время под мьютексом + пенальти должно составлять не более 2-5 % от времени выполнения цикла для достижения линейного масштабирования, в противном случае коэффициент масштабирования будет стремительно снижаться вплоть до линейной деградации.

Эксперимент: Mutex vs MultiCore

2010-04-13T11:02:00.002+04:00

Стало мне тут на днях любопытно: а что будет, если я буду синхронизировать очень короткие задачи (мьютекс на входе в контейнер)
Сделал тест: контейнер с примитивом синхронизации и несколько потоков с возможностью привязки к ядру процессора, в качестве примитива был выбран мой любимый tbb::spin_mutex (пробовал boost::mutex результаты удручающиее).

Запустил сначала на своей машине с процессором Pentium 4, выполнил тест без привязки к ядрам, потом все потоки на одно ядро, затем все потоки на разные ядра. Но Pentium 4 всего одно ядро и результаты запусков не особо различались, что не удивительно. Затем решил прогнать тест на Xeon Core 2 Quad (для упрощения маркировок), сначала прогнал тест привязав все потоки на одно ядро для получения эталона производительности при последовательном выполнении, затем без привязки и несколько тестов с различными хитрыми привязками.
Результаты всех запусков чуть ниже.

Все мы знаем, что Core 2 Quad это 2 изолированных Core 2 Duo в одном корпусе, без единого L3 или L2 между ними, есть только L2 на 2 ядра, и естественным было ожидать некоторое пенальти из-за синхронизации кэшей внутри Core 2 Duo или между ними, но что бы всё было настолько грустно, я не ожидал.
Впрочем время работы теста внутри одного Core 2 Duo было вполне сопоставимо с временем на одном ядре. Так же следует отметить, что при выполнении теста ядра на которых выполняли потоки были загружены на 100%, т.е. 4 потока на одном ядре работали X секунд и полностью задействовали 1 ядро, 4 потока на 2-х ядрах отрабатывали за те же X секунд, но использовали уже 2 ядра.

Естественно можно говорить, что в реальной жизни такого не бывает и прочее бла-бла-бла, но цель теста не доказать или показать, как плохи/хороши примитивы, а ответить на вопрос: А что если?

Пополнение в полезных ссылках: книга The Boost C++ Libraries

2010-04-09T09:04:00.000+04:00

Тут коллеги подсказали одну интересную ссылку: книга The Boost C++ Libraries
Всё подробно расписано для таких как я чайников :)