Говнокод #27074 — C++ — Говнокод.ру

C++ / Говнокод #27074

0
1. 01
2. 02
3. 03
4. 04
5. 05
6. 06
7. 07
8. 08
9. 09
10. 10
11. 11
12. 12
13. 13
14. 14
15. 15
16. 16
17. 17
18. 18
19. 19
20. 20
21. 21
22. 22
23. 23
24. 24
25. 25
26. 26
27. 27
28. 28
29. 29
30. 30
31. 31
32. 32
33. 33
34. 34
35. 35
36. 36
37. 37
```
//библиотеки cuda_runtime.h и device_launch_parameters.h
//для работы с cyda
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include<vector>
#include<string>//для getline
#include <stdio.h>
#include<fstream>
using namespace std;
__global__ void Upload_to_GPU(unsigned long long  *Number,unsigned long long  *Stepn, bool *Stop,unsigned long long  *INPUT,unsigned long long  *max) {
	int thread = threadIdx.x;
	unsigned long long  MAX_DEGREE_OF = max[0];
    int X = thread;
	unsigned long long  Calculated_number = 1;
	unsigned long long  Current_degree_of_number = 2;
    unsigned long long   Original_numberP = INPUT[0];
	Stop[thread] = false;
	bool BREAK = false;
	if (X!=0&&X!=1) {
		while (!BREAK) {
			if (Current_degree_of_number <= MAX_DEGREE_OF) {
				Calculated_number = 1;
				for (int counter = 0; counter < Current_degree_of_number; counter++) {
				 Calculated_number	*=X;
				}
				if (Calculated_number == Original_numberP) {
					Stepn[thread] = Current_degree_of_number;
					Number[thread] = X;
					Stop[thread] = true;
					BREAK = true;
				}
				Current_degree_of_number++;
			}
			else { BREAK = true; }
		}
	}
}
```
https://habr.com/post/525892/
> Сравнение времени выполнения алгоритма на CPU и GPU

Запостил: gost, 31 Октября 2020

Tweet
Комментарии (70) RSS
- gost 31.10.2020 18:13 # 0
  Как видно из таблицы, время выполнения алгоритма на GPU немного больше, чем на CPU. Однако, отмечу, что вовремя работы алгоритма использующего для вычислений GPU загрузка им CPU, в Диспетчере задач, не превышала 30%, в то время как алгоритм использующий для вычислений CPU, загружал его на 68-85%, что в свою очередь иногда приводило к замедлению других приложений.
  Ответить
  - gost 31.10.2020 18:14 # 0
    
    Стоит отметить, что cyda имеет ограничения по количеству запускаемых потоков, поэтому в обоих алгоритмах я взял одинаковое количество потоков, равное 1000.
    Ответить
  - guest8 31.10.2020 18:42 # +2
    
    vanished
    Ответить
    - gost 31.10.2020 18:49 # +2
      
      Да, особенно это помогает, когда в коде для CPU очень эффективно проводится ожидание конца работы:
      
      thread *T = new thread[size]; Running_thread_counter = 0; for (int i = 0; i < size; i++) { T[i] = thread(Upload_to_CPU, Number, Stepn, Stop, INPUT, max, i); T[i].detach(); } while (Running_thread_counter < size - 1);//дождаться завершения выполнения всех потоков
      
      P. S. Перевёл алгоритм автора на «Python» с «Numba», третий с конца результат, который у него считался 16 секунд, вычислил за 65.
      
      >>> @numba.jit(nopython=True) ... def calc(): ... for x in range(2, 1001): # У него каждый поток проверяет x с собственным номером ... for deg in range(1, 8500): ... if x ** deg == N: ... yield (x, deg) ... >>> start = time.time(); res = list(calc()); end = time.time(); print(end - start) 0.1561572551727295 >>> res [(108, 4)] >>> start = time.time(); res = list(calc()); end = time.time(); print(end - start) 0.06783914566040039 >>> start = time.time(); res = list(calc()); end = time.time(); print(end - start) 0.08180832862854004 >>> start = time.time(); res = list(calc()); end = time.time(); print(end - start) 0.06485199928283691
      
      …миллисекунд.
      Ответить
      
      guest8 31.10.2020 18:52 # −1
      
      vanished
      Ответить
      
      bormand 31.10.2020 21:31 # +3
      
      > миллисекунд
      
      Мда. Выебать преждевременного оптимизатора наивным кодом на питоне - это бесценно.
      Ответить
      
      guest8 31.10.2020 21:33 # +4
      
      vanished
      Ответить
      
      gost 31.10.2020 21:36 # +2
      
      Да, чисто, к сожалению, не получится: на арифметических задачах «Питон» просто пиздец какой медленный.
      Ответить
      
      guest8 31.10.2020 21:38 # −1
      
      vanished
      Ответить
      
      gost 31.10.2020 21:46 # +1
      
      Потому что наивная интерпретация всего и бигинты.
      
      >>> dis.dis(calc_unskill) 2 0 LOAD_GLOBAL 0 (range) 2 LOAD_CONST 1 (2) 4 LOAD_CONST 2 (1001) 6 CALL_FUNCTION 2 8 GET_ITER >> 10 FOR_ITER 42 (to 54) 12 STORE_FAST 0 (x) 3 14 LOAD_GLOBAL 0 (range) 16 LOAD_CONST 3 (1) 18 LOAD_CONST 4 (8500) 20 CALL_FUNCTION 2 22 GET_ITER >> 24 FOR_ITER 26 (to 52) 26 STORE_FAST 1 (deg) 4 28 LOAD_FAST 0 (x) 30 LOAD_FAST 1 (deg) 32 BINARY_POWER 34 LOAD_GLOBAL 1 (N) 36 COMPARE_OP 2 (==) 38 POP_JUMP_IF_FALSE 24 5 40 LOAD_FAST 0 (x) 42 LOAD_FAST 1 (deg) 44 BUILD_TUPLE 2 46 YIELD_VALUE 48 POP_TOP 50 JUMP_ABSOLUTE 24 >> 52 JUMP_ABSOLUTE 10 >> 54 LOAD_CONST 0 (None) 56 RETURN_VALUE
      
      Без «JIT» ВМ Питона просто берёт вот эти вот опкоды и тупо их исполняет до победного в одном внутреннем евале.
      
      UPD: Только сейчас заметил: он же в самом горячем месте цикла делает LOAD_GLOBAL, то есть идёт в словарь и ищет в нём глобалку по имени. Какой анскилл )))
      Ответить
      
      bormand 31.10.2020 22:13 # 0
      
      Да и BINARY_POWER - не самая быстрая операция. Нумба, видимо, заменила её на умножение.
      Ответить
      
      Saehrimnir 01.11.2020 08:16 # 0
      
      Ма-те-ма-ти-ки любят «Питон», потому что числа в нём переменного размера (bigint). Можно записать целое число с огромным количеством знаков и не думать о типах данных.
      Ответить
      
      rotoeb 01.11.2020 08:20 # 0
      
      Я всегда был против строгой типизации. Поэтому я за PHP.
      А явисты, <как> долбоёбы, ставят буковку "f" после дробных чисел )))
      Ответить
- gost 31.10.2020 19:54 # +1
  Ебать там в комментариях самобытность!
  
  Barabashkad сегодня в 19:13 для начала, CPU код можно еще оптимизиорвать если использовать векторные AVX инструкции но и для GPU… можно не мерять время выделения памяти и копирования… и тогда картина станет более многогранной и пестрой :-)
  
  И ни один петух не заметил, что для CPU-bound задачи цыплёнок запускает 1000 потоков…
  Ответить
  - guest8 31.10.2020 19:56 # −999
    
    показать все, что скрытоvanished
    Ответить
    - bormand 31.10.2020 19:58 # 0
      
      На видюхе их овер 3к. Так что он маловато тредов наделал.
      Ответить
      
      guest8 31.10.2020 20:01 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 31.10.2020 20:02 # 0
      
      А где здесь cpu bound? Для брутфорса корня данных почти не надо передавать на видюху, число для проверки можно по индексам треда получить. В обратную сторону разве что мешок флажков придётся передать. И то я думаю можно reduce прям на видюхе сделать за несколько проходов.
      
      З.Ы. Я код не читал если что, там много буков.
      Ответить
  - bormand 31.10.2020 20:14 # 0
    
    А есть подробное условие задачи? Лень реверсить его по коду.
    Ответить
    - gost 31.10.2020 20:25 # 0
      
      Для чисел от 0 до 999 (по одному на поток) и степеней от 1 до N (N задаётся в конкретном тесте) найти все пары (число, степень), которые при вычислении «число^степень» дают заданное в тесте число.
      Ответить
      
      bormand 31.10.2020 20:26 # +1
      
      > число^степень
      
      По модулю 2**64?
      Ответить
      
      gost 31.10.2020 20:31 # +1
      
      А, да, там unsigned.
      
      Показалось сначала, что по модулю UB. Какой багор )))
      Ответить
      
      bormand 31.10.2020 21:02 # 0
      
      Ну тогда где здесь cpu bound, gost?
      
      Дождаться пока все треды на gpu закончат и пробежаться по массиву в 4 килобайта - не такая уж тяжёлая задача для cpu (на входе массив нинужен т.к. номер треда можно заюзать). Параллелится этот брутфорс вроде неплохо, память не напрягает (не то чтобы не было более красивого решения без брутфорса).
      Ответить
      
      bormand 31.10.2020 21:12 # 0
      
      З.Ы. А, понял, ты про версию на cpu, где тыща обычных тредов поднимается. Ну да, выглядит пиздецово. С другой стороны в них IO нету, ось не будет контекст сильно часто переключать. Так что сойдёт. Вон даже gpu обогнать умудрились.
      Ответить
      
      gost 31.10.2020 21:34 # 0
      
      Да, про них.
      > ось не будет контекст сильно часто переключать
      Я недавно ради интереса одну CPU-bound задачку распараллелил на 4 потока (чтобы все ядра забить), померял, добавил ещё один и получил просадку в полтора раза. Добавил ещё то ли два, то ли три — просело во что-то вроде десяти раз. Так что не всё так однозначно (да и по заверениям автора, у него во время работы CPU-версии проц был загружен на 85%, лол).
      
      Ну и как бы вся задача — это несколько миллионов умножений, это считается реально за миллисекунды, если, конечно, считать, а не ебать планировщик.
      Ответить
      
      guest8 31.10.2020 21:39 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 31.10.2020 21:42 # 0
      
      > делать потоков больше, чем ядер, вообще смысла нету
      
      На cpu нету. А вот на gpu есть. Там шедулер намного тоньше, другие треды смогут поработать пока первая группа ответ от памяти ждёт.
      Ответить
      
      guest8 31.10.2020 21:45 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 31.10.2020 21:48 # 0
      
      Ну аналог на cpu - это гипертрединг. Тоже позволяет паре тредов на одном ядре исполняться с очень тонким шедулингом.
      Ответить
      
      guest8 31.10.2020 21:50 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 31.10.2020 21:57 # 0
      
      > как-то это использовать
      
      Вроде гипертреды стараются отдавать тредам одного процесса. Чтобы они могли "share TLBs and L1 caches" а не мешаться друг другу.
      Ответить
      
      guest8 31.10.2020 22:01 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 31.10.2020 22:02 # 0
      
      Эм, ну ты же не даёшь гостю запускать его произвольный код в своём процессе под этой имперсонацией (это совсем ССЗБ, имхо, он же тебе в память насрёт без всякой спектры)? Ты просто для ядерного API выступаешь от его лица и всё. А код то твой в обоих тредах.
      Ответить
      
      guest8 31.10.2020 22:06 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      guest8 01.11.2020 03:13 # −999
      
      показать все, что скрытоvanished
      Ответить
- bormand 31.10.2020 21:23 # +2
  
  А вообще, "сравнения производительности" на хабре всегда чисто на поржать.
  Ответить
  - guest8 31.10.2020 21:47 # −999
    
    показать все, что скрытоvanished
    Ответить
    - bormand 31.10.2020 21:49 # 0
      
      Кстати для cuda были контейнеры и аналоги крестовых алгоритмов которые на gpu крутятся.
      Ответить
      
      CHayT 31.10.2020 22:13 # 0
      
      Почему были? Thrust вроде не сдох пока.
      Ответить
      
      guest8 01.11.2020 03:05 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 02.11.2020 02:34 # 0
      
      CUDA-конпелятор, который юзает чел из статьи, как раз таки позволяет в одном исходнике и для cpu и для gpu писать...
      
      Но у gpu очень специфичная архитектура и как попало под неё писать нельзя, иначе все терафлопсы вылетят в трубу. Сложный код, где много переменных, много нелокальных обращений к памяти, циклы переменной длины с внезапными бряками и т.п. видюхи очень плохо переносят. Им нужны тысячи и миллионы простых, независимых, однообразных задач.
      Ответить
      
      guest8 02.11.2020 02:42 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 02.11.2020 03:01 # 0
      
      > спекулянты
      
      Всё хуже. "Треды" исполняются группами по 16 штук, по сути это SIMD. Сам понимаешь, что control flow у них один на всех. Поэтому пока половина исполняет then, вторая пинает хуи. А потом наоборот. Ну и выйти из цикла они могут только всей группой.
      
      А у памяти большое латенси и маленькие кеши, что-то в духе сотни килобайт на "тыщу ядер" (один мультипроцессор). Поэтому рандомный доступ куда попало очень дорого обходится.
      
      Ну и регистры статически распределяются, поэтому чем больше переменных - тем меньше тредов ты сможешь загнать на однин мультипроцессор.
      Ответить
      
      guest8 02.11.2020 03:18 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 02.11.2020 03:22 # 0
      
      Ага, настолько царские, что иногда не влезает. У меня на гитхабе есть множество жюлиа на шейдерах. На старых интеловских карточках тупо не конпелируется из-за огромного цикла с бряком.
      Ответить
      
      guest8 02.11.2020 03:25 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 02.11.2020 03:28 # 0
      
      Х.з., я не знаю как там код заливается. Возможно у тех карточек вообще фиксированная область была под код. На нвидии даже while (1); норм работает.
      Ответить
      
      guest8 02.11.2020 03:30 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 02.11.2020 03:50 # 0
      
      > самомодифицирующийся код
      
      С некогерентными L1 кешами видеокарт это вообще пиздецом попахивает...
      Ответить
      
      guest8 02.11.2020 03:52 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 02.11.2020 04:10 # 0
      
      Видюшным задачам не особо нужна когерентность. У тебя на каждом "проходе" вход и выход алгоритма с разными буферами работают. Поэтому кешам на входе можно не париться о кешах на выходе. А после прохода можно и флашнуть, один хер кеши маленькие.
      Ответить
      
      guest6 03.05.2024 01:41 # 0
      
      Ну как, писнул?
      Ответить
- guest8 02.11.2020 02:48 # −999
  
  показать все, что скрытоvanished
  Ответить
  - j123123 02.11.2020 02:54 # 0
    
    Вы ошиблись сайтом, тут не стековерфлоу.
    Ответить
    - guest8 02.11.2020 02:56 # −999
      
      показать все, что скрытоvanished
      Ответить
  - bormand 02.11.2020 03:03 # 0
    
    Хочешь конст - ебись с двоеточием. Без конста можно и просто в теле конструктора присвоить. Жаль конечно, что они как в джавке не сделали, конпелятор вполне мог бы проверить, что ты ровно 1 раз присваиваешь и соблюдаешь правильный порядок.
    
    З.Ы. Можно и int m_foo = 12; если кресты свежие. Но с const'ом это не имеет особого смысла, только память зря тратить. Зачем тебе поле в котором всегда одно и то же?
    Ответить
    - guest8 02.11.2020 03:07 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 02.11.2020 03:09 # 0
      
      Ага, но в теле конструктора это будет уже присваивание, а не конструирование как в инициализаторе. Не то чтобы это реально мешало, но помнить об этом стоит.
      Ответить
      
      guest8 02.11.2020 03:10 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 02.11.2020 03:13 # 0
      
      Для int'ов и прочего говна - нет. Там будет мусор пока что-нибудь не присвоишь.
      
      У объектов сработает дефолтный конструктор, а потом ты в них присвоишь новое значение. Реальная проблема только если дефолтный конструктор тяжёлый, с побочками или его вообще нет. Но такого на практике почти не бывает.
      Ответить
      
      guest8 02.11.2020 03:15 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 02.11.2020 03:31 # 0
      
      > приходится думать
      
      Ну дык, это как машина с ручной коробкой. Не хочешь думать - юзай джаву.
      Ответить
      
      guest8 02.11.2020 03:38 # −999
      
      показать все, что скрытоvanished
      Ответить
      
      bormand 02.11.2020 03:44 # +1
      
      > Кресты меняют психику
      
      Это да. Я вот вижу, что в питоне какое-то поведение не описано в доке. И вообще не юзаю его. А питонисты говорят: "чувак, да просто запусти и посмотри что будет".
      Ответить
      
      guest8 02.11.2020 03:48 # +1
      
      vanished
      Ответить
      
      bormand 02.11.2020 03:15 # 0
      
      > НЕ ПОДДЕРЖИВАЕТ копирование
      
      Оператор мувающего присваивания прикрути ему. По аналогии с мув конструктором.
      Ответить
      
      guest8 02.11.2020 03:16 # +1
      
      vanished
      Ответить
      
      j123123 02.11.2020 17:05 # 0
      
      Какой vanished )))
      У кого-то остались бэкапы всего того, что было насрано через guest8?
      Ответить
      
      gost 02.11.2020 17:07 # 0
      
      Загружаю. Ещё пока (послезавтра будет нельзя) можно скачать вчерашний дамп НГК, до ванишей.
      Ответить
- OCETuHCKuu_nemyx 02.11.2020 13:46 # 0
  
  test
  Ответить
Добавить комментарий
Ошибка компиляции комментария:

Гости могут высказаться только в понедельник, среду, четверг или воскресение
Семь раз отмерь — один отрежь, guest!

А не использовать ли нам bbcode?

[b]жирный[/b] — жирный

[i]курсив[/i] — курсив

[u]подчеркнутый[/u] — подчеркнутый

[s]перечеркнутый[/s] — перечеркнутый

[blink]мигающий[/blink] — мигающий

[color=red]цвет[/color] — цвет (подробнее)

[size=20]размер[/size] — размер (подробнее)

[code=<language>]some code[/code] (подробнее)

Проверочный код: *

Говнокод: по колено в коде.

C++ / Говнокод #27074

Комментарии (70) RSS

Добавить комментарий