خانه :: اساتید :: اخبار

بازدید:34652   بروزرسانی: 13-08-1403

Moladad Nikbakht

سرور محاسباتی

كلاستر محاسباتي گروه فيزيك


مشخصات


Cluster pop-os runs single node operating system which is based on Ubuntu 18.01.

The cluster contains a compute node with following specifications:

       enlightened  2* Intel(R) Xeon(R) CPU E5-2699 v4 (processors: 44, cpu cores: 22,cache size:56320 KB)

      256GB Memory+ NVIDIA Quadro P5000+NVIDIA - GeForce RTX 3070 Ti 8GB GDDR6XASUS GeForce GTX 1660 Super Overclocke6GB+

 


کامپایلرها و نرم افزار های نصب شده بر روی کلاستر

 

      enlightened   C++

      enlightened   FORTRAN

      enlightened   Intel compiler (icc)

      enlightened   Parallel programming

                   --- Openmp

                   --- MPI

      enlightened   GPU based programs

                  --- opencl

                  --- cuda

      enlightened   XMDS

      enlightened   LAMMPS

      enlightened   MATLAB

نصب هر گونه نرم افزار منوط به امکان نصب آن نرم افزار در کلاستر تحت لینوکس و درخواست همکاران گرامی در هنگام دریافت اکانت است

سرور صرفا برای پردازشهای موازی است و از اجرای کدهای غیرموازی بر روی سرور معذوریم


سیستم صف

به منظور استفاده بهینه از کلاستر، سیستم صف مبتنی بر slurm در این کلاستر پیاده شده است.

در این کلاستر کاربران میبایست برنامه (job) خود را از طریق دستورات تعریف شده در slurm به کلاستر ارسال (sbatch or srun ) نمایند. امکان روئیت وضعیت برنامه، تخصیص منابع، ارسال ایمیل وضعیت برنامه و .... تحت slurm فراهم شده است. کاربران پس از دریافت حساب کاربری (user) میتوانند با استفاده از پروتکل ssh به کلاستر با آدرس (172.18.32.12@<user>) متصل شده و job خود را submit نمایند.   

Cluster pop-os manages resources using Simple Linux Utility for Resource Management (SLURM). Slurm is a highly scalable cluster management and job scheduling system for large and small Linux clusters.

for more information see: http://slurm.schedmd.com



ليست پارتيشن هاي تعريف شده در كلاستر

کاربران job خود را تحت پارتیشن تعریف شده برای آنها می توانند ارسال نمایند

 

 

 

 

 

دیگر موارد رم اختصاصی هسته اختصاصی زمان اختصاصی اولویت محدودیت Node پارتیشن
  10% 4 هسته ۱ ساعت 1 ندارد pop-os phys-all
  30% 8 هسته ۶ روز 3 دانشجویان pop-os phys-student
  40% 10هسته ۶ روز 2 اساتید pop-os phys-academic
با هماهنگی 50% 44 هسته ۲ روز 4 دارد pop-os phys-large-job

 

 

 

 

 

کاربران می توانند با استفاده از دستور sinfo به اطلاعات وضعیت کلاستر و با دستور scontrol show partition به محدودیتهای اعمال شده روی پارتیشن ها دسترسی یابند.

  • قبل از انتخاب پارتیشن؛ از محدودیت های آن پارتیشن و idle بودن وضعیت آن پارتیشن اطمینان حاصل نمایید.
  • هر اکانت اجازه ارسال یک job به خوشه را دارد.
  • متناسب با ترافیک موجود در کلاستر، ممکن است برخی پارتیشن ها در حالت خاموش قرار گیرند.
  • شایان ذکر است که به علت محدودیت های موجود؛ jobهای ارسال شده بر روی پارتیشن phys-large-job ؛چنانچه بیش از ۳ job کد در سیستم در حال اجرا باشد به حالت PENDING خواهد رفت.

حساب کاربری و محدودیت منابع برای کاربران

  • متقاضیان دریافت حساب کاربری (اساتید  و دانشجویان محترم) بایستی به صورت حضوری مراجعه نموده و فرم درخواست حساب کاربری را تکمیل و تحویل مسول پشتیبانی کلاستر نمایند.
  • هر کابر صرفا مجاز به استفاده از حساب کاربری خود می باشد. در صورت مشاهده تخلف، حساب مورد استفاده مسدود خواهد شد.
  • برای هر یک از همکاران عزیز، اکانت (account) تعریف شده و حساب کاربری دانشجویان تحت اکانت استاد راهنمای مربوطه خواهد بود.
  • حساب کاربری دانشجویان کارشناسی ارشد یک ساله و دانشجویان دکتری 3 ساله می باشد.
  • محدودیت استفاده از منابع  به هر account متناسب با CPU و زمان استفاده شده مطابق زیر اعمال خواهد شد.
  • با اتمام منابع تخصیصی امکان استفاده از کامپیوتر محاسباتی برای کاربران متصل یه اکانت مربوطه صرفا در صورت خالی بودن کلاستر میسر خواهد بود.

نحوه ارسال job به کلاستر و دستورات مورد نیاز

The Slurm job scheduler

This guide describes basic job submission and monitoring for Slurm, Slurm job scheduler and its use on the pop-os system.
Jobs on pop-os are run as batch jobs, i.e. in an unattended manner. Typically a user logs in to the pop-os
login nodes (<user>@172.18.32.12), prepares a job (which contains details of the work to carry out and the computer resources needed) and submits it to the job queue. The user can then log out (if she/he wishes) until their job has run, to collect the output data.
Jobs are managed by Slurm, which is in charge of
• allocating the computer resources requested for the job,
• running the job and
• reporting the outcome of the execution back to the user.

Running a job involves, at the minimum, the following steps
• preparing a submission script and
• submitting the job to execution.


Preparing a submission script

A submission script is a shell script that describes the processing to carry out (e.g. the application, its input and output, etc.) and requests computer resources (number of cpus, amount of memory, etc.) to use for processing.