В работе рассматривается подход к оценке параметров синхронизации распределенных вычислительных систем, базирующийся на применении алгоритмов теории массового обслуживания. В основе предложенного подхода лежит использование статистических подходов на основе метода максимального правдоподобия, а также ряд численных алгоритмов для нахождения оптимальных параметров систем синхронизации. Применение методов теории массового обслуживания и модели Рикарта-Агравала позволяет эффективно адаптировать распределенную систему в рамках оптимального решения задачи синхронизации. Использование статистических подходов на основе расчета функции правдоподобия позволяет получить статистические оценки интенсивностей входных и выходных потоков требований синхронизации ресурсов, что позволяет производить оптимальную настройку системы синхронизации с разнородной аппаратной конфигурацией и определить максимально допустимый поток требований для данной системы. В работе проведен вычислительный эксперимент с использованием в качестве базовой распределенной вычислительной системы Spark. При проведении эксперимента вместо стандартного алгоритма синхронизации, включенного в состав сборки Spark, применяется анализируемый в работе алгоритм. В работе получены соотношения между временем синхронизации и объемом данных, передаваемых между узлами исследуемой системы, позволяющие произвести вычисление параметров системы синхронизации, а также подобрать оптимальные значения для данной системы. Приведенные в рамках научного исследования практические результаты доказывают правильность теоретических подходов, используемых в процессе создания эффективных систем синхронизации распределенных ресурсов для рассматриваемой платформы Spark.
1. Гнеденко Б. В., Коваленко И.Н. Введение в теорию массового обслуживания. М.: Наука; 1966. 431 с.
2. Кендалл М. Статистические выводы и связи. М.: Наука; 1973. 878 с.
3. Лившиц А.Л., Мальц Э.А. Статистическое моделирование систем массового обслуживания. М.: Сов. Радио; 1978. 248 с.
4. Риордан Дж. Вероятностные системы обслуживания. М.: Связь; 1966. 184 с.
5. Azarnova T.V., Polukhin P.V. Distributed computing systems synchronization modeling for solving machine learning tasks. Journal of Physics: Conference Series. 2021;1902(1):012050.
6. Magnus Ya.R., Neudecker H. Matrix differential calculus with application in statistics and econometrics. Oxford, Wiley; 1988. 496 p.
7. Кобзарь А.И. Прикладная математическая статистика. М.: Физматлит; 2006. 816 с.
8. Леман Э. Проверка статистических гипотез. М.: Наука; 1987. 408 с.
9. Ricart G., Agrawala A.K. An optimal algorithm for mutual exclusion in computer networks. Communications of the ACM. 2021;1(2):9–17.
10. Бернс Б. Распределенные системы. Паттерны проектирования. СПб.: Питер; 2019. 224 с.
11. Zaharia M., Chowdhury M, Das T, Dave A, McCauley M, Franklin M, Shenker S, Stoica I. Resilent Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. NSDI. 2012;1–15.
12. Chowdhury M., Ma J., Jordan M.I., Stoica I. Managing Data Transfers in Computer Clusters with Orchestra. SIGCOMM. 2011;41(4):98–109.
Полухин Павел Валерьевич
кандидат техн. наук
Кафедра математических методов исследования операций факультета прикладной математики, информатики и механики Воронежского государственного университета
Воронеж, Российская Федерация