Новая техника сокращает время обучения ИИ более чем на 60 процентов

Исследователи из Университета штата Северная Каролина разработали методику, которая сокращает время обучения для сетей глубокого обучения более чем на 60 процентов без ущерба для точности, ускоряя разработку новых приложений искусственного интеллекта (ИИ).

«Сети глубокого обучения лежат в основе приложений искусственного интеллекта, используемых во всем, от автомобилей с автоматическим управлением до технологий компьютерного зрения», — говорит Шипен Шен, профессор компьютерных наук в NC State и соавтор статьи о работе.

«Одной из самых больших проблем, стоящих перед разработкой новых инструментов ИИ, является количество времени и вычислительной мощности, которые требуются для обучения сетей глубокого обучения для выявления и реагирования на шаблоны данных, которые имеют отношение к их приложениям. Мы придумали способ ускорить этот процесс, который мы называем адаптивным глубоким повторным использованием. Мы продемонстрировали, что он может сократить время обучения до 69 процентов без потери точности ».

Обучение сети глубокого обучения включает в себя разбиение выборки данных на куски последовательных точек данных. Подумайте о сети, предназначенной для определения наличия пешехода на заданном изображении. Процесс начинается с разделения цифрового изображения на блоки пикселей, которые расположены рядом друг с другом. Каждый кусок данных проходит через набор вычислительных фильтров. Затем результаты проходят через второй набор фильтров. Это продолжается итеративно, пока все данные не пройдут через все фильтры, что позволит сети прийти к выводу об образце данных.

Когда этот процесс выполнен для каждой выборки данных в наборе данных, это называется эпохой. Для тонкой настройки сети глубокого обучения сеть, вероятно, будет проходить через один и тот же набор данных в течение сотен эпох. И многие наборы данных состоят из десятков тысяч и миллионов образцов данных. Множество итераций множества фильтров, применяемых к большому количеству данных, означает, что для обучения сети глубокого обучения требуется много вычислительной мощности.

Прорыв в исследовательской команде Шена наступил, когда он понял, что многие фрагменты данных в наборе данных похожи друг на друга. Например, участок голубого неба на одном изображении может быть аналогичен участку голубого неба в другом месте того же изображения или участку неба на другом изображении в том же наборе данных.

Распознавая эти похожие фрагменты данных, сеть глубокого обучения может применять фильтры к одному фрагменту данных и применять результаты ко всем аналогичным фрагментам данных в одном наборе, экономя при этом большую вычислительную мощность.

«Мы смогли не только продемонстрировать, что эти сходства существуют, но и найти эти сходства для промежуточных результатов на каждом этапе процесса», — говорит доктор философии Лин Нин. студент в штате Северная Каролина и ведущий автор статьи. «И мы смогли максимизировать эту эффективность, применив метод, называемый локальным хешированием».

Но это поднимает два дополнительных вопроса. Насколько большим должен быть каждый кусок данных? И какому порогу должны соответствовать порции данных, чтобы считаться «похожими»?

Исследователи обнаружили, что наиболее эффективным подходом было начать с просмотра относительно больших порций данных с использованием относительно низкого порога для определения сходства. В последующие эпохи порции данных становятся меньше, а порог сходства более строгим, что повышает точность сети глубокого обучения. Исследователи разработали адаптивный алгоритм, который автоматически реализует эти постепенные изменения в процессе обучения.

Чтобы оценить их новую технику, исследователи проверили ее, используя три сети глубокого обучения и наборы данных, которые широко используются исследователями глубокого обучения в качестве испытательных стендов: CifarNet с использованием Cifar10; AlexNet с использованием ImageNet; и VGG-19 с использованием ImageNet.

Адаптивное глубокое повторное использование сокращает время обучения AlexNet на 69 процентов; для VGG-19 — на 68 процентов; и для CifarNet на 63 процента — все без потери точности.

«Это демонстрирует, что техника значительно сокращает время обучения», — говорит Хуэй Гуан, доктор философии. студент в штате Северная Каролина и соавтор статьи. «Это также указывает на то, что чем больше сеть, тем больше адаптивного глубокого повторного использования может сократить время обучения — поскольку AlexNet и VGG-19 оба значительно больше, чем CifarNet».

«Мы считаем, что Adaptive Deep Reuse является ценным инструментом, и надеемся на сотрудничество с отраслевыми и исследовательскими партнерами, чтобы продемонстрировать, как его можно использовать для развития ИИ», — говорит Шен.

Документ «Адаптивное глубокое повторное использование: ускорение обучения CNN на лету» будет представлен на 35-й Международной конференции IEEE по проектированию данных, которая состоится 8-11 апреля в САР Макао, Китай. Работа выполнена при поддержке Национального научного фонда по грантам CCF-1525609, CNS-1717425 и CCF-1703487.