Рис. 1. Структурная схема сигмоидального нейрона
В качестве функции активации

выступает сигмоидальная функция (т.е. функция, график которой похож на букву "S"). На практике используются как униполярные, так и биполярные функции активации.
Униполярная функция, как правило, представляется формулой

тогда как биполярная функция задается в виде

Графики униполярных и биполярных сигмоидальных функций представлены на рис. 2 и рис. 3 соответственно.
Рис. 2. График униполярной сигмоидальной функции
Рис. 3. График биполярной сигмоидальной функции
Коэффициент

определяет "крутизну" функций и выбирается разработчиком сети (на практике

для упрощения назначают обычно равным 1).
Производная униполярной функции активации имеет вид

а производная биполярной функции —

Графики производных имеют колоколобразный вид и представлены на рис. 4 и рис. 5.
Рис. 4. График производной униполярной сигмоидальной функции
Рис. 5. График производной биполярной сигмоидальной функции
Для обучения сигмоидального нейрона используется
стратегия "с учителем", однако, в отличие от персептрона, для поиска минимума целевой функции

здесь используются методы поисковой оптимизации первого порядка, в которых целенаправленное изменение весовых коэффициентов

осуществляется в направлении отрицательного градиента


-ая компонента вектора градиента имеет вид

Обозначив

, имеем

Также возможно обучение сигмоидального нейрона и дискретным способом — сериями циклов уточнения
входных весов для каждой эталонной пары

(см.
правило персептрона). При этом коррекция весов после каждого цикла выполняется по следующей формуле:

где

— коэффициент обучения, значение которого выбирается из диапазона (0, 1).
Необходимо напомнить, что все методы поисковой оптимизации первого порядка — это методы локального поиска, не гарантирующие достижения глобального экстремума. В качестве попытки преодолеть этот недостаток было предложено обучение с моментом, в котором коррекция весов выполняется следующим образом:

Последнее слагаемое в формуле называется моментом и характеризует фактическое изменение веса в предыдущем цикле (

выбирается в диапазоне (0, 1)). Существует надежда, что при приближении к точке локального минимума (где градиентная составляющая

стремится к нулю) составляющая момента выведет поиск из области локального минимума в более перспективную область.