Нахожусь на этапе сбора данных для обучения свой нейронной сети, данные собираю в виде MySQL таблицы. У меня есть статьи на разные категории такие как: спорт, кулинария, новости, программирование и.т.д.
Вопрос: каким образом мне нужно разделять на категории статьи в MySQL таблице чтобы в дальнейшем при обучении нейросеть смогла разделять их по категориям? И как вообще дать понять нейросети при её обучении, какая статья к какой категории принадлежит? Для создания нейронной сети использую Payton и библиотечку tensorflow.
Для начала вам следует определится как вы будете классифицировать статьи - может ли одна статья принадлежать одновременно нескольким категориям (multilabel classification) или только одной категории (multiclass classification). Далее сохраняете текст и в отдельном(ых) столбцах категории, которым данная статья принадлежит - эти данные понадобятся для обучения и проверки модели.
Хранить данные для обучения не обязательно в СУБД, можно хранить в текстовых файлах, можно в структурированных файловых форматах, например: HDF5 / Parquet / etc. Хранение в СУБД дает вам преимущество одновременного доступа с различных серверов - особенно это полезно если вы планируете использовать распределенные вычисления.
Когда у вас будет размеченная (с правильно проставенными категориями) выборка данных достаточного размера (желательно 10.000+ статей, можно пробовать и на меньшей выборке, но точность модели может оказаться не на высоте) - теперь надо векторизировать текст. Для этого я бы воспользовался либо алгоритмом word2vec либо doc2vec (основанный на word2vec).
Далее можно воспользоваться глубокими ИНС (Искусственными Нейронными Сетями) для обучения модели.
Апостиль в Лос-Анджелесе без лишних нервов и бумажной волокиты
Основные этапы разработки сайта для стоматологической клиники
Продвижение своими сайтами как стратегия роста и независимости