Помогите с правильным сбором данных для нейросети

143
17 марта 2019, 19:40

Нахожусь на этапе сбора данных для обучения свой нейронной сети, данные собираю в виде MySQL таблицы. У меня есть статьи на разные категории такие как: спорт, кулинария, новости, программирование и.т.д.

Вопрос: каким образом мне нужно разделять на категории статьи в MySQL таблице чтобы в дальнейшем при обучении нейросеть смогла разделять их по категориям? И как вообще дать понять нейросети при её обучении, какая статья к какой категории принадлежит? Для создания нейронной сети использую Payton и библиотечку tensorflow.

Answer 1

Для начала вам следует определится как вы будете классифицировать статьи - может ли одна статья принадлежать одновременно нескольким категориям (multilabel classification) или только одной категории (multiclass classification). Далее сохраняете текст и в отдельном(ых) столбцах категории, которым данная статья принадлежит - эти данные понадобятся для обучения и проверки модели.

Хранить данные для обучения не обязательно в СУБД, можно хранить в текстовых файлах, можно в структурированных файловых форматах, например: HDF5 / Parquet / etc. Хранение в СУБД дает вам преимущество одновременного доступа с различных серверов - особенно это полезно если вы планируете использовать распределенные вычисления.

Когда у вас будет размеченная (с правильно проставенными категориями) выборка данных достаточного размера (желательно 10.000+ статей, можно пробовать и на меньшей выборке, но точность модели может оказаться не на высоте) - теперь надо векторизировать текст. Для этого я бы воспользовался либо алгоритмом word2vec либо doc2vec (основанный на word2vec).

Далее можно воспользоваться глубокими ИНС (Искусственными Нейронными Сетями) для обучения модели.

READ ALSO
при обновление таблицы получаю ошибку 'student_id' doesn't have a default value'

при обновление таблицы получаю ошибку 'student_id' doesn't have a default value'

Пишу программу которая показывает какие дополнительные уроки посещает ученик, вот сущности

142
О чистоте кода CSS

О чистоте кода CSS

В большинстве руководств, рекомендуют всем родительским елементам задавать классы, но при этом рекомендуют использовать не более двух селекторов...

162
Как правильно задать viewport

Как правильно задать viewport

Нужно чтоб страница до ширины 1200px уменьшалась пропорционально, а меньше этой ширины становилась адаптивной, как это можно реализовать?

187
Колонки таблицы равной ширины

Колонки таблицы равной ширины

Я создаю таблицу и выставляю в процентах ширину каждого столбцаДля примера, второй столбец должен иметь ширину в 30%, четвертый — 10%

172