Как хранить котировки валют

206

31 декабря 2018, 08:10

Написал скрипт который парсит котировки валют со многих бирж, потом данные все нужно анализировать и выдавать некие результаты. Данный скрипт потом напишу но нужно как-то хранить огромные массивы данных, данные только числовые с плавающей точкой. Чтоб понять какой объём данных, наведу пример:

Пар примерно 15 000. Каждую пару нужно хранить как минимум неделю, минутные данные, так как буду анализировать недельные данные.
В идеале для статистики и исторических данных нужно хранить все время все данные.
Если хранить недельные данные то получиться: 10 080 * 15 000 = 151 200 000.
Если год то 525 948 * 15 000 = 7 889 220 000 строк.

Возник вопрос, где хранить данные недельные и как хранить данные за все время исторические. Выдержит ли недельные данные mysql, а исторические данные хранить в файлах json, и потом по надобности считывать, так как исторические данные буду юзать редко. А вот недельные данные будут довольно часто анализироваться скриптом, примерно раз в минуту.

Структура таблицы примерно такая:

id
id_market
last_price
market_volume
base_volume
datetime_edit
datetime_add

Answer 1

Попробуйте обратить внимание на ClickHouse от Яндекса. Это столбцовая СУБД, заточенная под как раз аналитику. Очень шустрая и прекрасно документированная. Синтаксис там, насколько мне известно, SQL + собственные комнады.

Answer 2

MySQL совершенно не боится 8 млн. строк весь вопрос состоит в индексах и составных индексах. К примеру дату добавления можно разбить на колонки year как SMALLINT, month как TINYINT, day как TINYINT и сложить их в составные индексы (2,1)+(1) байт. Так-же неделю можно уложить в INT который с каждой неделей прибавляет +1 вот вам и сокращение данных для поиска... Устаревшие данные у которых неделя > например месяца можно просто нулить через (null) и NULL в индексации вовсе не учитывать - таким образом мы получаем относительно короткий индекс недель и.т.д.

Такая методика была проверена на биллинговой системе где происходит около 2к записей/обновлений в секунду.

Очень старые данные (Архив) можно откачивать отдельной задачей по крону раз в месяц и хранить их например в Mongo. Но следует заметить что Mongo хоть и является очень быстрой БД - но совершенно бесчеловечно относиться к дисковому пространству и жиреет прямо на глазах.