Все технические форумы на одном сайте Удобный поиск информации с популярных форумов в одном месте
Вопрос: Что так все носятся с этой bigdata-ой?

80% данных, а то и больше, это же полный шлак, копаться в этом шлаке в поиске золота? Золота в шлаке нет и никогда не было.
КА оборвали телефон последнее время - нужен срочно, завтра сдавать заказчику, мега спец на мега проект в мегабанк на бигдаду. Устал объяснять как дедушка Инмон - бигдата никакого отношения к хранилищам данных не имело, не имеет и иметь не будет, это платформа для специфических задач.
Нафига эта бигдата? Скоринг в банке? Он и раньше без бигдаты работал. Столько спама с этой бигдатой сыпется, сума все посходили что ли.
Ответ:
Полковник.
Я говорю, что 80% любых данных предприятия это мусор и копание в мусоре никакого эффекта не приносит. Мы тут до сих пор остатки 15 го года пересчитываем и перегружаем, потому что все что нам выдавали учётные системы это оказывается был полный шлак.
дак, а причём здесь бигдата то?
если вам привезли гвозди, а у вас отвёртка, то отвёртка не плоха, отнюдь.
опять же, ваша мысль понятна, но вот вы рассуждаете прямолинейно, как разработчик (ну, так это выглядит, могу ошибаться), а с позиции архитектора и топ-менеджера (ну, так, сферического) бигдату вы поднимете не сразу, а за это время и данные из первичек почистят и глядишь НСИ и МДМ как нибудь подтянут...
короче не складывать все яйца к вам в карман.
Вопрос: Структуры данных под map-reduce, концепции

смотрю один проект и перелапатил уже довольно много вводных частей тучи книг по hadoop, как-то нигде не могу найти каких-то разборов как проектировать структуры данных под map-reduce. например в проекте, который нацелен заменить DWH на hadoop, я смотрю, что все данные сложили в один файл (разбивка только по странам/филиалам). т.е. по сути если мне что-то надо посчитать, мапер по сути поднимает все, что известно по филиалу. при этом на редюсере строиться один большой объект (назавем его клиентом), который включает абсолютно все данные, от счетов и платежей до адресов и контактов с ним.
сложилось впечатление, что это и есть концепция бигдата. где бы почитать вводную, кто какие структуры использует ? почему бы не хранить контакты и адреса в каких-то отдельных файликов и если нужно джоинить. вроде пролистал патерны join, не столь уж страшно.
Ответ:
haXbat
hck1,

А зачем в 2016 году руками писать мапредьюсы? Почему бы не воспользоваться уже готовыми SQL - движками?
Вместо абстрактного понятия "структуры данных" лучше обратить внимание на поддерживаемые различными дистрибутивами форматы данных, партицирование, бакетинг.

те кто проектировал говорят мапредюсы сильно быстрее. данные в принципе доступны в impala/parquet, но как-то не впечатляет пока стабильность.
Вопрос: Hive. Помогите сделать выборку

бигдата. прошу прощения,если я не в ту тему вопрос создаю .
Есть таблица TABLE , в которой три столбца. выгрузка за сутки.
msisdn ( это номер телефона, строка), starttimesecond ( это время в юникс формате, строка, время ,в которое человек перешел на новую страничку) , app( это хост,строка, там vk.com и ok.com)


то есть для каждого номера телефона есть куча starttimesecond, может быть 30 за минуту, . а в какое-то время, когда не заходил на этот хост- нет. а в общей сложности - выгрузка за сутки.

Нужно посчитать по каждому домену кол-во хитов и уникальных пользователей хотя бы с одним хитом , где хит - это наличие трафика в 15 минутный диапазон.


думаю, нужно смотреть, есть ли хотя бы одна активность за минуту, и такие минуты должны идти подряд. а если их больше 15, то делить на несколько хитов по 15 . Буду безмерно благодарна , если поможете!
Ответ: В чем суть.
есть данные на абонентов, когда кто заходил на определенный хост по минутам
отсортированные по хосту, номеру абонента, времени

они в формате
idtimenumberhost
1072016-11-24 01:40:007965533976ok
1082016-11-24 01:41:007965533976ok
1092016-11-24 01:09:007965536541ok
1102016-11-24 01:10:007965536541ok
1112016-11-24 01:11:007965536541ok
1122016-11-24 01:12:007965536541ok

мне нужно найти все начала непрерывных соединений длиной в 4 минуты(блоки) по каждому абоненту .
для этого мне надо найти начала блоков и концы блоков и их длительность.
я ищу начало таких блоков таких путем, где t1 и t2 - копии, время в timestamp
SELECT t1.*
FROM   t1
LEFT JOIN   t2
ON t1.time = from_unixtime(unix_timestamp(t2.time)+60)
WHERE t2.id IS NULL;
находит строки, с которых начались блоки,но не все. видимо смотрит время по всем абонентам, а не по одному
подскажите, плиз, как добавить условие,чтобы считались записи стартов блоков для каждого абонента.

чет пытаюсь вставить условие на num и туда и сюда и никак...
Модератор: Не надо плодить темы по одному и тому же вопросу