#BigData Tumblr posts

  • ai-jobs
    04.08.2021 - 35 minutes ago

    HIRING: Data Scientist - Performance Engineering - Pleasanton Hub / California - Pleasanton

    View Full
  • aisurge
    04.08.2021 - 3 hours ago

    No Code Data Analytics | AI-Surge

    Are you finding google for No Code Data Analytics?  AI Surge is the best no-code data analytics software for a reasonable price. Data is the foundation of the new era of business growth, productivity, innovation, and better customer insight. AI Surge provides limitless possibilities for delivering data, insights, and business results in minutes. A single AI-Powered platform for your entire data journey. For more information, contact AI-surge.

    View Full
  • dstglobal
    03.08.2021 - 15 hours ago

    Озера данных и Big data

    ​Озера данных: как устроены data lakes и зачем они нужны

    Рынок data lakes в 2019 году достиг $3,74 млрд, а к 2025 году он вырастет до $17,6 млрд. Компании все чаще отдают предпочтение озерам, а не хранилищам. С их помощью можно извлекать ценные инсайты, отслеживать неожиданные закономерности, быстрее и эффективнее продвигать новые продукты и услуги. Для распределенной компании с множеством подразделений — это настоящая золотая жила. Специалисты компании DST Global рассказали, как извлечь максимум из новой data-архитектуры.

    Озера, витрины и хранилища

    Представьте, что у компании есть доступ к неисчерпаемому информационному ресурсу — погружаясь в него, аналитики регулярно получают ценные бизнес-инсайты и запускают новые, более совершенные продукты. Примерно по такому принципу работают озера данных — data lakes. Это относительно новый вид data-архитектуры, позволяющий воедино собирать сырые и разрозненные сведения из разных источников, а потом находить им эффективное применение. Первыми с технологией начали экспериментировать такие гиганты, как Oracle, Amazon и Microsoft — они же разработали удобные сервисы для построения озер.

    Сам термин data lake ввел Джеймс Диксон, основатель платформы Pentaho. Он сравнивал витрины данных с озерами данных: первые похожи на бутилированную воду, которую очистили, отфильтровали и упаковали. Озера — это открытые водоемы, в которые вода стекается из разных источников. В них можно погружаться, а можно брать образцы с поверхности. Существуют еще дата-хранилища, которые выполняют конкретные задачи и служат определенным интересам. Озерные репозитории, напротив, могут принести пользу многим игрокам, если их грамотно использовать.

    Казалось бы, потоки сведений только усложняют работу аналитикам, ведь сведения не структурированы, к тому же их слишком много. Но если компания умеет работать с данными и извлекать из них пользу, озеро не превращается в «болото».

    Извлекаем данные из «бункера»

    И все-таки какую пользу приносят data lakes компаниям? Их главное преимущество — это изобилие. В репозиторий попадают сведения от разных команд и подразделений, которые обычно никак между собой не связаны. Возьмем для примера онлайн-школу. Разные отделы ведут свою статистику и преследуют свои цели — одна команда следит за метриками удержания пользователей, вторая изучает customer journey новых клиентов, а третья собирает информацию о выпускниках. Доступа к полной картине нет ни у кого. Но если аккумулировать разрозненные сведения в едином репозитории, то можно обнаружить интересные закономерности. Например, окажется, что пользователи, которые пришли на курсы дизайна и просмотрели хотя бы два вебинара, чаще других доходят до конца программы и строят успешную карьеру на рынке. Эта информация поможет компании удержать студентов и создать более привлекательный продукт.

    Часто неожиданные закономерности обнаруживаются случайно — так, озеро данных помогает дата-аналитикам экспериментально «скрещивать» разные потоки сведений и находить параллели, которые в других обстоятельствах они бы вряд ли обнаружили.

    Источники данных могут быть любыми: у онлайн-школы это будет статистика с разных каналов продвижения, у фабрики — показатели IoT-датчиков, график использования станков и показатели износа оборудования, у маркетплейса — сведения о наличии товаров в стоке, статистика продаж и данные о самых популярных платежных методах. Озера как раз помогают собирать и изучать массивы информации, которые обычно никак не пересекаются и попадают в поле внимания разных отделов.

    Еще один плюс дата-озер — это извлечение данных из разрозненных репозиториев и закрытых подсистем. Часто сведения хранятся в подобии информационного «бункера», доступ к которому есть только у одного подразделения. Перенести из него материалы сложно или невозможно — слишком много ограничений. Озера эту проблему решают.

    Итак, можно выделить как минимум восемь преимуществ озер данных:

    Помогают дата-аналитикам получать ценные инсайты.

    Позволяют компании быстро принимать решения, опираясь на статистику и факты.

    Дают возможность экспериментировать с разными типами данных из разных источников.

    Делают процесс аналитики более демократичным и стирают барьеры между подразделениями.

    Обеспечивают высокий уровень централизации и детализации данных — это позволяет найти «иголку в стоге сена».

    Подходят компаниям разного размера — на ранней стадии можно начать с мини-озер и постепенно наращивать объемы.

    Упрощают бизнес-процессы — например, позволяют делать cross-domain запросы и создавать комплексную продуктовую отчетность.

    Обходятся дешевле, чем хранилища, потому что данные не нуждаются в предварительной обработке.

    Озера в первую очередь нужны распределенным и разветвленным командам. Классический пример — Amazon. Корпорация аккумулировала данные из тысячи разных источников. Так, одни только финансовые транзакции хранились в 25 различных базах, которые были по-разному устроены и организованы. Это создавало путаницу и неудобства. Озеро помогло собрать все материалы в одном месте и установить единую систему защиты данных. Теперь специалисты — дата- и бизнес-аналитики, разработчики и CTO — могли брать нужные им компоненты и обрабатывать их, используя разные инструменты и технологии. А машинное обучение помогло аналитикам Amazon строить сверхточные прогнозы — теперь они знают, сколько коробок определенного размера потребуется для посылок в условном Техасе в ноябре.

    Четыре шага к дата-озерам

    Также разработчики компании DST Global рассказали о том что у data lakes есть и недостатки. В первую очередь они требуют дополнительных ресурсов и высокого уровня экспертизы — по-настоящему извлечь из них пользу могут только высококвалифицированные аналитики. Также потребуются дополнительные инструменты Business Intelligence, которые помогут преобразовать инсайты в последовательную стратегию.

    Другая проблема — это использование сторонних систем для поддержания data lakes. В этом случае компания зависит от провайдера. Если в системе произойдет сбой или утечка данных, это может привести к крупным финансовым потерям. Однако главная проблема озер — это хайп вокруг технологии. Часто компании внедряют этот формат, следуя моде, но не знают, зачем на самом деле им это нужно. В результате они тратят большие суммы, но не добиваются окупаемости. Поэтому эксперты советуют еще на стадии подготовки к запуску определить, какие бизнес-задачи будут решать озера.

    Эксперты DST Global (dstglobal.ru) выделяют четыре стадии создания data lakes:

    Создание платформы для сбора сырых данных. На этом этапе важно научиться извлекать и хранить сведения.

    Развитие платформы и первые эксперименты. Дата-аналитики уже начинают анализировать данные и строить прототипы аналитических моделей.

    Тесная интеграция с дата-хранилищами. На этой стадии в озера стекаются все большие массивы данных, а процесс навигации упрощается.

    Дата-озеро становится ключевым элементом архитектуры. Развиваются новые сценарии применения, появляются новые надстройки и сервисы с удобными интерфейсом, компания начинает использовать бизнес-модель Data-as-a-Service.

    Алгоритмы-аналитики

    В самом аккумулировании данных нет ничего принципиально нового, но благодаря развитию облачных систем, платформ с открытым кодом и в целом увеличению компьютерных мощностей работать с озерной архитектурой сегодня могут даже стартапы.

    Еще одним драйвером отрасли стало машинное обучение — технология отчасти упрощает работу аналитиков и дает им больше инструментов для пост-обработки. Если раньше специалист потонул бы в количестве файлов, сводок и таблиц, теперь он может «скормить» их алгоритму и быстрее построить аналитическую модель.

    Использование дата-озер в комплексе с ИИ помогает не просто централизованно анализировать статистику, но и отслеживать тренды на протяжении всей истории работы компании. Так, один из американских колледжей собрал сведения об абитуриентах за последние 60 лет. Учитывались данные о количестве новых студентов, а также показатели по трудоустройству и общая экономическая ситуация в стране. В результате вуз скорректировал программу так, чтобы студенты заканчивали учебу, а не бросали курсы на полпути.

    Какие еще бизнес-задачи могут решать дата-озера:

    Эффективно распределять ресурсы, чтобы избежать дефицита товара в периоды пикового спроса.

    Строить более точные прогнозы и предугадывать тренды, а также запускать инновационные продукты раньше конкурентов.

    Сегментировать аудиторию и определять интересы даже самых нишевых групп.

    Строить более подробные и точные отчеты, которые помогут улучшить показатели и повысить производительность.

    Более эффективно настраивать алгоритмы продвижения и рекомендательные системы.

    Экономить ресурсы на производстве или в лаборатории — даже если это комплексная структура вроде ЦЕРНа.

    Впрочем, озера используют не только в бизнес-среде — например, в начале пандемии AWS собрала в едином репозитории сведения о COVID-19: данные исследований, статьи, статистические сводки. Информацию регулярно обновляли, а доступ к ней предоставили бесплатно — платить нужно было только за инструменты для аналитики.

    Data lakes нельзя считать универсальным инструментом и панацеей, но в эпоху, когда данные считаются новой нефтью, компаниям важно искать разные пути исследования и применения big data. Главная задача — это централизация и консолидация разрозненных сведений. В эпоху микросервисов и распределенных команд часто возникают ситуации, когда один отдел не знает, над чем работает другой. Из-за этого бизнес тратит ресурсы, а разные специалисты выполняют одинаковые задачи, часто не подозревая об этом. В конечном итоге это снижает эффективность и перегружает «оперативную систему» компании. Как показывают опросы, большинство компаний инвестирует в озера данных как раз для повышения операционной эффективности. Но результаты превосходят ожидания: у ранних адептов технологии выручка и прибыль растут быстрее, чем у отстающих, а главное, они быстрее выводят на рынок новые продукты и услуги.

    Источник: https://dstglobal.ru/news/11-ozera-dannyh-i-big-data.html

    View Full
  • View Full
  • tachouhoner
    03.08.2021 - 22 hours ago

    https://www.sdcorpl.com SDC - ESE DEV CORP #Psycho && DIVAGADO #México #USA #Cuarentena #Amalucan #ESE #SDC #Honer #Tacho #TACHOUHONER #Computer #Sciences #Engineering #MachineLearning #BigData #Analytics #DataScience #DataAnalytics #DeepLearning #Development #Software #Hardware #InteligenciaArtificial #QuedateEnCasa #Dominic #Aczino #Teorema #Wos #Skone #JonyBeltran @TACHOUHONER (en Plazas Amalucán, Puebla) https://www.instagram.com/p/CSHZPD4rMy-/?utm_medium=tumblr

    View Full
  • craigbrownphd
    03.08.2021 - 23 hours ago

    insideBIGDATA Guide for Higher Education – Part 3 https://ift.tt/37k1o9I

    View Full
  • ai-jobs
    03.08.2021 - 1 day ago

    HIRING: Data Engineering Team Leader / Sofia, Sofia City, Bulgaria

    View Full
  • aisurge
    03.08.2021 - 1 day ago

    AI Based Predictive Analytics Modelling | AI-Surge

    AI Based Predictive Analytics Modelling helps your business prepare for the future based on past data. Control your future with our automated ad-hoc AI-based predictive analytics. It is not just about predicting the future. We can fill in the gaps in the present. Stop making wild assumptions and let our automated AI-based predictive modelling develop models to get the best out of your business data. For more information contact AI-Surge.

    View Full