Обширный глоссарий терминов по аналитике данных и бизнес-интеллекту
Добро пожаловать в наш полный глоссарий, посвященный основным терминам и концепциям в области аналитики данных и бизнес-интеллекта (BI). Ориентироваться в сложном мире данных может быть сложно, особенно с непрерывным появлением новых технологий, методологий и терминологии. Независимо от того, являетесь ли вы студентом, начинающим аналитиком, ученым-исследователем данных, деловым руководителем или просто любознательным учеником, этот глоссарий разработан так, чтобы быть вашим навигационным компасом, освещая путь с ясными и краткими определениями.
Наш глоссарий является динамическим ресурсом, предоставляющим ясность и понимание для терминов, охватывающих основные элементы данных и продвинутые аналитические техники. Каждый термин тщательно объясняется с целью предложить сбалансированное представление, доступное для читателей разного уровня экспертизы. Здесь вы не только найдете определения, но также краткие пояснения, которые придают контекст и актуальность реальным приложениям.
Начните свое обучение с уверенностью, вооружившись ресурсом, который разъясняет сложности и терминологию в области аналитики данных и бизнес-интеллекта. Используйте этот глоссарий в качестве справочника, помощника при изучении или инструмента для облегчения коммуникации в профессиональных средах. Погрузитесь, исследуйте и расширьте свои знания и понимание языка данных!
A
- Algorithm (Алгоритм): Набор правил или процедур для решения проблемы. В анализе данных алгоритмы используются для анализа и обработки данных с целью извлечения ценных идей.
- Analytics (Аналитика): Наука об изучении данных для вывода заключений и поддержки принятия решений. Она включает сбор, обработку и анализ больших наборов данных для выявления закономерностей и трендов.
- Anomaly Detection (Выявление аномалий): Свойство или характеристика сущности. Атрибуты содержат данные, которые описывают сущности.
- API (Application Programming Interface) (Интерфейс прикладного программирования): Набор правил, позволяющих различным программным сущностям взаимодействовать друг с другом. В аналитике данных API часто используются для доступа к данным из внешних сервисов или платформ.
- Association (Ассоциация): Связь между двумя сущностями или объектами.
- Attribute (Атрибут): Свойство или характеристика сущности. Атрибуты содержат данные, описывающие сущности.
- Augmented Analytics (Аугментированная аналитика): Использование передовых технологий, таких как машинное обучение и искусственный интеллект, для автоматизации подготовки данных, обнаружения информации и ее обмена. Они расширяют человеческий интеллект, делая процесс аналитики быстрее и более доступным для непрофессионалов.
B
- BI (Business Intelligence) (Бизнес-аналитика): Технологически ориентированный процесс, который анализирует данные и представляет действенную информацию для помощи руководителям, менеджерам и другим корпоративным пользователям в принятии обоснованных деловых решений.
- Business Analytics (Бизнес-аналитика): Подмножество деловой аналитики, бизнес-аналитика фокусируется на статистическом анализе и использовании деловых данных для прогнозирования и улучшения деловой производительности.
- Big Data (Большие данные): Очень большие наборы данных, которые можно анализировать для выявления паттернов, трендов и связей. Также это относится к очень большим наборам данных, которые слишком велики или сложны для обработки с помощью традиционного программного обеспечения для обработки данных. Big data характеризуется своим объемом, разнообразием и скоростью.
C
- Calculated Metric (Вычисленная метрика): Метрика, полученная из математических вычислений на основе одной или нескольких существующих мер. Она используется для создания новых идей из доступных данных.
- Cardinality (Кардинальность): Описывает числовые атрибуты связи между двумя сущностями или таблицами.
- Classification (Классификация): Тип обучения с учителем, в котором целью является предсказание категориальной классификации новых экземпляров на основе прошлых наблюдений.
- Column (Колонка): В таблице столбец содержит данные для одного атрибута сущности.
- CSV (Comma Separated Values) (Значения, разделенные запятыми): Простой формат файла, используемый для хранения табличных данных, таких как электронная таблица или база данных. Каждая строка файла представляет собой запись данных, а каждая запись состоит из одного или нескольких полей, разделенных запятыми.
- Composite Key (Композитный ключ): Первичный ключ, состоящий из более чем одного атрибута.
- Constraint (Ограничение): Правила, применяемые к столбцам данных для сохранения их точности и надежности.
- Conceptual Model (Концептуальная модель): Абстрактное представление отношений и сущностей в системе. Оно сфокусировано на общем понимании системы и служит основой для создания более подробных моделей. Концептуальная модель помогает определить структуру и объем модели данных, служа основой для проектирования схемы базы данных и связей между сущностями.
- Correlation (Корреляция): Статистическая мера, описывающая связь между двумя переменными.
- Clustering (Cluster Analysis) ( Кластеризация (анализ кластеров)): Техника, используемая для группировки данных или элементов, которые похожи друг на друга. Она часто используется в маркетинговых исследованиях, распознавании образов и анализе данных для выявления и использования закономерностей в данных.
D
- Database (База данных): Структурированная коллекция данных, к которой можно легко получить доступ, управлять и обновлять.
- Database Management System (DBMS) ( Система управления базами данных): Программное обеспечение, которое обрабатывает хранение, извлечение и обновление данных в компьютерной системе.
- Data Cleansing (or Data Cleaning) (Очистка данных (или чистка данных)): Процесс определения и исправления (или удаления) ошибок и несоответствий в данных для повышения их качества.
- Data Dictionary (Словарь данных): Коллекция описаний объектов данных или элементов в модели данных.
- Data Exploration (Исследование данных): Первоначальный процесс анализа набора данных для выявления его основных характеристик и понимания его структуры, переменных и значений. Исследование данных крайне важно для ознакомления с набором данных, выявления аномалий и обнаружения закономерностей или трендов. Этот процесс часто включает в себя подведение итогов основных характеристик набора данных с использованием визуальных методов (диаграммы, графики и т. д.) и описательной статистики.
- Data Lake (Озеро данных): Хранилище данных, которое содержит огромное количество необработанных данных в их исходном формате. Данные озера позволяют хранить и анализировать неструктурированные данные, что невозможно с использованием традиционных баз данных.
- Data Mart (Витрина данных): Подмножество хранилища данных, поддерживающее требования конкретного отдела или функции.
- Data Migration (Миграция данных): Это процесс выбора, подготовки, извлечения и преобразования данных, а также их постоянного переноса из одной системы компьютерного хранения в другую. Этот процесс часто необходим, когда организация решает использовать новую вычислительную систему или приложение. Миграция данных критически важна для обеспечения точного и безопасного переноса данных, а также их доступности и функциональности в новой системе. Этот процесс часто включает очистку данных и добавление новых структур данных.
- Data Mining (Сбор данных): Практика изучения больших баз данных для генерации новой информации. Техники дата-майнинга обнаруживают паттерны и взаимосвязи в данных, которые могут быть незаметны с помощью традиционной аналитики.
- Data Modeling (Моделирование данных): Процесс создания модели данных для хранения данных в базе данных. В этом процессе определяется связь, доступ и хранение данных.
- Data Science (Наука о данных): Междисциплинарное поле, которое использует научные методы, процессы, алгоритмы и системы для извлечения знаний и понимания из структурированных и неструктурированных данных.
- Data Source (Источник данных): Местоположение, откуда исходят данные. Это может быть база данных, хранилище данных, озеро данных или внешние источники данных, доступные через API или другие способы.
- Data Transformation (Преобразование данных): Процесс преобразования данных из одного формата или структуры в другой. Он часто включает очистку, агрегацию, обогащение и переформатирование данных.
- Data Type (Типы данных): Типы данных, которые можно хранить в атрибуте, включают целые числа, строки, даты и т.д.
- Data Walls (Данные стены): Визуальные отображения данных, используемые для отслеживания и улучшения результативности отдельных лиц или групп в организации. Данные стены часто используются в образовании и продажах для стимулирования улучшения и конкуренции.
- Data Warehouse ( Хранилище данных): Центральный репозиторий интегрированных данных, собранных из одного или нескольких несвязанных источников. Он хранит исторические и текущие данные в одном месте и используется для создания отчетов и анализа данных. Хранилища данных являются важными компонентами в области бизнес-аналитики, позволяющими извлекать и анализировать данные для поддержки процессов принятия решений.
- Decision Trees (Решающие деревья): Подход предиктивного моделирования. Для классификации и регрессии используются деревья решений, которые предоставляют графическое представление, иллюстрирующее процесс принятия решения. Дерево строится таким образом, что разделяет наборы данных на поднаборы на основе значений входных переменных, в конечном итоге приводя к предсказанному выводу или решению.
- Descriptive Analytics (Аналитика описания): Это начальный этап обработки данных, подведение и визуализация исторических данных для выявления паттернов, тенденций и идей. Описательная аналитика помогает бизнесу понять, что произошло в прошлом и проанализировать показатели эффективности, предоставляя надежную основу для дальнейшего анализа и принятия решений.
- Dimension (DIM or DIMS) (Размер): Структура, которая категоризирует данные. Используются измерения, чтобы нарезать и анализировать данные в хранилище данных, предоставляя средство для организации и группировки данных. Например, измерение "Время" может включать уровни иерархии, такие как год, квартал, месяц и день. Измерения помогают анализировать данные различными способами и являются важными для создания содержательных отчетов.
- Dimensionality Reduction (Уменьшение размерности): Это техника, используемая в аналитике данных и машинном обучении, для сокращения количества входных переменных в наборе данных. Снижение размерности является неотъемлемым при работе с наборами данных, содержащими большое количество переменных (высокомерные), так как это помогает уменьшить вычислительную сложность, снизить риск переобучения и улучшить производительность модели.
- Drill-Down (Свернуть данные): Процесс исследования и визуализации данных на более детальных уровнях. Пользователи начинают с общих данных, а затем переходят к более детализированным данным, фокусируясь на конкретных элементах. Возможность углубления в детали играет важную роль в инструментах управления и отчетах, помогая аналитикам и принимающим решения понять подробности, лежащие в основе сводных данных.
- Dashboard (Дашборд): Интерфейс, который представляет данные в удобочитаемом виде, часто используя диаграммы и графики. Дашборды широко применяются в бизнес-аналитике для отображения ключевых показателей эффективности (KPI).
E
- Entity (Сущность): Вещь или объект, имеющий важность и требующий представления в базе данных.
- ETL (Extract, Transform, Load) (Извлечение, Преобразование, Загрузка): Процесс, который включает копирование данных из одного или нескольких источников в систему назначения, которая представляет данные по-разному от источника или в другом контексте.
- Exploratory Data Analysis (EDA) ( Анализ исследовательских данных): Подход к анализу наборов данных для подведения итогов основных характеристик, часто с использованием статистической графики и других методов визуализации данных.
- Entity Relationship Diagram (ERD) (Диаграмма сущность-связь): Визуальное представление сущностей и их взаимосвязей.
F
- Fact Table (Таблица фактов): В звездной или снежинковой схеме факт-таблица является центральной таблицей, которая содержит количественные данные (меры) и ключи, которые связываются с таблицами измерений.
- Feature Engineering (Формирование признаков): Процесс использования предметных знаний для создания признаков, которые делают алгоритмы машинного обучения эффективными. Инженерия признаков является ключевым аспектом для успешного применения машинного обучения.
- Foreign Key (Внешний ключ): Атрибут или набор атрибутов в таблице, который ссылается на первичный ключ другой таблицы.
- Forecasting (Прогнозирование): Процесс предсказания будущих значений на основе исторических данных. Эта техника применяется в различных областях, включая финансы и прогноз погоды.
G
- Grain (Granularity) (Зерно (Гранулярность)): Уровень детализации или глубина данных, хранящихся в базе данных или наборе данных. В частности, в области хранения данных и бизнес-аналитики, зерно данных представляет собой самый мелкий уровень, на котором данные хранятся. Понимание зерна данных крайне важно для эффективного моделирования и анализа данных, поскольку оно влияет на то, как данные могут быть интерпретированы и использованы.
- GUI (Graphical User Interface) (графический интерфейс пользователя): Тип пользовательского интерфейса, который позволяет пользователям взаимодействовать с программным обеспечением через графические иконки и визуальные индикаторы, часто используется в инструментах аналитики данных для удобной навигации и операции.
H
- Hierarchy (Иерархия): В моделировании данных иерархия означает структурированное расположение элементов, в котором элементы организованы на уровнях, причем каждый уровень представляет определенную степень детализации или подробности.
- Histogram (Гистограмма): Графическое представление распределения набора данных, обычно изображаемое в виде столбцов. Оно предоставляет визуальную интерпретацию числовых данных, показывая количество данных, попадающих в определенный диапазон значений.
- Hadoop (Хадуп): Hadoop - это открытая платформа для распределенного хранения и обработки больших наборов данных. Она разработана для масштабирования от одного сервера до тысяч машин, каждая из которых предоставляет вычислительные и хранилищные ресурсы.
I
- Index (Индекс): Структура данных, которая повышает скорость операций поиска данных в таблице базы данных за счет дополнительных операций записи и использования дополнительного места для поддержки индексной структуры данных. Индексы используются для быстрого поиска записи данных по ее ключу без необходимости просматривать каждую строку в таблице базы данных каждый раз при доступе к таблице базы данных. Для создания индексов можно использовать один или несколько столбцов таблицы базы данных, обеспечивая основу как для быстрого случайного поиска, так и для эффективного доступа к упорядоченным записям.
- Insights (идеи): Ценная информация, полученная из анализа данных. Инсайты часто раскрывают тренды, закономерности или аномалии, которые могут быть значимыми для бизнес-стратегий и принятия решений.
- IoT (Internet of Things) (Интернет вещей): Относится к сети физических устройств, в которых встроены датчики и программное обеспечение для сбора и обмена данными. IoT генерирует большие объемы данных, которые могут быть проанализированы для получения полезной информации.
- In-memory Computing (В-памяти вычисления): Технология, которая хранит данные в основной оперативной памяти системы (а не на традиционных дисковых накопителях), для улучшения производительности, обеспечивая более быстрое извлечение и анализ данных.
J
- JSON (JavaScript Object Notation) (Обозначение объектов JavaScript): Легкий формат обмена данными, который легко читать и писать для людей, и легко разбирать и генерировать для машин. Он часто используется для асинхронного взаимодействия между браузером и сервером.
K
- K-Means (K-Средних): Алгоритм для разделения набора данных на k кластеров.
- Key (Ключ): Атрибут или набор атрибутов, которые уникально идентифицируют экземпляр сущности.
- KPI (Key Performance Indicator) (Ключевой показатель эффективности): Ключевые показатели эффективности (KPI) - это измеримые значения, которые демонстрируют, насколько эффективно компания достигает своих основных деловых целей. Организации используют KPI для оценки своего успеха в достижении поставленных целей.
L
- Linear Regression (Линейная регрессия): Метод статистики, используемый для моделирования связи между зависимой переменной и одной или несколькими независимыми переменными. Метод предполагает линейную связь между переменными.
- Log Files (Лог-файлы): Метод статистики, используемый для моделирования связи между зависимой переменной и одной или несколькими независимыми переменными. Метод предполагает линейную связь между переменными.
- Logical Model ( Модель представления данных): Он представляет логические сущности, атрибуты и отношения между сущностями. Он обеспечивает концептуальное представление данных, абстрагируясь от физического хранения и деталей реализации. Логическая модель обычно используется в качестве основы для проектирования физической базы данных и помогает понять, как данные должны быть организованы и как обрабатываются отношения между данными.
- Lookup Table (Справочная таблица): Таблица, которая содержит дискретные значения, которые могут использоваться для представления или перевода других значений. Таблицы поиска часто используются в процессах преобразования данных для сопоставления исходных значений с целевыми значениями.
M
- Machine Learning (ML) ( Машинное обучение): Подмножество искусственного интеллекта, которое предоставляет системам возможность автоматического обучения и улучшения на основе опыта без явного программирования. Машинное обучение является ключевым для анализа больших объемов данных и создания основанных на данных прогнозов или рекомендаций.
- Measure (Измерение): В аналитике данных мера - это измеримая точка данных или метрика, которую можно проанализировать. Меры обычно являются числовыми данными, которые могут быть агрегированы.
- Metric (Метрическая): Количественная мера, используемая для отслеживания и оценки состояния определенного процесса. В аналитике данных метрики используются для предоставления понимания и являются основой для дальнейшего анализа.
- Metadata (Метаданные): Данные, которые предоставляют информацию о других данных. Метаданные содержат основную информацию о данных, что упрощает поиск и работу с конкретными экземплярами данных.
- Multidimensional Analysis (Анализ многомерных данных): Аналитическая обработка, которая включает просмотр данных через различные измерения. Она позволяет пользователю анализировать данные с разных точек зрения и поддерживает сложные вычисления.
- Multidimensional Cubes (Многомерные кубы): В OLAP-базах данных это структуры данных, которые позволяют быстро извлекать данные для аналитических запросов. Каждое измерение представляет разные перспективы для анализа.
N
- Nested Queries (Вложенные запросы): SQL-запросы, где один запрос (внутренний запрос) встроен в другой запрос (внешний запрос). Вложенные запросы используются для извлечения данных, которые будут использоваться в основном запросе в качестве условия для дальнейшего ограничения извлекаемых данных.
- Normalization (Нормализация): Процесс, используемый для организации базы данных с целью снижения избыточности и улучшения целостности данных путем группировки свойств в таблицы на основе отношений.
- NoSQL: Класс баз данных, предоставляющий механизм для хранения и извлечения данных, которые моделируются посредством других средств, чем табличные отношения, используемые в реляционных базах данных. NoSQL особенно полезен для хранения неструктурированных или полуструктурированных данных.
O
- OLAP (Online Analytical Processing) ( Онлайн-аналитическая обработка): Категория программных инструментов, которая позволяет пользователям анализировать данные из разных измерений, поддерживая сложные вычисления, анализ трендов и сложное моделирование данных.
- OLAP Cube (OLAP Куб): Многомерный массив данных, оптимизированный для запросов и отчетов. Кубы используются в базах данных OLAP (Online Analytical Processing), чтобы позволить пользователям анализировать данные по нескольким измерениям.
- OLTP (Online Transaction Processing) ( Обработка онлайн-транзакций): Категория обработки данных, поддерживающая приложения реального времени, ориентированные на транзакции. Системы OLTP оптимизированы для быстрой обработки запросов и поддержания целостности данных в средах с множественным доступом.
- Outlier (Аномалия): Наблюдение, которое отличается аномальным значением от других значений в случайной выборке из популяции. В анализе данных выявление выбросов является важным для точной интерпретации данных.
P
- Pattern Recognition (Распознавание образов): Процесс определения и классификации данных, обнаружение и анализ закономерностей или регулярностей. Он является ключевым в различных приложениях, включая data mining, анализ изображений и речи, и статистику.
- Predictive Analytics (Прогнозирующая аналитика): Техники, которые используют статистические алгоритмы и машинное обучение для выявления паттернов в данных и прогнозирования будущих результатов и тенденций. Прогностическая аналитика не говорит о том, что произойдет в будущем, но предоставляет оценку.
- Predictive Modeling (Построение прогностической модели): Использование статистики для прогнозирования будущих результатов на основе исторических данных.
- Prescriptive Analytics (Аналитика с применением правил): Не только предвидит, что произойдет и когда это произойдет, но и предоставляет объяснения и рекомендованные действия, чтобы воспользоваться прогнозами.
- Primary Key (Первичный ключ): Уникальный идентификатор для записи в таблице.
Q
- Quantitative Data (Количественные данные): Данные, которые могут быть измерены и записаны числами. Они часто собираются для статистического анализа, чтобы помочь понять закономерности и делать предсказания.
- Query (Запрос): Запрос на получение данных из базы данных. Запросы используются для поиска конкретных данных путем фильтрации по определенным критериям.
R
- R (Programming Language) (Язык программирования): Язык программирования и свободная среда программного обеспечения для статистических вычислений и графики. Широко используется для анализа данных и визуализации.
- Record (Запись): Строка в таблице, содержащая данные о конкретном элементе.
- Referential Integrity (Ссылочная целостность): Гарантирует, что связи между таблицами в базе данных остаются согласованными.
- Regression Analysis (Регрессионный анализ): Набор статистических методов для оценки взаимосвязей между переменными. Он помогает понять, как меняется значение зависимой переменной при изменении одной из независимых переменных.
- Relationship (Отношения): Описывает, как взаимодействуют два субъекта.
- Relational Database (Реляционная база данных): Тип базы данных, который использует структуру, позволяющую пользователям определить и получить доступ к данным относительно другого фрагмента данных в базе данных, часто используется для организации и управления большим объемом данных.
- Report (Отчет): Документ, который визуально передает результаты анализа данных. Отчеты часто включают графики, диаграммы, таблицы и текст, чтобы передать информацию и выводы, полученные из данных. Они могут быть интерактивными или статическими и служат важным инструментом для принятия решений, чтобы понять деловую производительность, тренды и области, требующие внимания.
- Row (Строка): Запись в таблице базы данных.
S
- Sample (Пример): Подмножество отдельных лиц или данных из статистической генеральной совокупности.
- Schema (Схема): Блупринт или структура, которая представляет логическую конфигурацию базы данных. Он определяет, как организованы данные и как обрабатываются отношения между данными. Схемы используются для отображения структуры данных и определения ограничений на данные, обеспечивая точность и надежность данных в базе данных.
- Segmentation (Сегментация): Процесс разделения большой единицы на более мелкие сегменты.
- SQL (Structured Query Language) (Язык структурированных запросов): Язык, специфичный для предметной области, используемый для управления и манипулирования реляционными базами данных, включая запрос данных, обновление данных, вставку данных и удаление данных из базы данных.
- Self-Service BI (Самообслуживание BI): Это форма бизнес-аналитики, где конечные пользователи могут создавать свои собственные отчеты и панели управления без технической помощи. Инструменты самообслуживания BI разработаны с учетом удобства использования, позволяя людям без технической экспертизы визуализировать и анализировать данные, тем самым помогая им принимать обоснованные бизнес-решения.
- Slice and Dice (Разрезать и нарезать): Возможность разбить набор данных на более мелкие части и рассмотреть его с разных углов и уровней детализации. Этот процесс помогает пользователям анализировать различные измерения данных для извлечения значимых инсайтов. Пользователи могут "разрезать" данные, чтобы просмотреть подмножество, и "расщеплять" данные для анализа разными способами.
- Sentiment Analysis (Анализ тональности): Техника, используемая для определения отношения, мнения или выраженных чувств в тексте, является основополагающей для мониторинга социальных медиа, обзоров продуктов и обслуживания клиентов.
- Snowflake Schema (Снежинка схема): Расширение звездной схемы, используемой в хранилище данных, где связанные таблицы измерений нормализованы, что приводит к структуре, занимающей меньше места на диске и выглядящей как снежинка.
- Star Schema (Звездная схема): Тип схемы базы данных в хранилище данных, где центральная факт-таблица связана с одной или несколькими таблицами измерений с использованием внешних ключей. Она напоминает звезду, с факт-таблицей в центре и таблицами измерений, исходящими из нее.
- Statistical Analysis (Статистический анализ): Сбор и интерпретация данных с целью выявления скрытых закономерностей.
- Stored Procedure (SPL) (Хранимая процедура): Предварительно скомпилированная коллекция одного или нескольких операторов SQL и, при необходимости, операторов управления потоком. Они хранятся под определенным именем и выполняются на сервере базы данных. Хранимые процедуры могут быть вызваны триггерами, другими хранимыми процедурами или приложениями и используются для различных задач, включая проверку данных, контроль доступа и улучшение производительности.
- Structured Data (Структурированные данные): Данные, которые соответствуют заранее определенной модели данных и, следовательно, просты для анализа.
- Supervised Learning ( контролируемое обучение): Тип машинного обучения, где алгоритм обучается на размеченном наборе данных, что означает, что каждый обучающий пример связан с выходной меткой.
- Surrogate Key (Замещающий ключ): Уникальный идентификатор для сущности в моделируемом мире или объекта в базе данных. Он является системно-сгенерированным искусственным ключом, не происходящим от данных приложения. Замещающие ключи часто используются в качестве первичного ключа в таблице, выступая как замена естественных ключей, которые неудобны или имеют другие проблемы.
- System Performance (Системная производительность): Эффективность и эффективность вычислительной системы в обработке и анализе данных для генерации необходимых исследований и отчетов. В контексте аналитики данных и бизнес-интеллекта она включает в себя несколько аспектов, включая производительность запросов, скорость загрузки данных, эффективность трансформации данных и отзывчивость инструментов визуализации данных и отчетов. Оптимизация производительности системы является важной для обеспечения возможности работы с большими наборами данных и сложными анализами вовремя, предоставляя пользователям необходимые исследования без лишних задержек. Производительность может быть повлияна техническими характеристиками оборудования, архитектурой системы, конструкцией базы данных и эффективностью алгоритмов, используемых для обработки и анализа данных.
T
- Table (Таблица): Структура, которая организует данные в строки и столбцы.
- Table Joins (Таблицы соединений): Метод в SQL для извлечения данных из двух или более таблиц на основе связанных столбцов между ними. Типы включают INNER JOIN, LEFT JOIN, RIGHT JOIN и FULL JOIN..
- Tabular Models (Табличные модели): Тип модели данных, используемой в анализе, особенно с помощью служб анализа Microsoft, который эффективен для запросов и предлагает быструю производительность при огромных объемах данных.
- Transaction (Транзакция): Последовательность запросов, которая представляет собой логическую единицу работы.
- Time Series Data (Временные ряды данных): Серия данных, индексированных, перечисленных или изображенных графиком в порядке времени. Она часто используется для отслеживания изменений во времени, например, мониторинга цен на акции или отслеживания данных о продажах.
- Training Data (Обучающие данные): Датасет, использованный для обучения модели машинного обучения. Обучающие данные помогают модели понять и выучить взаимосвязи между данными.
U
- Unique Key (Уникальный ключ): Набор одного или нескольких атрибутов, которые уникально идентифицируют каждую запись в таблице базы данных. Похоже на первичный ключ, но таблицы могут иметь несколько уникальных ключей, но только один первичный ключ. Ограничение уникального ключа гарантирует, что все значения в указанных столбцах уникальны в пределах таблицы. Каждый уникальный ключ соответствует определенной записи, и две записи не могут иметь одинаковое значение уникального ключа.
- Unstructured Data (Неструктурированные данные): Информация, которая либо не имеет предопределенной модели данных, либо не организована по предопределенному образцу. Включает в себя форматы, такие как текст, изображения и видео.
- Unsupervised Learning (Обучение без присмотра): Тип машинного обучения, где алгоритму предоставляются данные без явных инструкций о том, что с ними делать. Система пытается изучить закономерности и структуру данных.
V
- Variable (Переменная): Характеристика или атрибут, который может принимать различные значения. В анализе данных и машинном обучении переменные могут быть классифицированы как зависимые (целевые) или независимые (функции).
- View (Вид): Виртуальная таблица, которая представляет результат выполнения запроса SELECT.
- Visualization (Визуализация): Представление данных в графическом или наглядном формате. Инструменты и техники визуализации помогают аналитикам понять сложные наборы данных, располагая данные в визуальном контексте.
W
- Web Analytics (веб-аналитика): Процесс анализа поведения посетителей на веб-сайте. Он помогает привлечь больше посетителей, удерживать или привлекать новых клиентов, а также увеличивать сумму, которую каждый клиент тратит.
X
- XML (eXtensible Markup Language) (Расширяемый язык разметки): Язык разметки, разработанный для хранения и передачи данных. Он использует теги для определения элементов внутри данных, что делает его одновременно читаемым для человека и машин.
Z
- Z-Score (Z-Счет): Статистическое измерение, описывающее отношение значения к среднему значению группы значений. Измеряется в терминах стандартных отклонений от среднего значения, помогает определить выбросы в данных.
Угостить меня кофе — это щедрый способ сказать спасибо. Это никогда не требуется, но всегда ценится.
Изучите Power BI, изучая отчеты из реального мира
Загрузите бесплатные файлы отчетов PBIX, используемые в реальных ситуациях, и измените их под свои собственные проекты и отчеты.
Directory Listing Report
This PBIX file shows what is possible using Power BI various Map Visuals (Map, Filled Map and ESRI ArcGIS). The data was taken from a listing on Microsoft website, transformed and built to allow for Geo grouping, filtering and price comparison.
Demystifying Business Intelligence
This Book will introduce the reader to the world of Business Intelligence, what is it and what are its uses. In the book we explain in detail the various components that make up a BI solution for any size of business and professionals.

