全面的数据分析与商业智能术语词汇表
欢迎来到我们专门致力于数据分析和商业智能(BI)领域的全面术语和概念词汇表。在数据的复杂领域中导航可能会令人畏惧,特别是随着新技术、方法和术语的不断涌现。无论您是学生、初级分析师、数据科学家、商业高管还是仅仅是一个好奇的学习者,这个词汇表旨在成为您的导航指南,通过清晰、简明的定义来照亮道路。
我们的词汇表作为一个动态资源,为从数据的基础要素到高级分析技术等各种术语提供明确和理解。每个术语都经过仔细解释,旨在提供一个平衡的观点,适合各种专业水平的读者阅读。在这里,你不仅可以找到定义,还可以找到提供真实世界应用上下文和相关性的简要解释。
开始你的学习之旅吧,带着信心,使用这个资源来解密数据分析和商业智能的术语和复杂性。将这个词汇表作为参考、学习辅助工具,或者作为在专业环境中促进沟通的工具。深入探索,提升你对数据语言的知识和理解吧!
A
- Algorithm (算法): 一组用于解决问题的规则或过程。在数据分析中,算法被用于分析和处理数据,以提取有价值的洞察。
- Analytics (分析): 数据分析是一门科学,通过检查数据来得出结论并支持决策。它涉及收集、处理和分析大量数据集,以揭示模式和趋势。
- Anomaly Detection (异常检测): 实体的属性或特征。属性保存描述实体的数据。
- API (Application Programming Interface) (应用程序编程接口): 一组规则,允许不同的软件实体相互通信。在数据分析中,API经常用于从外部服务或平台访问数据。
- Association (协会): 两个实体或对象之间的关系。
- Attribute (属性): 实体的属性或特征。属性保存描述实体的数据。
- Augmented Analytics (增强分析): 通过使用机器学习和人工智能等先进技术来自动化数据准备、洞察发现和分享。它增强了人类的智能,使分析过程更快速、更易于为非专家所理解。
B
- BI (Business Intelligence) (业务智能): 一个以技术驱动的过程,分析数据并提供可操作的信息,帮助高管、经理和其他企业终端用户做出明智的商业决策。
- Business Analytics (商务分析): 一个商业智能的子集,商业分析侧重于统计分析和利用商业数据来预测和改善商业绩效。
- Big Data (# 大数据): 非常大的数据集,可以分析出其中的模式、趋势和关联。它还指的是那些太大或太复杂,传统的数据处理软件无法处理的大型数据集。大数据的特点是其容量、多样性和速度。
C
- Calculated Metric (计算度量): 从现有数据上进行数学计算得出的指标。它用于从可用数据中创建新的见解。
- Cardinality (概述): 描述两个实体或表之间的数值属性。
- Column (栏目): 在一张表中,一个列存储一个实体的单个属性的数据。
- CSV (Comma Separated Values) (逗号分隔值): 一个简单的文件格式,用于存储表格数据,例如电子表格或数据库。文件的每一行代表一个数据记录,每个记录由一个或多个由逗号分隔的字段组成。
- Composite Key (复合键): 主键由多个属性组成。
- Classification (分类): 一种有监督学习的类型,其目标是基于过去的观察来预测新实例的分类类别标签。
- Constraint (约束): 数据列上强制执行的规则,以保持其准确性和可靠性。
- Conceptual Model (概念模型): 系统内关系和实体的抽象表示。它着重于对系统的高层次理解,并为创建更详细的模型提供基础。概念模型有助于定义数据模型的结构和范围,作为设计数据库模式和实体之间关系的蓝图。
- Correlation (相关性): 统计量是描述两个变量之间关联的一种统计指标。
- Clustering (Cluster Analysis) (聚类(集群分析)): 一种用于将相似的数据点或项目进行分组的技术。它经常用于市场研究、模式识别和数据分析,以识别和利用数据中的模式。carr
D
- Database (数据库): 数据的结构化集合,可以轻松访问、管理和更新。
- Database Management System (DBMS) (数据库管理系统): 软件是指在计算机系统中处理数据的存储、检索和更新的工具。
- Data Cleansing (or Data Cleaning) (数据清洗(或数据清理)): 数据质量改进的过程中,需要识别和纠正(或删除)数据中的错误和不一致性。
- Data Dictionary (数据字典): 数据模型中对数据对象或项的描述集合。
- Data Exploration (数据探索): 数据探索是分析数据集以发现其主要特征并理解其结构、变量和值的初始过程。数据探索对于熟悉数据集、识别异常和检测模式或趋势至关重要。这个过程通常涉及使用可视化方法(图表、图形等)和描述性统计来总结数据集的主要特征。
- Data Lake (数据湖): 一个存储库,以其原生格式保存大量原始数据。数据湖允许存储和分析非结构化数据,这在传统数据库中是不可能的。
- Data Mart (数据集市): 数据仓库的一个子集,用于支持特定部门或功能的需求。
- Data Migration (数据迁移): 这是选择、准备、提取和转换数据,并将其永久地从一个计算机存储系统转移到另一个计算机存储系统的过程。当组织决定使用新的计算系统或应用程序时,这个过程通常是必需的。数据迁移对于确保数据准确、安全地转移,并在新系统中可访问和可操作非常重要。这个过程通常涉及数据清洗和添加新的数据结构。
- Data Mining (数据挖掘): 数据挖掘是一种通过检查大型数据库来生成新信息的实践。数据挖掘技术可以发现数据中那些通过传统分析方法可能无法察觉的模式和关系。
- Data Modeling (数据建模): 创建用于存储在数据库中的数据模型的过程。该过程涉及定义数据的连接、访问和存储方式。
- Data Science (数据科学): 跨学科领域利用科学方法、过程、算法和系统从结构化和非结构化数据中提取知识和见解。
- Data Source (数据源): 数据来源的位置。这可以是数据库、数据仓库、数据湖或通过API或其他方式访问的外部数据源。
- Data Transformation (数据转换): 数据从一种格式或结构转换为另一种的过程。通常包括数据清洗、聚合、增强和重新格式化。
- Data Type (数据类型): 属性中可以存储的数据类型包括整数、字符串、日期等。
- Data Walls (数据墙): 一个集成从一个或多个不同来源收集的数据的中央存储库。它将历史和当前数据存储在一个地方,并用于创建报告和数据分析。数据仓库是商业智能领域中必不可少的组成部分,可以检索和分析数据以支持决策过程。
- Data Warehouse (数据仓库): 一个集成从一个或多个不同来源收集的数据的中央存储库。它将历史和当前数据存储在一个地方,并用于创建报告和数据分析。数据仓库是商业智能领域中必不可少的组成部分,可以检索和分析数据以支持决策过程。
- Decision Trees (决策树): 一种预测建模方法。决策树用于分类和回归任务,提供了一个图形化表示来展示决策过程。树的构建方式是根据输入变量的值将数据集分割成子集,最终得出预测的输出或决策。
- Descriptive Analytics (描述性分析): 这是数据处理的初始阶段,通过总结和可视化历史数据来识别模式、趋势和洞见。描述性分析帮助企业了解过去发生了什么,并分析绩效指标,为进一步的分析和决策提供坚实的基础。
- Dimension (DIM or DIMS) (尺寸): 一个将数据进行分类的结构。维度用于在数据仓库中切分和分析数据,提供了组织和分组数据的方法。例如,“时间”维度可能包括年、季度、月份和日期等层次结构。维度有助于以多种方式分析数据,并且对于创建有意义的报告至关重要。
- Dimensionality Reduction (降维): 这是数据分析和机器学习中用于减少数据集中输入变量数量的一种技术。当处理具有大量变量(高维度)的数据集时,降维是必不可少的,它有助于减少计算复杂度,减轻过拟合的风险,并提高模型性能。
- Drill-Down (钻取): 数据探索和可视化的过程是在更详细的层次上进行的。用户从高级数据开始,然后通过聚焦特定元素来导航到更细粒度的数据。钻取功能在仪表板和报告中至关重要,帮助分析师和决策者了解总结数据背后的细节。
- Dashboard (仪表板): 可视化界面以易读的方式展示数据,通常使用图表和图形。仪表板常用于商业智能中展示关键绩效指标(KPI)。
E
- Entity (实体): 一个需要在数据库中表示的重要事物或对象。
- ETL (Extract, Transform, Load) (抽取、转换、加载): 一个过程,涉及将数据从一个或多个源复制到目标系统中,目标系统以与源不同的方式表示数据,或在不同的上下文中表示数据。
- Exploratory Data Analysis (EDA) (探索性数据分析): 一种分析数据集以总结其主要特征的方法,通常使用统计图形和其他数据可视化方法。
- Entity Relationship Diagram (ERD) (实体关系图): 一个实体及其相互关系的可视化呈现。
F
- Fact Table (事实表): 在星型或雪花模式中,事实表是包含定量数据(度量)和与维度表相关联的键的中心表。
- Feature Engineering (特征工程): 使用领域知识来创建使机器学习算法起作用的特征的过程。特征工程对于有效应用机器学习至关重要。
- Foreign Key (外键): 在表中,一个属性或一组属性指向另一个表的主键。
- Forecasting (预测): 进行基于历史数据的未来值预测的过程。这种技术在各个领域中使用,包括金融和天气预测。
G
- Grain (Granularity) (粒度): 数据库或数据集中存储的数据的详细程度或深度。具体而言,在数据仓库和商业智能领域,数据的粒度代表数据存储的最细级别。了解粒度对于有效的数据建模和分析至关重要,因为它影响数据的解释和使用方式。
- GUI (Graphical User Interface) (图形用户界面): 一种用户界面类型,允许用户通过图形图标和视觉指示器与软件进行交互,通常在数据分析工具中用于方便的导航和操作。
H
- Hierarchy (层次结构): 在数据建模中,层次结构是指一种有结构的项目排列方式,在这种方式中,项目被组织成层级,每个层级代表一定的粒度或细节程度。
- Histogram (直方图): 数据集分布的图形表示,通常以条形图形式呈现。它通过显示落在一定数值范围内的数据点数量,提供了对数值数据的视觉解释。
- Hadoop: 一个用于分布式存储和处理大型数据集的开源框架。Hadoop被设计成可从单个服务器扩展到数千台机器,每台机器都提供计算和存储功能。
I
- Index (索引): 一种数据结构,通过维护索引数据结构来提高数据库表上数据检索操作的速度,但需要额外的写入和存储空间。索引用于在访问数据库表时,根据搜索键快速定位数据记录,而无需每次都搜索数据库表中的每一行。可以使用一个或多个数据库表的列来创建索引,从而为快速随机查找和有效访问有序记录提供基础。
- Insights (见解): 从数据分析中得出的有价值的信息。洞察力通常揭示出对于商业战略和决策具有重要意义的趋势、模式或异常。
- IoT (Internet of Things) (物联网): 提到物联网(Internet of Things),指的是嵌有传感器和软件的物理设备网络,用于收集和交换数据。物联网产生大量的数据,可以进行分析以获取洞察。
- In-memory Computing (在内存计算): 一种将数据存储在系统的主要内存(而不是传统的磁盘驱动器)中以提高性能的技术,提供更快的数据检索和分析。
J
- JSON (JavaScript Object Notation) (JavaScript对象表示法): 一个轻量级的数据交换格式,易于人们阅读和编写,也易于机器解析和生成。它经常用于异步浏览器/服务器通信。
K
- K-Means (K均值): 一个将数据集划分为k个簇的算法。
- Key (键): 一个属性或一组属性,能够唯一标识一个实体的实例。
- KPI (Key Performance Indicator) (关键绩效指标): KPI(关键绩效指标)是衡量公司有效实现关键业务目标的可衡量值。组织利用KPI来评估其达到目标的成功程度。
L
- Linear Regression (线性回归): 用于模拟一个或多个自变量与一个因变量之间关系的统计方法。该方法假设变量之间的关系是线性的。
- Log Files (日志文件): 文件记录操作系统或其他软件运行时发生的事件,或通信软件中不同用户之间的消息。
- Logical Model (逻辑模型): 它代表着逻辑实体、属性和实体之间的关系。它提供了数据的概念视图,抽象出物理存储和实现细节。逻辑模型通常用作设计物理数据库的蓝图,并有助于理解数据应如何组织以及如何处理数据之间的关系。
- Lookup Table (查找表): 一个用来保存离散值的表格,可以用来表示或转换其他值。查找表经常在数据转换过程中使用,将源值映射到目标值。
M
- Machine Learning (ML) ( 机器学习): AI的一个子集,为系统提供了在没有明确编程的情况下自动学习和改进的能力。机器学习对于分析大量数据并进行数据驱动的预测或推荐至关重要。
- Measure (量度): 在数据分析中,度量是可以分析的可量化数据点或指标。度量通常是可以聚合的数值数据。
- Metric (公制): 用于跟踪和评估特定过程状态的可量化指标。在数据分析中,指标用于提供洞察,并为进一步分析奠定基础。
- Metadata: 关于其他数据的提供信息的数据。元数据总结了有关数据的基本信息,使得查找和处理特定数据实例更加容易。
- Multidimensional Analysis (多维分析): 分析处理涉及通过不同维度查看数据。它使用户能够从不同的角度分析数据并支持复杂的计算。
- Multidimensional Cubes (多维立方体): 在OLAP数据库中,这些是数据结构,允许对分析查询进行快速检索数据。每个维度代表不同的分析角度。
N
- Nested Queries (查询嵌套): SQL查询中,一个查询(内部查询)嵌套在另一个查询(外部查询)中。嵌套查询用于检索将作为条件进一步限制要检索的数据的主查询中使用的数据。
- Normalization (标准化): 数据库中用于减少冗余并提高数据完整性的一种过程,通过根据关系将属性分组到表中。
- NoSQL: 数据库系统的一类,提供了一种用于存储和检索数据的机制,该数据的建模方式不同于关系数据库中使用的表格关系。NoSQL在存储非结构化或半结构化数据方面特别有用。
O
- OLAP (Online Analytical Processing) (在线分析处理): 一种软件工具类别,允许用户从多个维度分析数据,支持复杂计算、趋势分析和复杂数据建模。
- OLAP Cube (OLAP 立方体): 一种支持实时事务型应用程序的数据处理类别。 OLTP系统通过快速查询处理和在多访问环境中维护数据完整性来进行优化。
- OLTP (Online Transaction Processing)(在线事务处理): 一种支持实时事务型应用程序的数据处理类别。 OLTP系统通过快速查询处理和在多访问环境中维护数据完整性来进行优化。
- Outlier (异常值): 在从总体中随机抽取的样本中,一个与其他值相距异常远的观察值。在数据分析中,识别异常值对于准确解释数据至关重要。
P
- Pattern Recognition (摘要): 数据模式或规律的识别和分类过程。在各种应用中都是非常重要的,包括数据挖掘、图像和语音分析以及统计学。
- Predictive Analytics (预测分析): 使用统计算法和机器学习技术来识别数据中的模式并预测未来的结果和趋势的技术。预测分析不会告诉未来会发生什么,而是提供一个估计。
- Predictive Modeling (预测建模): 使用统计数据来基于历史数据预测未来结果的方法。
- Prescriptive Analytics (预测分析): 不仅预测事情将会发生的时间,还提供解释和建议行动以从这些预测中获益。
- Primary Key (主键): 在表中用于记录的唯一标识符。
Q
- Quantitative Data (定量数据): 可以用数字进行测量和记录的数据。通常被收集用于统计分析,以帮助理解模式并进行预测。
- Query (查询): 请求从数据库中检索数据。使用查询来通过过滤特定的条件来查找特定的数据。
R
- R (Programming Language) (编程语言): 一个用于统计计算和图形的编程语言和自由软件环境。它广泛用于数据分析和可视化。
- Record (记录): 表中的一行,包含关于特定项目的数据。
- Referential Integrity (引用完整性): 确保数据库中表之间的关系保持一致。
- Regression Analysis (回归分析): 一套用于估计变量之间关系的统计过程。它有助于理解当任何一个自变量变化时,因变量的值如何变化。
- Relationship (关系): 描述了两个实体之间的互动方式。
- Relational Database (关系型数据库): 一种数据库类型,使用一种结构,允许用户在数据库中识别和访问与另一组数据相关的数据,通常用于组织和管理大量数据。
- Report (报告): 一个以视觉方式传达数据分析结果的文件。报告通常包括图形、图表、表格和叙述性文本,以传达从数据中获得的信息和洞见。它们可以是交互式的或静态的,并且它们是决策者理解业务绩效、趋势和需要关注的领域的重要工具。
- Row (行): 数据库表中的一条记录。
S
- Sample (样本): 一个由统计总体中的个体或数据点组成的子集。
- Schema (模式): 数据库的逻辑配置的蓝图或结构。它定义了数据的组织方式和数据之间的关系处理方式。模式用于绘制数据的结构,并定义数据的约束条件,确保数据库中的数据准确可靠。
- Segmentation (分词): 将一个大单元分成较小的段的过程。
- SQL (Structured Query Language) (结构化查询语言): 用于管理和操作关系数据库的领域特定语言,包括查询数据、更新数据、插入数据和从数据库中删除数据。
- Self-Service BI (自助式商业智能): 这是一种商业智能的形式,用户可以在没有技术支持的情况下创建自己的报告和仪表板。自助式商业智能工具被设计成易于使用,使没有技术专长的个人能够可视化和分析数据,从而使他们能够做出明智的商业决策。
- Slice and Dice (切割和切块): 能够将数据集拆分为较小的部分,并从不同的角度和详细程度进行分析。这个过程帮助用户分析数据的各个维度,提取有意义的见解。用户可以通过"切分"数据查看子集,并通过"切块"数据以不同的方式进行分析。
- Sentiment Analysis (情感分析): 一种用于确定文本中表达的态度、观点或情感的技术,对于社交媒体监测、产品评论和客户服务至关重要。
- Snowflake Schema (雪花模式): 扩展了数据仓库中使用的星型模式,其中相关的维度表被规范化,从而得到了一个使用更少磁盘空间的结构,看起来像一个雪花。
- Star Schema (星型模式): 在数据仓库中的一种数据库模式,其中一个中心事实表通过外键连接到一个或多个维度表。它类似于一个星星,事实表位于中心,维度表向外辐射。
- Statistical Analysis (统计分析): 数据的收集和解释,以揭示潜在的模式。.
- Stored Procedure (SPL) (存储过程): SQL的预编译语句集合,以及可选的流程控制语句。这些存储在一个名称下,并在数据库服务器上进行处理。存储过程可以被触发器、其他存储过程或应用程序调用,用于各种任务,包括数据验证、访问控制和性能改进。
- Structured Data (结构化数据): 遵循预定义数据模型的数据,因此容易进行分析。
- Supervised Learning (监督学习): 一种机器学习类型,算法在带有标签的数据集上进行训练,这意味着每个训练示例都与一个输出标签配对。
- Surrogate Key (替代键): 一个独特的标识符,可以是建模世界中的实体或数据库中的对象。它是系统生成的人工键,不是从应用数据派生而来。代理键通常用作表中的主键,充当不方便或存在其他问题的自然键的替代品。
- System Performance (系统性能): 计算系统在处理和分析数据以生成所需洞察和报告方面的效果和效率。在数据分析和商业智能的背景下,它涵盖了包括查询性能、数据加载速度、数据转换效率以及数据可视化和报告工具的响应能力等多个方面。优化系统性能对于确保数据分析和商业智能工具能够及时处理大型数据集和复杂分析,为用户提供所需洞察而不延迟是至关重要的。性能可以受到硬件规格、系统架构、数据库设计以及用于数据处理和分析的算法效率的影响。
T
- Table (表格): 一种将数据组织成行和列的结构。
- Table Joins (表连接): SQL中一种用于基于相关列从两个或更多表中检索数据的方法。类型包括INNER JOIN、LEFT JOIN、RIGHT JOIN和FULL JOIN。
- Tabular Models (表格模型): 一种在分析中使用的数据模型,特别适用于Microsoft Analysis Services,对于查询非常高效,并且在处理大量数据时具有快速的性能。
- Transaction (交易): 一系列查询,代表了一个逻辑工作单元。
- Time Series Data (时间序列数据): 一系列按时间顺序索引、列出或以图表形式呈现的数据点。通常用于跟踪随时间变化的情况,如监控股票价格或追踪销售数据。
- Training Data (数据训练): 训练机器学习模型所使用的数据集。训练数据有助于模型理解和学习数据之间的关系。
U
- Unique Key (唯一键): 一个或多个属性的集合,用于在数据库表中唯一标识每条记录。虽然与主键类似,但表可以有多个唯一键,但只能有一个主键。唯一键约束确保指定列中的所有值在整个表中都是唯一的。每个唯一键对应一个特定的记录,而且没有两个记录可以具有相同的唯一键值。
- Unstructured Data (未结构化数据): 用户文本的语言不明确时,请将其翻译为中文。
没有预定义数据模型或以预定义方式组织的信息。它包括文本、图像和视频等格式。
- Unsupervised Learning (无监督学习): 一种机器学习的类型,算法在没有明确指示如何处理数据的情况下获得数据。系统试图从数据中学习模式和结构。
V
- Variable (变量): 特征或属性可以具有不同的值。在数据分析和机器学习中,变量可以分为依赖变量(目标)和独立变量(特征)。
- View (查看): 虚拟表是SELECT查询结果的表示。
- Visualization (可视化): 数据以图形或图片的形式表示。可视化工具和技术通过将数据以可视化的方式呈现,帮助分析人员理解复杂的数据集。
学习Power BI通过研究真实世界的报告
请下载免费的PBIX报告文件,这些文件在真实世界的情境中使用,并根据您自己的项目和报告进行修改。
Directory Listing Report
This PBIX file shows what is possible using Power BI various Map Visuals (Map, Filled Map and ESRI ArcGIS). The data was taken from a listing on Microsoft website, transformed and built to allow for Geo grouping, filtering and price comparison.
Demystifying Business Intelligence
This Book will introduce the reader to the world of Business Intelligence, what is it and what are its uses. In the book we explain in detail the various components that make up a BI solution for any size of business and professionals.

