大数据分析通常涉及对大量数据的收集、存储、处理和分析,以便从中提取有价值的信息。以下是一些常见的大数据分析公式汇总表:
1. 描述性统计分析公式:
- 均值(mean):Σ (x_i/N) / N
- 中位数(median):第(N+1)/2个值
- 众数(mode):出现次数最多的值
- 方差(variance):Σ (x_i - x_mean)^2 / N
- 标准差(standard deviation):√[Σ (x_i - x_mean)^2 / N]
2. 相关性分析公式:
- Pearson相关系数(correlation coefficient):r = Σ [(x_i - x_mean)(y_i - y_mean)] / √[Σ (x_i - x_mean)^2][Σ (y_i - y_mean)^2]
- Spearman秩相关系数(rank correlation coefficient):r = Σ [(x_i - x_mean)[y_i - y_mean]] / √[Σ (x_i - x_mean)^2][Σ (y_i - y_mean)^2]
3. 回归分析公式:
- 线性回归方程:y = a + bx
- 多元线性回归方程:y = b0 + b1x1 + b2x2 + ... + bnxp
- 逻辑回归方程:y = 1 / (1 + e^(-b0 - b1x1 + b2x2 + ... + bnxp))
4. 聚类分析公式:
- K-means聚类算法:X = UA + BH
-层次聚类算法:X = UA + BH + CJ
5. 主成分分析公式:
- Covariance矩阵:Σ [(x_i - μ_x)(y_i - μ_y)]
- Eigenvalues:λ = Σ [(x_i - μ_x)(y_i - μ_y)] / N
- Eigenvectors:V = A^-1 / λ
6. 时间序列分析公式:
- ARIMA模型:p,d,q(P,D,Q)
- SARIMA模型:p,d,q(P,D,Q),ε
- Exponential smoothing模型:α,β,γ,δ(α,β,γ,δ)
7. 文本挖掘公式:
- Tf-idf:tfidf = tf * log(N/df)
- Levenshtein距离:d = min(1 * |a - b| + 1 * levenshtein(a, b),其中a和b是两个字符串,levenshtein(a, b)是计算两个字符串之间的编辑距离)
8. 网络分析公式:
- 度数中心性:C(n) = outdegree(n) / indegree(n)
- 中介中心性:C(n) = (outdegree(n) * indegree(n)) / (outdegree(n) + indegree(n))
- 接近中心性:C(n) = indegree(n) / max(indegree(i))
9. 可视化分析公式:
- 柱状图:x轴表示类别,y轴表示数量
- 饼图:x轴表示类别,y轴表示百分比
- 散点图:x轴表示变量1,y轴表示变量2
- 热力图:颜色深浅表示数值大小
10. 预测分析公式:
- 线性回归预测:y = β0 + β1x1 + ... + βnxn
- 决策树预测:每个节点的分裂条件为某个特征的取值大于或等于某个阈值,最终输出分类结果
- 支持向量机预测:最大化间隔最大的超平面
这些公式只是大数据分析中的一部分,实际应用中需要根据具体问题选择合适的公式进行数据分析。