SH Blog

撵上一个时代

向量数据库

向量数据库 相似性度量 相似性搜索 K-Means Faiss Product Quantization (PQ) HNSW Locality Sensitive Hashing (LSH) 过滤 (Filtering) Pre-filtering Post-filtering References What is a Vector Database? ...

Transformer-BERT-GPT

Transformer-BERT-GPT Transformer论文逐段精读:https://www.bilibili.com/video/BV1pu411o7BE BERT论文逐段精读:https://www.bilibili.com/video/BV1PL411M7eQ GPT,GPT-2,GPT-3 论文精读:https://www.bilibili.com/video/BV...

TOUR - LaSa

青春没有售价,硬座直达拉萨。

Spark DataSource 数据源

SparkSQL架构 示例: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 == Logical Plan == Project [t1_c1#1, t1_c2#2] +- Filter (t1_c1#1 > 6) +- SubqueryAlias mysql_ttt_t1 +- ...

数据质量-Griffin

整体架构 引擎:Spark。 支持批处理和流模式两种数据质量检测方式。 在Griffin的架构中,主要分为Define、Measure和Analyze三个部分: Define:主要负责定义数据质量统计的维度,比如数据质量统计的时间跨度、统计的目标(源端和目标端的数据数量是否一致,数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等) Meas...

Kerberos + Kafka

Kerberos + Kafka Kerberos是什么? The Network Authentication Protocol Kerberos is a network authentication protocol. It is designed to provide strong authentication for client/server applicatio...

分布式应用框架 Ray 基础

Ray ray-project/ray docs.ray.io Ray: A Distributed Framework for Emerging AI Applications 简介 Ray provides a simple, universal API for building distributed applications. Ray 是一个用于快速、...

Hadoop-Yarn流程解析

Yarn流程解析 介绍了Yarn的工作流程和一些总结 具体步骤 (1)作业提交 Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 Client向RM申请一个作业id。 RM给Client返回该job资源的提交路径(hdfs://.../.staging/)和作业application_id。 Client在该...

Hadoop-MapReduce流程解析

MapReduce流程解析 介绍了MapReduce的详细流程和一些总结. MapTask流程图 ReduceTask流程图 Shuffer流程图 具体步骤 逻辑上可以这样划分:1-10是MapTask ;11-16是ReduceTask;7-14是shuffer 1. 待处理文本 这里假设是/user/input目录下的ss.txt 文件,大小为200M。 2. 客户端submit...

Hadoop-HDFS流程解析

Hadoop-HDFS流程解析 hdfs数据写入流程 hdfs数据读取流程 hdfs如何保证数据完整性 hdfs的块大小为什么默认是64mb(128mb) 1.HDFS写数据 流程图 具体步骤 客户端调用DistributedFileSystem模块向NameNode请求上传文件,可以指定参数(dfs.replication:3;block.size:128...