SH Blog

撵上一个时代

向量数据库

向量数据库相似性度量相似性搜索 K-Means Faiss Product Quantization (PQ) HNSW Locality Sensitive Hashing (LSH) 过滤 (Filtering) Pre-filtering Post-filtering References What is a Vector Database? ...

Posted by SH on July 12, 2023

Transformer-BERT-GPT

Transformer-BERT-GPT Transformer论文逐段精读：https://www.bilibili.com/video/BV1pu411o7BE BERT论文逐段精读：https://www.bilibili.com/video/BV1PL411M7eQ GPT，GPT-2，GPT-3 论文精读：https://www.bilibili.com/video/BV...

Posted by SH on June 24, 2023

TOUR - LaSa

青春没有售价，硬座直达拉萨。

Posted by SH on May 5, 2023

Spark DataSource 数据源

SparkSQL架构示例： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 == Logical Plan == Project [t1_c1#1, t1_c2#2] +- Filter (t1_c1#1 > 6) +- SubqueryAlias mysql_ttt_t1 +- ...

Posted by SH on May 14, 2022

数据质量-Griffin

整体架构引擎：Spark。支持批处理和流模式两种数据质量检测方式。在Griffin的架构中，主要分为Define、Measure和Analyze三个部分： Define：主要负责定义数据质量统计的维度，比如数据质量统计的时间跨度、统计的目标（源端和目标端的数据数量是否一致，数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等） Meas...

Posted by SH on April 18, 2022

Kerberos + Kafka

Kerberos + Kafka Kerberos是什么？ The Network Authentication Protocol Kerberos is a network authentication protocol. It is designed to provide strong authentication for client/server applicatio...

Posted by SH on October 9, 2021

分布式应用框架 Ray 基础

Ray ray-project/ray docs.ray.io Ray: A Distributed Framework for Emerging AI Applications 简介 Ray provides a simple, universal API for building distributed applications. Ray 是一个用于快速、...

Posted by SH on May 11, 2021

Hadoop-Yarn流程解析

Yarn流程解析介绍了Yarn的工作流程和一些总结具体步骤（1）作业提交 Client调用job.waitForCompletion方法，向整个集群提交MapReduce作业。 Client向RM申请一个作业id。 RM给Client返回该job资源的提交路径(hdfs://.../.staging/)和作业application_id。 Client在该...

Posted by SH on May 7, 2021

Hadoop-MapReduce流程解析

MapReduce流程解析介绍了MapReduce的详细流程和一些总结. MapTask流程图 ReduceTask流程图 Shuffer流程图具体步骤逻辑上可以这样划分：1-10是MapTask ；11-16是ReduceTask；7-14是shuffer 1. 待处理文本这里假设是/user/input目录下的ss.txt 文件，大小为200M。 2. 客户端submit...

Posted by SH on May 7, 2021

Hadoop-HDFS流程解析

Hadoop-HDFS流程解析 hdfs数据写入流程 hdfs数据读取流程 hdfs如何保证数据完整性 hdfs的块大小为什么默认是64mb(128mb) 1.HDFS写数据流程图具体步骤客户端调用DistributedFileSystem模块向NameNode请求上传文件，可以指定参数（dfs.replication:3；block.size:128...

Posted by SH on May 7, 2021