Data Engineering
-
カーディナリティ#Data Engineering あるカラムの値の集合の中に重複する値がどのくらいあるかの度合い。低いと重複が多く高いと重複が少ない。
-
ngram#Data Engineering MySQLに搭載されている全文検索向けの全文パーサー、日本語対応している。 FULLTEXT と合わせて指定しインデックスを生成する MySQL :: MySQL 8.0 リファレンスマニュアル :: 12.10.8 ngram 全文パーサー
-
MySQL
-
Apache/Kafka#Data Engineering イベントストリーミングプラットフォームのメッセージブローカーOSS イベントのPub/Sub、ストリーミングの保持を行う https://kafka.apache.org/documentation/#intro_streaming
-
リレーショナルデータベース#Data Engineering
-
Book/SRE サイトリライアビリティエンジニアリング
-
レポーティングデータベース#Martin Fowler #Data Engineering アプリケーションのドメインモデルに対応するテーブルとは別にレポート目的の中間テーブルを用意することで、レポートの関心を分離してテーブルに変更を加えることができる。 https://bliki-ja.github.io/ReportingDatabase
-
OLAPOnline Analytics Processing #Data Engineering データ分析を目的として多次元データを扱うシステムに対して用いられる言葉
-
AtlasとArgoCDでDBマイグレーションの仕組みを構築してみた#Blog #Data Engineering AtlasをベースとしてマイグレーションDockerイメージを、GitHub Actionsでビルド&パブリッシュ、Kubernetes Job上のArgo CDでのマイグレーションリリースまでを自動化する記事 https://tech-blog.rakus.co.jp/entry/20250526/dbmigration
-
SQLパフォーマンス詳解
-
Atlas
-
Testcontainers
-
マルチリーダーレプリケーション#Data Engineering レプリケーションの種別の一つ 複数のデータセンターにリーダーが存在する。リアルタイムの同時編集がイメージに近い。書き込みの衝突があった際に最終的に同じ値に収束させるような方法が取られる
-
Dynamoスタイル#Data Engineering DynamoDBによって流行したリーダーレスレプリケーションを実装したデータストアに用いられるスタイル名
-
ETLExtract transform load #Data Engineering ETL とは? - 抽出、変換、ロードの説明 - AWS
-
TiDB
-
リーダーレスレプリケーション#Data Engineering AmazonがDynamoシステムで利用し流行しDynamoスタイルと呼ばれる。 一部のノードが何らかの理由で利用できなくてもクオラムによって読み取りあるいは書き込みの正当性を判断する
-
k1LoW/tbls#Data Engineering #Documentation Go言語で書かれたデータベースドキュメント化ツール データベーススキーマを自動的にMarkdown形式で記録し、CI/CDパイプラインに統合可能 PostgreSQL、MySQL、BigQuery、Snowflakeなど多数のデータベースに対応し、差分検出(diff)、品質チェック(lint)、ドキュメント網羅率測定(coverage)などの機能を提供 https://github.com/k1LoW/tbls
-
Datadog/Database Monitoring#Observability #Data Engineering Datadog上でデータベースの詳細な可視性を提供する Explain Plansでは実行計画を容易に把握することができる 導入にはAPMの有効化が必須でありでクエリを呼んでいるサービスの内訳を可視化できる データベース モニタリング
-
データ指向アプリケーションデザイン
-
MapReduce#Data Engineering Unixのプロセスと同様の特徴を持つ分散ファイルシステム上のバッチ処理フレームワーク。 MapReduceジョブは以下の2つに分かれる Mapper 分散ファイルシステムの各レコードからキーと値のコレクションを抽出する Reducer mapperによって生成されたキーと値のコレクションからコレクションに対するイテレータとともに関数を適用し出力レコードを適用する HadoopのMapReduce実装ではHDFS(Hadoop Destributed File System)と呼ばれる分散ファイルシステムが用いられる
-
ACID#Data Engineering トランザクションが保証する安全性について以下の4つの頭文字を取ったもの 原子性(Atomicity) 一貫性(Consistency) 分離性(Isolation) 永続性(Durability)
-
レプリケーション#Data Engineering 書き込みまたは読み取りをリーダー、読み取りをフォロワーで行われ、リーダーへの書き込みがフォロワーに伝播される仕組みをレプリケーションと呼ぶ。 レプリケーションの方法として ステートメントベース write-aheadログ 等がある。 ステートメントベースはSQLをそのまま転送する形になるため副作用を持つ関数が返す結果にズレが生じる方法で、MySQL5.1以前に採用されていた。 write-aheadログはPostgreSQL,Oracleで使用されているが、ログが低レベルに記述されているため詳細実装と密になってしまう。 レプリケーションのトポロジーとしていくつかのパターンがある
-
PostgreSQL
-
メッセージブローカー#Data Engineering イベントストリーム処理において、Pub/Subの間に配置されイベントをキューイングする役割。 基本としてイベントをコンシューマーと1対1でやりとりし処理が完了したらイベントが削除される実装がある。 対しログベースのメッセージキューはコンシューマーと1対Nでやり取りし古いイベントのリプレイも可能である。 https://aws.amazon.com/jp/message-queue/
-
XSAM/otelsql#Observability #Programming #Data Engineering Goのdatabase/sqlパッケージにOpenTelemetry計装を追加するライブラリ トレースとメトリクスの両方をサポート PostgreSQL、MySQL、SQLiteなど、database/sqlドライバを持つ任意のDBに対応 https://github.com/XSAM/otelsql
-
OPTIMIZE TABLE#Data Engineering MySQLにおいてテーブルインデックスを再編成し最適化する命令 MySQL :: MySQL 8.0 リファレンスマニュアル :: 13.7.3.4 OPTIMIZE TABLE ステートメント
-
OLTPOnline Transactional Processing #Data Engineering ACIDを遵守し、高い可用性・信頼性を満たすべきシステムに対して用いられる言葉
-
モノリスからマイクロサービスへ
-
etcd
-
ORMObject-Relational Mapping #Data Engineering オブジェクト指向プログラミングアプリケーションとリレーショナルデータベース間のレイヤを抽象化するプロセス
-
Bツリー#Data Engineering Bツリーはデータベースを固定サイズのブロックあるいはページに分割する。固定サイズの空き容量がない状態で新しいキーが追加される場合、半分の領域が空いた2つのブロックに分割される。 このアルゴリズムはツリーバランスが保たれ、ツリーの深さも3ないし4レベルに収まることがほとんど。 また信頼性を高めるためにwrite-aheadログ(WAL)と呼ばれる書き込み内容の構造化データを追記して保持している。 Wikipedia
-
GraphQL
-
トランザクション分離レベル#Data Engineering ACIDのうち、I(Isolation)について言及するような分離性のレベル。 RDBMS間で共通して4つの分離レベルがあるが、分離レベルの命名が異なるケースがあり曖昧になっている。 Read Uncommitted コミットされていない未確定のデータを読み取るダーティリードが発生する Read Committed ダーティリード、ダーティライトが生じない Snapshot Isolation OracleではSERIALIZABLE、PostgreSQLやMySQLではRepeatable Readと呼ばれるため曖昧 読み取りスキュー(nonrepeatable read)が生じない、読み取りはロックを取らず常にトランザクション開始時のスナップショットを参照する スナップショットとして複数のバージョンを保持するためMVCC(multi-version concurrency controll)の手法が用いられる Serializable 書き込みスキュー(ファントム)が生じない、複数のレコードを跨いだ一貫性を保証する ユニーク制約によって書き込みスキューを防止できない際に必要となる 全てのトランザクションが直列で実行されるように振る舞うことで直列化可能と呼ばれる
-
DevOps capabilities/Database change management#Data Engineering DevOps capabilitiesの1つ、Fast Flowに分類される DORA | Capabilities: Database change management
-
Amazon/Athena#Data Engineering AWSのサーバーレスのインタラクティブな分析サービス、S3を中心に様々なデータソースを元にSQLでデータを抽出可能にする Amazon Athena とは - Amazon Athena
-
Amazon/DynamoDB#Data Engineering Amazonが提供するリーダーレスレプリケーションによるデータストア What is Amazon DynamoDB? - Amazon DynamoDB
-
Amazon/S3Simple Storage Service #Data Engineering AWSが提供するオブジェクトストレージサービス What is Amazon S3? - Amazon Simple Storage Service