クラウドETL
ETLとは?
ETL (Extract Transform Load) とはデータウェアハウス用語で、データの処理、変換、最終的な読み込みを示します。
ABBYY Timelineでは、ETLはユーザーが大小さまざまなファイルまたは複数のファイル、圧縮または解凍されたファイルをアップロードできる機能で、いったんアップロードされると、データベースのテーブルを参照するのと同じように、アップロードされたファイルを操作することができます。つまり、ユーザーはアップロードされたファイルを操作ができます。例:2つの列を1つに結合する、またはトリミングしたりします。データを変換後、ユーザーは変換されたテーブルを1つまたは複数のプロジェクトに読み込むことを選択できます。ETLは高度なビッグデータアップロードのための機能です。高度なと言われるのは、通常のファイルアップロードと異なり、タイプの検出を自動では実行せず、データからタイムラインが作成されないため、ユーザーはデータを理解する必要があります。ユーザーは圧縮ファイルまたはビッグデータファイルをアップロードして、その後、プロジェクト内のタイムラインを作成する前に未加工データ(アップロードされたデータ)を操作することができます。
リポジトリを開くには、左側のバーの アイコンをクリックします。リポジトリを開きます。複数のリポジトリがある場合は、必要なリポジトリをひとつ選択します。この操作を行うには、[ 詳細設定 > 全般] に移動し、[リポジトリ変更] をクリックして必要なリポジトリを選択します。
概要
リポジトリはプロジェクトに似ている抽象的なコンテナです。リポジトリ内でABBYY Timelineはテーブルを保持し、テーブルはユーザーがアップロードした1つまたは複数のデータファイルを表します。ユーザーは1つ以上のリポジトリを所有することができ、それぞれに複数のテーブルが存在する場合があります。また、リポジトリを切り替えることができ、プロジェクト同様に、1つのリポジトリに複数のユーザーを登録することもできます。リポジトリの所有者は、リポジトリで共同作業するようユーザーを招待することができます。
リポジトリテーブル
リポジトリテーブルはデータベーステーブルと同様の位置づけとなります。簡単な例として、ユーザーはCSVファイルをリポジトリにアップロードし、ABBYY TimelineはCSVファイルの内容のデータベーステーブルを作成します。このデータベーステーブルがリポジトリテーブルになります。
テーブルビュー
テーブルビューに切り替えるには、[リポジトリ] メニューの [テーブル] セクションをクリックして展開します。使用するテーブルを選択します。[追加操作] ボタンをクリックしてリストから操作を選択すると、各テーブルに異なる操作を追加できます。
操作を設定するには、必要なパラメーターを指定します。 操作の設定が完了したら、操作に関するプレビューで挙動を確認することができます。
プレビューの表示を選択すると、ABBYY Timelineは一時データテーブル上で操作を実行します。ユーザーは、元の未加工データテーブルを保持したまま、一時データテーブル(最大1000行)で確認できます。この操作は一時テーブルでの操作のプレビューを表示し、操作プレビューが行われた後でリセットされます。
操作
- 大文字小文字変換 - フィールド値を、大文字または小文字に変換。文字列の場合のみ。
- タイプ変更 - 選択したフィールドを、指定した型に変換。
- タイムスタンプ結合 - 分割された日付と時間フィールドからタイムスタンプフィールドを作成。
- タイムスタンプを作成 - フォーマット式を使用して、テキストフィール ドからタイムスタンプフィールドを作成。
- 日付増分 - DATEADD機能を使用して日付から日付部分の加算または日付から日付部分をの減算。
- 日付差分 - DATEDIFF機能を使用して2つの日付の差を計算し、新規フィールドを作成。
- 削除 - 全レコード、または設定基準によるレコードの削除。
- タイムラインでの削除 - 設定基準に基づきタイムラインを削除。
- カラムを削除 - 選択した列を削除
- 重複を削除 - 重複したレコートを削除。
- 抽出フィールド – 幾つかのフィールドや固定テキスト組合せて、新規フィールドを作成。
- 部分文字列の抽出 – 現在の部分文字列から部分文字列を抽出する。文字列のみ。
- 結合 - 親テーブルに別の(子)テーブルからフィールドを追加。
- プロジェクトにロード - タイムラインを新規または既存のプロジェクトに読み込む。
- 部分文字列を削除 - フィールド値から指定された部分文字列を削除。文字列の場合のみ。
- 部分文字列を置換 - 指定された部分文字列を別の部分文字列で置き換え。文字列の場合のみ。
- ラウンドタイムスタンプ - タイムスタンプフィールドを特定の単位(秒、分など)に丸める。
- 転置 - (複数のフィールド値を保持する)1レコード(列)を2つのレコード(列)に変換。
- トリミング - 左右の余分なスペースを削除
ETLのT(変換)の一部として、ユーザーはデータテーブルに対してさまざまな変換を実行できます。 よく利用する機能の一つとして、2つの列を1つの単一の列に連結する機能です。 たとえば、時刻のない日付のデータを含む列を、時刻を含む列と連結し、ABBYY Timelineで必須データフィールドであるDateTimeフィールドタイプを生成したりします。
ToDoリスト
ユーザーは、データテーブルで操作した後、その操作のシーケンスをToDoリストとして保存、後から同じファイルや同様の操作を必要とするようなその他のファイルで、再使用することができます。
データのアップロード
ユーザーは以下をアップロードできます:
- 1つのCSVファイル
- 圧縮された複数のCSVファイル(gzipをサポートする圧縮、ロードマップされたファイル)
- 圧縮された1つのCSVファイル
リポジトリセクション(詳細設定)
共有
リポジトリは任意の数のユーザーを登録でき、ユーザーは複数のリポジトリに属することができます。
プロジェクトでのユーザーの権限は以下のいずれかとなります:
- データ管理者 - データを表示し、新規データをアップロードできる
- 管理者 - データを表示し、新規データをアップロードし、他のユーザーを追加/削除し、他のユーザーの権限を変更できる(所有者を除く)
- 所有者 - プロジェクトを作成した人物。プロジェクトには1人の所有者しか存在できません。所有権は別のユーザーに移譲することができます。所有者には管理者のすべての権限があります。所有者が自分の役割を他の所有者に変更すると、リポジトリの所有権を譲渡するユーザーを指定するように求められます。
役割管理
所有者を除き、管理者または所有者は、他のユーザーを管理者にするか、管理者権限を削除することができます。 管理者は、各ユーザの役割ドロップダウンリストをクリックして、ユーザーの権限を変更します。
管理者は、メールアドレスを入力して[Enter]キーを実行すると、プロジェクトに別のユーザーを作成できます。 この場合:新規ユーザーは、[データ管理者]権限で作成されます。
ユーザーが既にABBYY Timelineのアカウントを所有している場合、新規プロジェクトへのアクセスに関する通知が送信されます。
ユーザーにアカウントがない場合、自動的に新しいアカウントを作成し、一時的なパスワードを記載したメールをユーザーに送信します。これは、ユーザーがパスワードを忘れ、回復するときと同じプロセスです。
履歴
ここに、リポジトリへのすべての変更のログが記録されます。これは、新規ユーザー登録、ユーザー削除、リポジトリからのテーブルの追加と削除がここに記録されます。
05.09.2024 16:23:55