データ転送ミドルウェア勉強会に参加しました。#dtm_meetup

Posted by johtani on Tuesday, January 27, 2015

目次

データ転送ミドルウェア勉強会に参加しました。

以下は、テキトー自分メモです。

『バルクデータロードツール「Embulk」リリース 〜 fluentdの柔軟性と堅牢性をバルクでも』 トレジャーデータ 古橋貞之氏

スライド:未定

  • パラレルにデータをバルクロード、プラグインで

  • CSVデータとか、ロードするの辛いよね。パース失敗→書き換えてリトライ→パース失敗。。。さて、できたからcronで。。。また失敗

  • Fluentdはストリームデータを流すのはいいけど、すでにある大量データをロードするのがつらい。なので。

  • 名前はembarkにかけてembulk

  • コアはJava、プラグインはRuby

  • デモ。実行の仕方とプラグインの実装の仕方

  • プラグインはrunメソッドとinitializeを実装。runメソッドがスレッド実装される。

  • ロードマップ(いくつか未実装のもの)

  • コントリビューションの方法。

    • ブログとか、プラグイン書くとか、Windowsサポートとか、とか。
  • QA

    • Q:JSONだとスキーマフリーだけど?
    • A:Guessでスキーマを固定させたかった。
    • Q:なんでJava?
    • A:性能です。性能です。
    • Q:executorでいろんなところで動かせるという話ですが、どういうexecutorを考えてますか?
    • A:まずは、Hadoopでの実行。Yarnなどでタスクを投げるってもアリじゃないかと。
    • Q:できるできないがプラグインによってありそうだけど、embulk的には許容するか?
    • A:許容するしかないすね。

『世界で利用されるファイル転送ツールHULFT』セゾン情報システムズ HULFT事業部 庄司吉徳氏

  • 20年近い歴史あり

  • MFT=Managed file transfer

  • FTPだけだと、整合性の保証ととかジョブとの連携とかが足りない

  • QA

    • Q:クライアントとサーバのソフトに違いがないとの話でしたが、セキュアな環境でTCPポート開けないといけないとかありますが、どーやってますか?
    • A:エンタープライズのお客様は基本的に専用線を引くのであんまりきにする人はいないです。もちろん、専用のプロキシ製品もあります。

『Fluentd 2015 - v1に向けて -』トレジャーデータ 中川真宏氏

  • Fluentdのロードマップとか
  • v0.11は存在しないので、話にあげないで下さい。
  • v0.12(current stable)、FilterとLabelが導入された

『H2O - HTTPを、より便利に、より速く』ディー・エヌ・エー 奥一穂氏


comments powered by Disqus

See Also by Hugo


Related by prelims-cli