このようなテキストファイルは、エディタの限界に挑戦することができます。
大きなXMLファイルに目を通したいのですが、エディタがバグっていると無理です。
何か提案はありますか?
VS Code (Windows, macOS, Linux) - フリーでオープンソース、素敵なGUIを備えています。3.6 GB の JSON ファイルを編集、1 分でロード。ファイルを読み込むのに十分なRAMが必要です。
無料の読み取り専用ビューア。
tail
のGUI代替ツール。フリーのエディタです。
内蔵プログラム(インストール不要)。
MORE
のことで、Unixの more
のことではありません。ファイルを一度に1画面ずつ見ることができるコンソールプログラムです。ウェブビューア。
有料のエディタ。
最後に、その大きなファイルを普段使っているエディタで開いてみたことはありますか?いくつかのエディタは、実際にそれなりに大きなファイルを扱うことができます。特に、Notepad++(Windows)やSublime Text(Windows, macOS, Linux)は2GB台のファイルをサポートしています。
なぜ、(大きな)ファイルを見るだけなのにeditor*を使っているのですか?
nix や Cygwin では、less を使えばよいのです。(有名なことわざがあります - "less is more, more or less" - なぜなら "less" は以前の Unix コマンド "more" に取って代わり、スクロールバックできるという付加価値をつけたからです)。less での検索や移動は Vim と非常によく似ているが、スワップファイルがなく、 RAM もほとんど消費されない。
GNU less の Win32 への移植版もある。上記の答えの "less" のセクションを参照すること。
Perl は素早いスクリプトを書くのに適しており、 ..
(範囲フリップフロップ) 演算子は、あなたがかき分けなければならないゴミを制限するための良い選択メカニズムになります。
例えば
$ perl -n -e 'print if ( 1000000 .. 2000000)' humongo.txt | less
これは、100万行目から200万行目までのすべてを抽出し、 lessで出力を手動でふるいにかけることができるようにするものです。
もう一つの例。
$ perl -n -e 'print if ( /regex one/ .. /regex two/)' humongo.txt | less
これは、"正規表現1"が何かを見つけると印刷を開始し、"正規表現2"が興味深いブロックの終わりを見つけると印刷を停止するものです。複数のブロックが見つかるかもしれません。出力をふるいにかける...
これも使える便利なツールです。Wikipediaの記事]3を引用します。
logparserは、柔軟なコマンドラインユーティリティで、当初はMicrosoftの社員であるGabriele Giuseppiniによって、IISログのテストを自動化するために書かれたものであった。これは、Windowsオペレーティングシステムでの使用を目的としており、IIS 6.0リソースキットツールに含まれていました。logparserのデフォルトの動作は、データ処理パイプラインのように、コマンドラインからSQL式を受け取り、そのSQL式にマッチする行を出力します。
Logparserは、ログファイル、XMLファイル、CSVファイルなどのテキストベースのデータや、イベントログ、レジストリ、ファイルシステム、Active DirectoryなどのWindows OS上の主要なデータソースへのユニバーサルクエリーアクセスを提供する強力で汎用性の高いツールであるとマイクロソフトは説明しています。入力されたクエリの結果は、テキストベースの出力にカスタムフォーマットされるほか、SQL、SYSLOG、チャートなど、より専門的なターゲットに永続化することも可能です。
使用例
C:\>logparser.exe -i:textline -o:tsv "select Index, Text from 'c:\path\to\file.log' where line > 1000 and line < 2000"
C:\>logparser.exe -i:textline -o:tsv "select Index, Text from 'c:\path\to\file.log' where line like '%pattern%'"
100MB はそれほど大きくはない。3GBはちょっと大きいですね。私は以前、アメリカの第一種郵便物の約2%を作成する印刷・郵送施設で働いていました。私が技術リーダーを務めていたシステムの1つが、郵便物の約15%以上を占めていました。あちこちで大きなファイルをデバッグしていました。
ここにもっとツールや情報を自由に追加してください。この回答は、理由があってコミュニティ wiki になっています!私たちは皆、大量のデータを扱うのにもっとアドバイスが必要です...