2ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

全世界の会話とか文字をHDDに保存してみる

1 :1:03/10/21 17:05 ID:fjQu2efd

ふと思った。

全世界で流れてる一日の会話とか文字情報・・・など(映像・画像は含まず)
文字化できるものを全てテキストにしたら、どれくらいの容量になるの?
ってことを議論してみたいです。


細かいことは考えてないけど、ルールは以下の通り。

@窓に標準装備されてるメモ帳とかを使うと仮定してみる。(これは変えてもイイです)

A圧縮とかは考えないで生で保存すると仮定します。

B国際規格では容量の単位は、G(ギガ)→P(ペタ)→エクサ(E)→ゼッタ(Z)→ヨッタ(Y)・・・となっております。
K  Kilo  キロ  210 = 1,024倍
M Mega  メガ  220 = 1,048,576倍
G  Giga  ギガ  230 = 1,073,741,824倍
T  Tera  テラ  240 = 1,099,511,627,776倍
P  Peta  ペタ  250 = 1,125,899,906,842,624倍
E  Exa  エクサ 260 = 1,152,921,504,606,846,976倍

・・・ZとYは計算機の桁が足りなかった!ヽ(`Д´)ノウワーン

C各単位は1024倍で移行します。(計算がまんどくさかったら1000でもいいですね)

Dヨッタ(Y)以降の単位は存在しないそうなので,必要に応じて新しい単位を考えよう!


2 :不明なデバイスさん:03/10/21 17:14 ID:8j4cbrVn
おまえ、阿呆だろ?

3 :不明なデバイスさん:03/10/21 17:15 ID:4gDpiTaS
3だったら2年になれる

4 :1:03/10/21 17:15 ID:fjQu2efd
アホウだけど真面目に考えてみたい。

5 :不明なデバイスさん:03/10/21 17:22 ID:8j4cbrVn
>>4
> 全世界で流れてる一日の会話とか文字情報・・・など
まず、身近なスケール(モデル?)としてお前とお前の家族だけに限定してやってみろ。
それがちゃんとできてから、徐々にスケールを大きくしていけばいいんじゃねーの?

6 :不明なデバイスさん:03/10/21 17:37 ID:4gDpiTaS
ひとまず国会図書館にあるすべての蔵書をテキスト化するのを考えるのはどうだろうか

7 :不明なデバイスさん:03/10/21 17:50 ID:w5ISMFLD
FDって、朝刊一つ(一部)の文字を丸ごと入れられる容量だよね?
ってことは、一日の生活内での会話は、およそFDD一枚分かな?

8 :不明なデバイスさん:03/10/21 18:24 ID:FRRsNkdA
今日、まだ一言もしゃべってない…

9 : :03/10/21 18:32 ID:bhbkVicX
>>7
おまえ、阿呆だろ?

10 :不明なデバイスさん:03/10/21 19:22 ID:w5ISMFLD
>>9
如何にも

11 :不明なデバイスさん:03/10/21 20:10 ID:STNR/t54
> A圧縮とかは考えないで生で保存すると仮定します。

.thc使えば楽なんだが。

12 :1:03/10/21 21:05 ID:fjQu2efd
>>5
家族同士の会話なんて、普遍性がなさ過ぎてサンプルにならないっすよー。

でも一応、考えてみると・・・4人家族の場合、自分がaだとし、
b,c,dとは各10分話すとする。
組み合わせ的には
a-b a-c a-d b-c b-d c-dの六通りなので、一日に家族内で流通する会話時間は総計1hになる。(ホントか?w)

(うちの家族は複数人でごちゃまぜで話すことがないので,1:1の会話だけで計算しちゃいました)
話す量は平均60w/mとして計算すると、60*60で3600words。
平均単語文字数が4字とすると、3600*4で14400文字となる。(ホントかなー)

・・・で,これの容量ってどれくらいですかねw


>>11
圧縮を考えてしまうと、せっかく大きな容量になって面白くなってきたところに水を差すようなものなので・・・・
と言ってみるテスト

13 :不明なデバイスさん:03/10/21 22:00 ID:5rjJA5Ci
>>12
14400文字なら、約28KB。
おまえが日本語で家族と会話してるならな。



14 :不明なデバイスさん:03/10/21 22:19 ID:GX4M6GXa
トンパ文字はテキストですか画像ですか?

15 :1:03/10/22 00:44 ID:FwdV/Zoo
>>13

28kにしかならないのですか!
・・・って・・・みなさん退屈ですか?w

16 :1:03/10/22 07:41 ID:FwdV/Zoo
寄せageしてみる

17 :不明なデバイスさん:03/10/22 12:23 ID:Evk/pv5y
>>15
だってお前が明確な方針を示さないんだもん。

言葉にならないようなうなり声とかはどうするとか、
しゃべってるのは全てひらがななのか、それとも漢字混じってるのか、
句読点はどうするのか、とか確実に決めてくれ。
あと、「あー」って6秒間続けて発声した場合はどうするとか。

18 :1:03/10/22 17:01 ID:FwdV/Zoo
>>17
アドバイスありがd!+指針がなくてスマソ・・・ということで考えますた。


★唸り声(ばぶーとか?)や句読点は、無視!の方向で。
人によって句読点を打つ位置が違うだろうし。

★「あー」とか「まあ」とかを話す中に入れる人が結構いると思うので、
会話の文字数が決定した時点で,×1.05倍くらいにすれば丁度補えるかと思います。

他に考えるべきことありますか?


最初はとりあえず、日本の中に限定して考えてみたいと思います。
で、方法としては三つ考えてみましたー。

@単純に四人家族の文字数をカウントして、それを3000万倍する・・・(これはかなり大雑把な数字になるかと思われ)

本文が長いので、以下続く・・・。


19 :1:03/10/22 17:03 ID:FwdV/Zoo
続きage

A以下の5歳階級別人口推計表を使って、各階級ごとの文字数をカウントして、積する。
総務省の平成15年9月1日現在 (概算値)の年齢(5歳階級)、男女別推計人口。(HP;ttp://www.stat.go.jp/data/jinsui/200309/zuhyou/05k2-1.xlsより抜粋)
一応男女別を載せたのは、男と女で会話量が違うかなあと思ったからです。

years old--Total----male----female
        12761  6229    6532
0〜4     582   299     284
5 〜 9    598   306     292
10 〜 14   613   314     299
15 〜 19   700   359     341
20 〜 24   784   402     383
25 〜 29   914   464     450
30 〜 34   969   489     480
35 〜 39   845   425     419
40 〜 44   785   395     390
45 〜 49   793   398     396
50 〜 54   1006   501     505
55 〜 59   915   451     464
60 〜 64   827   401     426
65 〜 69   742   352     390
70 〜 74   636   290     346
75 〜 79   488   205     283
80 〜 84   301   103     197
85歳以上   262   75      187

B幼稚園〜大学生、社会人、老後・・・という形で準拠集団で区切ってみる(フリーターとかをどうカウントするかが問題となります)

という形で日本の一日の文字数をカウントするというのは、どうでしょうか。他にいい案があったら提案キボンヌ(・∀・)
とりあえずは日本限定で、追々開発途上国とかのケースを考えてみたいと思います。


20 :不明なデバイスさん:03/10/22 17:47 ID:3LEdgaYU
家族と話すより外で話す時間の法が長いのが普通じゃないのか。



21 :不明なデバイスさん:03/10/22 18:29 ID:FwdV/Zoo
>>20

そう思います。
なので、僕はAで少しずつ考えていければ・・・と思ってます。
大体、30歳の人がどれくらい会社で話してるのか学生の僕には想像がつきませんし。

22 :不明なデバイスさん:03/10/23 02:10 ID:7DEH1RET
なんだこのスレw

23 :不明なデバイスさん:03/10/23 02:26 ID:phgqW5IW
鳥ビアにでも出せよ(w


24 :1:03/10/23 04:52 ID:7DEH1RET
>>23
トリビアに出せるようなネタではないと思うのですが・・・(・∀・;)

とりあえず、各階級(5歳刻み)でカウントしてみたいと思いますが、
各階級のヒトいますかね?
僕は20〜24歳の会話量なら把握できます。

他の階級に属しているヒトいませんか?
その人の意見を参考にしたいと思います(・∀・)

25 :不明なデバイスさん:03/10/23 04:53 ID:7DEH1RET
お,初めて全部大文字IDだ!ヤター!

26 :1:03/10/23 08:18 ID:7DEH1RET
寄せageだ(゚ロ゚)モルァ!!

27 :不明なデバイスさん:03/10/23 09:15 ID:ORA5LzWs
無意味。

28 :不明なデバイスさん:03/10/23 09:21 ID:ORA5LzWs
まあ日本国内だったら大体10Gbyte前後だけどね。

29 :目ξ*^-^)ニコ ◆uCJFNeBbRk :03/10/23 15:11 ID:RV/7N2eO
面白そうだね。。。。

30 :1:03/10/23 18:12 ID:7DEH1RET
>>28
おお!いきなり具体的な数字が!
10Gの根拠とは??

>>29
29さんの階級の会話量を示してもらえるとうれしいです♪

31 :1:03/10/24 07:23 ID:bWLQsBJ+
内容のせいか・・・固定住人がオイラだけ・・・( ´・ω・`)ショボーン

32 :不明なデバイスさん:03/10/24 11:40 ID:+t1lTt83
めんどくさいので全人類100億人いるとする 10^10
めんどくさいので全員が英語をしゃべり、24時間
しゃべりつづけ、しゃべる速度は 200 words/minとする。
めんどくさいので1単語の長さを 10 bytesとする。

以上かなり多めに見つもって毎分20TBytes必要。だけど収集する
方法がないので超無意味。終了

33 :不明なデバイスさん:03/10/25 00:21 ID:VfRUMld3
ちょっとおもしろそう。
会話量ネットで流れているものではなく実際の会話のことなんだね。
だとするとアテがないよなぁ。あまりにおおざっぱすぎて。

34 :不明なデバイスさん:03/10/25 00:31 ID:VfRUMld3
とりあえず学生なら講義の内容を録音して文字に起こしてみてよ。
一時限だけでいいからさ。
接客、営業だとだいたい同じくらいかちょい少なめだろう。
年齢別に分けるより職種別に分けたほうがいいな。


35 :1:03/10/25 17:57 ID:z7L236XN
>>33
そうですー。
カウントしたいのは文字になっていない、会話量です。


>>34
大体数えてみたら、16000wordでした。
営業とか接客って分類は、なるほどーって思ったのですが、その職種が何人いるのか
ってカウントはなかなか難しいのでは?

36 :不明なデバイスさん:03/11/24 00:39 ID:SkHLgBfJ
せめて2chのログが一日どんくらいあるか考えろ

37 :不明なデバイスさん:03/11/24 01:30 ID:Gr8H1TDs
2chに来るやつの打鍵はしゃべるより速いはずだが

38 :不明なデバイスさん:03/11/28 06:37 ID:zaXHCiCL
>>37
思いこみだよ。

39 :不明なデバイスさん:03/12/15 23:40 ID:miM9iHtD
で,実際どうなのよ?わかんねーよ!とあげあげ!

40 :不明なデバイスさん:03/12/22 06:13 ID:hhNRQ4pe
わかるわけない。
しらける様なことを言うと、誰が喋ったかも記録しないといけないし
そもそも話し言葉は文字で文字で表せるようなものではない。
文学板住人の意見です。

41 :不明なデバイスさん:03/12/30 06:43 ID:3Gzxei0J
>>32で書かれてる量をアッパーとみて、その1/100〜1/1000ぐらい、
ということで結論にしたらどうか。

42 :不明なデバイスさん:04/01/30 08:40 ID:1d2rpHJr
藻前ら全然やる気ないですね

43 :不明なデバイスさん:04/01/30 10:35 ID:/OyjYHUs
これってどうせ>>1のレポートとか卒論のテーマで、このスレの内容は「自分はこう考えました」
みたいに取り込んでおしまい。
一種の釣りだよ。

44 :不明なデバイスさん:04/01/30 11:36 ID:LuhM4s7O
>>1は今必死で数えてるのかもしれない。

45 :不明なデバイスさん:04/02/03 00:55 ID:LtSgR7BY
>>28 の1日10GBってのは、
三沢基地の端末からエシュってみた結果ですよね?


46 :不明なデバイスさん:04/02/03 17:06 ID:TSRX3WL9
理系の人ってこんな阿呆なことばっか考えてるんすか?

47 :不明なデバイスさん:04/02/23 16:31 ID:AtBi+BtZ
>>46
いや、本来これは文系の仕事だ。
文系の連中がさぼりすぎ。つーか想像力なさすぎ。
方法論を持たずに夢だけ語る文系も寒いが、夢すら語らない文系は〜かたつむり。

48 :不明なデバイスさん:04/02/23 16:35 ID:4WGMkiRL
音声入力が便利だな

49 :不明なデバイスさん:04/02/23 17:35 ID:HJTGR0Vw
>>46
そういう発想が
「文系ツカエネ」
「文系イラネ」
の基となる。

50 :不明なデバイスさん:04/02/23 20:36 ID:bojOFi8b
>48のとおり音声入力端子を各人に持ってもらえばいい。
案外簡単かもしれない。
電話の盗聴システムを巨大にするようなものだ。
テキストベースではあるにしても、
人間の言語行動がかなりよく分かるだろう。
ただ、テレビの音がうるさいかも。

51 :不明なデバイスさん:04/03/09 18:59 ID:CWJr4DD9

話しそれるけど 大すぎて容量はわからん?
がこれらをたった1個で記録できる究極の高速メモリが将来できる
可能性がある

それはアトムメモリ(空飛ぶアトムじゃないよ)=原子メモリ
原子1個に1ビット記録する究極のメモリーテクノロジー

10cm3 の原子メモリーなら地球上の全会話を記録しても
余裕であまる

52 :不明なデバイスさん:04/03/10 12:27 ID:TtYV6Kgu
>>51
はいはい、知ったばかりの知識を披露できてうれしそうですね。

10cm立方の原子メモリーには大体何個の原子が入ってるの?
原子とかは適当に選んでいいよ。
と釣られてみる。

53 :不明なデバイスさん:04/04/14 14:16 ID:mzcP0FRY
引きこもりのおいらにはkakikomi.txtの容量より少なくて充分だな(-_-)

14 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.02.02 2014/06/23 Mango Mangüé ★
FOX ★ DSO(Dynamic Shared Object)