2ちゃんねる★スマホ版★■掲示板に戻る■全部1-最新50

自然言語処理スレッド その4

1 :
デフォルトの名無しさん
2014/06/03(火) 05:40:00.54 ID:yefNLumx
前前スレ 自然言語処理スレッド その2
http://mimizun.com/log/2ch/tech/1173105287/
前スレ 自然言語処理スレッド その3
http://mimizun.com/log/2ch/tech/1235129481/

このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。
2 :
2014/06/04(水) 00:23:39.07 ID:qVJRsv3N
1乙
3 :
片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0
2014/06/06(金) 16:12:41.21 ID:dyn5MnFB
人工言語の構文解析ではたいていの場合、文法は固定されてるよね。
動的に解析する文法を変えたいときは、実行時にパーサジェネレータや
コンパイラを使わないといけないのか?
4 :
デフォルトの名無しさん
2014/06/09(月) 11:47:07.19 ID:PtiKDSQ8
研究職でもなければどうせ使い道ないのに
どいつもこいつもword2vec試しやがる
唯一金になりそうなのはparagraph vectorぐらいだな
5 :
デフォルトの名無しさん
2014/06/09(月) 15:08:04.19 ID:HHhmYyTe
ユージーン君はどんな技術つかってるの?
6 :
デフォルトの名無しさん
2014/06/09(月) 15:33:05.97 ID:PtiKDSQ8
仕事で使ってるのはbag-of-wordsかn-gramだよ
word2vec試しただけの糞記事書いてるカスは消えろ
7 :
デフォルトの名無しさん
2014/06/09(月) 17:49:36.60 ID:HHhmYyTe
人工知能の13歳の少年、チューリングテストに“合格”

英レディング大学は6月8日(現地時間)、アラン・チューリング博士没後60周年に当たる7日に同校が
英王立学会で開催した「Turing Test 2014」において、チューリングテストの初の合格者が出たと発表した。

合格したのはウクライナ在住の13歳の少年、ユージーン・グーツマンくんという設定のプログラム。
ユージーンくんは2001年にロシア人のウラジミール・ヴェセロフ氏(米国在住)、ウクライナ人の
ユージーン・デムチェンコ氏(ロシア在住)らが構築した。これまでも多数のチューリングテストイベントに
参加して改良を重ねられてきた。

チューリングテストは、「コンピュータの父」と呼ばれる20世紀の英数学者、アラン・チューリング博士が提案した、
人工知能を知的と呼べるかどうかを判断するためのテスト。人間が人工知能と対話して、
相手が人工知能か人間か判断できなければ、その人工知能は思考しているといえるというもの。
チューリング博士は、5分間のテストで人間の審判の30%をだませれば、人工知能は思考しているといえるとした
(Wikipediaより)。

今回のテストで、審査員の33%(審査員の人数は不明)がユージーンくんを人間だと判断した。

http://image.itmedia.co.jp/news/articles/1406/09/yu_turing.jpg
http://www.itmedia.co.jp/news/articles/1406/09/news049.html
8 :
デフォルトの名無しさん
2014/06/13(金) 22:56:37.05 ID:qhg9plHy
馬鹿
9 :
デフォルトの名無しさん
2014/06/14(土) 00:57:41.13 ID:O/sWuNjK
お前がなw
10 :
デフォルトの名無しさん
2014/06/14(土) 09:49:46.90 ID:C3RmOQgD
1. 言語の背景にある知識は書ききれないぐらい深い
つまりなにか抽象化した意味を記号化した瞬間に背景の実世界から離れてしまい,
人間がするような言語理解は記号化では不可能なように見受けられる.
2. 名詞や動詞の意味は組み合わせで理解されている
いわゆる「名詞の構造」や「動詞の構造」と独立して綺麗に書けない.
3. 自然言語処理システムは分野・タスク依存の情報が必要
クイズを解くならクイズの知識が必要.言語学だけの中立的知識だけではシステムはできない.
4. 汎用的な言語理解システムは難しいように見える
上記 3. と同様で分野依存の知識をいれて初めて使えるようになるので汎用は難しい.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/E6-2.pdf

代数学や幾何学などは、最も抽象的な集合のもとに理論を積み上げ、さらに、集合の元同士
の関係が複雑になることから、記述する手段として、文字や記号が頻繁に用いられる。もちろ
んその内容は抽象的であり、意味を理解するには、何かしらの具体例に置き換える必要がある。
ところがこのように抽象化が進んだ内容を、具体的にイメージし、その意味を理解することが
できない、あるいは、そもそも記号で書かれている一語一語の意味がまず読み取れない学生が
非常に多く、このことが大学の数学をわからなくする一つの重大な要因となっているのである。

http://satsuki.ex.osaka-kyoiku.ac.jp/~j129307/miyazaki2.pdf

Project Euler に公開されている問題は数百問であり, 以上によって得られる関数と仕様書の対も
同程度の量にしかならない. このため, 解いた問題に対してその問題の解法に含まれる部分問題を考え,
部分問題を解くコードも同様に作成するように指示した. 例えば「1000 未満の自然数で,
3 の倍数となるものの和を求める」という問題があった場合, 「1000 未満の自然数の集合を求める」
「ある自然数 x が3 の倍数であるかどうか調べる」「与えられた自然数の集合x に含まれる要素の総和を求める」
などが部分問題として考えられる.
http://www.phontron.com/paper/oda14nl05.pdf
11 :
デフォルトの名無しさん
2014/06/14(土) 10:04:31.11 ID:C3RmOQgD
人物の行動を簡単なパラメータで表現する場合,頭部の位置・姿勢に着目することは,
人物の位置や注視先を推定することを考慮すれば合理的といえる.本研究では,予め人物
頭部のサンプル画像を用意しておくことで,モデルベースの位置・姿勢推定を行い,ほぼ
実用的な精度で人物の移動経路を追跡することが可能であることを示した.
そして,その移動軌跡において一定の傾向を維持する区間に分割し,それぞれの区間
ごとに人物の姿勢や周辺の物体との相対的な位置関係などの意味素性を数値的に評価し,
合成することで,自然言語の事象概念との対応付けを行うという基本的な考え方を提案した.
これは従来のテンプレートによる自然言語生成と比較して,より拡張性の高い柔軟な手法であるといえる.
http://www.las.osakafu-u.ac.jp/~ark/publication/kojima-thesis.pdf

これまでの考察で明らかとなった「認める」の別義は、以下の通りである。
・別義1:<ある範囲に注意を払うことにより><対象を><捉え>
<(あらかじめ持っている)対象に関する知識と同定する>
・別義2:<外部の状況(他者の意見・指摘なども含む)を><妥当なものとして><受け入れる>
・別義3:<他者の能力や(能力の反映である)作品を><価値のあるものとして><受け入れる>
・別義4:<他者の未実現の行為を><妥当なものとして><受け入れる>
http://www.lang.nagoya-u.ac.jp/nichigen/issue/pdf/5/5-09.pdf

例えば、「引っ越す」という動詞の語彙概念構造は、次のように規定される。
「X が Y に引っ越す」→ <X オブジェクトが自分の住所アトリビュートの値を Y に変更する>
上記の規定により、「X が引っ越す」という場合、「X オブジェクトは可変の住所アトリビュートを持
たねばならない」ことが導かれる。これにより、組織も可変の住所アトリビュートを有するので、
組織も引っ越し可能であることが導かれる。これは、従来の意味論における意味役割の概念よりも
精密に述語(動詞等)と項(名詞等)の間の意味関係を規定できることを示している。
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B1-1.pdf
12 :
デフォルトの名無しさん
2014/06/14(土) 12:47:56.94 ID:2GCCkitO
サンプルコードあくしろよ
13 :
片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0
2014/06/14(土) 13:18:14.77 ID:TMbzloys
「ひらがな電卓」Windows用フリーソフト。

ひらがなで無量大数までの四則演算、分数計算、小数計算、ルート、
三角関数、余り、パーセント計算ができます!!!
http://katahiromz.web.fc2.com/calc-h/
14 :
デフォルトの名無しさん
2014/06/14(土) 14:59:25.78 ID:C3RmOQgD
例えば、こんな問題はいかがでしょうか。
ちなみにこれは昨日、ラジオで聞いた問題です。
「300円もって買い物に行きました。そして、100円のお菓子と
40円のお菓子と60円のお菓子を買いました。
おつりはいくらでしょう?」
という問題です。

これを聞いて100円と答える時、その思考は以下のようなものではないでしょうか。
300ー(100+40+60)=100

間違っていませんね。
買ったお菓子の合計は200円なので、300?200は100としているわけです。

これを、図を使って場面をイメージしてみるのです。

このようにお金が図として描ければ見えてきませんか。

そうなんです。
これはいわゆるクイズなので、実は・・・「おつりなし」が答えなんです。
300円持っていって、200円のお菓子を買ったところで、
200円を出すわけですから、おつりはありませんよね。

ずるい!という声が聞こえそうですが、
でも、これを「いや、おつりはないでしょ!?」と答えられるかどうかって
文章問題がイメージできているかという大切なところであると思うのです。
問題文を与えられて、見た数字だけで演算決定をしてしまうから間違えるのです。

http://mhidetoshi.exblog.jp/22011978
15 :
2014/06/14(土) 15:34:15.93 ID:h7hlzhCn
レジに一回だけ通したとは書いていないので、60円のお菓子の時に40円、
40円のお菓子の時に60円、都合100円のおつりを受け取ると言う解釈もあり得るね。

普通、子供にお使いに行かせるなら余裕を持ってお金を預けて
戻ってきたときに残額をおつりとして受け取る。なので、おつりが100円と言う答えもあり得る。
16 :
デフォルトの名無しさん
2014/06/14(土) 16:09:45.04 ID:C3RmOQgD
割り算というのは、実生活では特殊な演算だと思う。

今年入学した402人の小学1年生を10組に分けるとどうなるか。

402人を、できるかぎり等しい人数になるよう分けるなら、40人の組が8組、41人の組が2組。
(402÷10=40余り2、40人ずつ分けた後で、残りの2人を分ける)

でも他の場合を考えると(例えば「少なくとも十人以上」とか)、数え上げは難しいものとなろう。
17 :
デフォルトの名無しさん
2014/06/14(土) 16:20:00.41 ID:C3RmOQgD
>>15
>レジに一回だけ通したとは書いていないので、60円のお菓子の時に40円、
>40円のお菓子の時に60円、都合100円のおつりを受け取ると言う解釈もあり得るね。

それでも、(10円玉が30個で合計)300円もって買い物に行きました、だとおつりは0になる。
それから政府が新たに「300円玉」を発行したともなれば、話は別となろう。
18 :
2014/06/15(日) 13:44:13.39 ID:0Xbi4t4E
word2vecで使われてるhierarchical softmaxって
教師信号をハフマン符号にしただけ?
19 :
2014/06/15(日) 14:36:22.47 ID:0Xbi4t4E
そんな単純じゃなかったわ
https://gist.github.com/kokukuma/85bebedb0635485e4f5b
20 :
デフォルトの名無しさん
2014/06/15(日) 18:21:24.22 ID:r1yj7QX5
http://www.phontron.com/paper/oda14nl05.pdf

x1がx2で割り切れなくなるまでx1をx2で割り→x1がx2で割り切れなくなるまで(繰り返して)x1をx2で割り

(繰り返して)があれば、容易に「while文」に翻訳できる。

文脈から自動的に省略語を補って、翻訳しやすい形に自動変形するアルゴリズムも必要。
21 :
デフォルトの名無しさん
2014/06/16(月) 10:59:25.96 ID:4kD5cm9H
せいぜい機械的にできる処理って形態素解析くらいまでだろうな。形態素解析ならスパース表現でできそうだ。
めくらでも会話できるけど、音以外の五感がないわけではないし
22 :
デフォルトの名無しさん
2014/06/16(月) 11:07:05.33 ID:4kD5cm9H
形態素解析ができてから、回りの状況と自然言語の関係を照らしあわせて単語ごとに構文を学習する。
回りの状況はテキストだけじゃ表現が難しい
23 :
2014/06/16(月) 11:56:09.75 ID:xNeMvzgG
割り算・分数は、「平均」または「単位あたり」と理解されるべき概念と思う。「平均点」は数の総和を人数で割って得られた数。
「速度」は物体や波が単位時間あたりに動いた距離。
24 :
2014/06/16(月) 11:57:19.39 ID:xNeMvzgG
900 :デフォルトの名無しさん:2009/02/20(金) 20:46:21.00
「類似文検索システム」としては、名詞+助詞「の」+名詞+、のように文構造のパターンを網羅しておき、
目新しい文章が出た時に文構造パターン認知できるようにしておくとか。
例えば「身長の高い男が私の横を通り過ぎた」「髪の長い女が彼の手を握った」はいずれも、
名詞+助詞「の」+形容詞+名詞+助詞「が」+名詞+助詞「の」+名詞+助詞「を」+動詞。
25 :
デフォルトの名無しさん
2014/06/16(月) 13:00:19.74 ID:xNeMvzgG
(1) ◆新銀行4,1 の中身
(e4,2:ガ)13 (e4,3:ガ)14 十七日に大蔵省の銀行免許を取得、14 (e4,4:ガ)15 二月上旬までに 増資して15 (e4,5:
ガ)16 資本金を 四百億円とし、16 三月二十日をめどに、開業する。13
この点を考慮するために,参照表現の出現位置を人手で修正し,その結果に対して人手で参照表現を選択する.
ただし,任意の表現を許してしまうと問題が発散するため,今回の評価では「参照表現を省略する」「参照表現を主題化し
て明示的に記述する(つまり,助詞 “は” もしくは “には”をともなって表現する)」「主題化せずに明示的に記述する
(つまり,助詞 “が/を/に” をともなって表現する)」の 3 種類から選択してもらい,人手生成の傾向を分析する.

http://www.cl.cs.titech.ac.jp/~ryu-i/papers/NL206-15.pdf

(58) a. 学生が3人この鍵でドアを開けた
b. ?? 学生がこの鍵で3人ドアを開けた
(58a-b) は、遊離数量詞が、隣接する名詞句を修飾することを示す。12
(58b) では、「3人」と
「学生」が隣接していないため、意図された修飾関係が成立しない。この観察をふまえて、
Miyagawa (1989) は、(59) の文法性が非対格仮説の証拠となることを指摘する。
(59) ドアがこの鍵で3つ開いた
非対格仮説によれば、(59) の「開く」が非対格動詞であることから、「ドア」は、(60) に示
すように、目的語の位置で主題の役割を得た後に、主語の位置に移動する。

http://www.ic.nanzan-u.ac.jp/LINGUISTICS/staff/saito_mamoru/pdf/saito.2013.pdf

日本語の省略がわかる本 誰が?誰に?何を?
成山 重子 著 / 明治書院(810.7ナ)
日本語の特徴である省略を文化と文法から捉えた本。語らいの制約から省略
の順序の制約まで体系的に解説。文法が苦手な人や中級者以下の学習者のため
に「省略のインスタント文法」も収録。
https://www.ishikari-lib-unet.ocn.ne.jp/html/%E3%81%82%E3%81%8B%E3%81%9F%E3%81%BE72.pdf
26 :
デフォルトの名無しさん
2014/06/17(火) 11:34:59.62 ID:sceXYbna
(5)「意味されるもの」と「意味するもの」を分離することにより、この二つのそれぞれに適した表
現形式を独自に発展させることができる。「意味されるもの」の表現方法は、談話分析や語用論の研究成
果を取り入れることによってさらに発展させることが可能である。また、「意味するもの」の表現形式としては、
制限自然言語と RDF/OWL 以外にも様々なものを使用することができ、「意味されるもの」の内容に応じて最も
適した表現形式を選択することができる。様々な形式の情報を一体的に扱うシステムの開発も可能であろう。
http://sigswo.org/papers/SIG-SWO-A1303/SIG-SWO-A1303-04.pdf

h4i 前文脈の事態が後文脈の事態の前提となる : 「〜れば」のような条件節は前文脈の事態が後文脈の事態が成
立するための前提条件となる.この際,パタン中の名詞句が「こと」のような明確な事態を導入する表現の場合
であっても,「可能性」などの前文脈の事態にモダリティの情報を付与する表現であっても,同様に前提となる関
係を表すことになる.例えば,例 (9) では,「これ(=途上国向けの環境分野の援助)を引き上げる」ことが「事
態が改善する」ことの必要条件となっている.
(9) これを向こう5年間、30%台後半、5000億円程度に 引き上げることをすれば、事態は大きく 改善される。


http://www.cl.cs.titech.ac.jp/~ryu-i/papers/nlp2014_ryu-i_discrel.pdf

実際のところ"this"や"is"だけでもその意味は多数あり、文章が長くなるほど意味の組み合わせは多くなり、
「組み合わせの爆発」という現象が起きコンピュータは止まってしまう。さらに、40 代のドリフ世代にとって
"This is a pen."はまた別の意味がある。
http://ed-www.ed.okayama-u.ac.jp/~shinri/terasawa/files%5Cthinking_new_theory_of_thinkingV5.pdf
27 :
デフォルトの名無しさん
2014/06/19(木) 03:03:30.38 ID:xTtna/5L
「まわるまわるよ、時代は回る」
「 地球は回る、君を乗せて 」

上の二つの「回る」は、同じ意味ですか?
28 :
デフォルトの名無しさん
2014/06/19(木) 07:49:02.24 ID:66eAVPNK
>>27
>まわるまわるよ、時代は回る

「明治時代は栄光だったが、昭和時代は暗黒だった」(司馬遼太郎)というふうに、時代は回るという意味。

>地球は回る、君を乗せて

「地軸」を中心にして回転している、という意味。
29 :
デフォルトの名無しさん
2014/06/19(木) 11:47:01.23 ID:7DkBqMX+
>>28
>地球は回る

太陽の回りを公転して回っている、というのも有りだろ?
30 :
デフォルトの名無しさん
2014/06/20(金) 05:49:29.43 ID:408WaNYH
4.1.1 第 1 問
後半の問いに対して,点 P 自体を (x, y) として解くことはできなかったため,
点 P の像を (x, y) として命題を記述した.変数の導入方法には,試行錯誤が必要である.
4.1.2 第 2 問
知識 (e) を受験数学で学ぶことはないと思われるが,MaxValue[] や MinValue[] を利用するためには,
このような,プログラムではなく数式で表現するための知識が有用であろう.
知識 (f) を用いずに,面積を三角関数で記述したままでは,MaxValue[] や MinValue[] で最大値や最小値を
求めることはできなかった.三角関数を含む式に関する問題では,このような変数変換が有力なテクニックである.
 難問として有名な本問だが,数式処理システムを利用すれば,比較的簡単に解ける.しかしその解法は,
文献 [小島 89]などに掲載されているような,人間が手で解く方法とは大きく異なっている.
4.1.3 第 3 問
a についての 3 次方程式になることがわかって初めて知識(b) が利用できる.このように,具体的な方針を事前に決める
のが難しい場合がある.本手法における第 3 問の結論は図 1(a) だが,模範解答は図1(b) のように,曲線の式や交点の座標,
曲線自体や点自体を含むかどうかも描いたものになる.
4.1.4 第 4 問
Mathematica では,馬 i=1 x i−1 のような簡単な計算が,特殊な仮定(この場合は x ̸= 1)の下に行われる危険があること
を知っておかなければならない.Reduce[] の引数の {a, s, b} を {a, b, s} にすると解けない.変数の順番が大切である.
4.1.5 第 5 問
接平面を (x − 1) + ay + b(z − 1) = 0 の形で記述すると,計算時間は 68 秒から 3300 秒に,利用記憶容量は 21 MB から
230 MB に増加する.このように,得られる結果は同等でも,変数の導入方法によって計算時間は大きく異なる場合がある.
4.1.6 第 6 問
問題をそのまま定式化しても,現実的な時間では解けない.(a),(b) のような知識によって,計算量を減らす必要がある.
体積 f を,t の関数と u と v の関数に分けずに,MaxValue[]で最大値を求めることはできなかった.f を 2 つの部分に分
けられることは,解いている途中で初めてわかることである.
https://kaigi.org/jsai/webprogram/2014/pdf/768.pdf
31 :
デフォルトの名無しさん
2014/06/20(金) 16:45:06.34 ID:Egd9IXkN
7.3 数学モデルは現実世界と論理世界を結ぶ架け橋の一つ
 私は企業に勤務していた頃、いろいろな分野のプラントの制御システムの開発や動特性シミュレーション
に従事してきましたが、そこで数学モデルの有効性を痛感しました。
 それは、いったん数学モデルが作成できれば世界がまったく変わってしまうことです。現実世界では、
対象の挙動は構成、材料、形状や動作環境などいろいろな条件に左右され、それを大きく変えることは
物理的に難しいことが多く、我々の思考もそれに縛られることが多いのも事実です。
 数学モデルが生成できれば、論理世界に入ることができ、そこでは禁止されているのは論理的な矛盾だけです。
数学理論はもちろん、関連した数値解析、コンピュータ・グラフィックや種々の計画法が応用できます。
それにより、現実世界にとどまっている限り得られない新しいアイデアが出てくる可能性があります。
数学モデルは現実世界と論理世界を結ぶ架け橋となります。これを一般化すると、「モデルは現実世界
と仮想世界を結ぶ架け橋」と言えるかもしれません。
 ただ、論理世界で得られた結果を現実世界で実現するためには、それが現実世界で有効かまた実現可能
なものなのかを調べる必要があります。しかし、それは論理世界の中では不可能です。現実世界に戻すためには、
別の方法が必要です。それがシミュレーションです。数学モデルとシミュレーションにより、実践と理論の結合が図れるのです。
http://www.wind.sannet.ne.jp/masa-t/semioeng/modeling/modelasim/mas07/mas07.html
32 :
デフォルトの名無しさん
2014/06/23(月) 11:54:56.02 ID:wCGes4Or
(1) John,fired Dave,because he had too many absesces.(he=dave)
(1) John,fired Dave,because he had too many employees.(he=dave)
これら 2 文は,同一の文構造であり,違いは absences か,
employees のみである.he には John も Dave も入りうるため,
統語的な特徴および意味的な特徴は役に立たない.
ここで重要な手がかりとなるのは,「fire する側は従業員を抱える立場」
「欠勤が多い人は fired される」といった,事象間の関係知識である.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A5-2.pdf
33 :
デフォルトの名無しさん
2014/06/23(月) 17:07:41.81 ID:Z0nKY4vk
完全に形態素解析したいんだけどできない。
小野 名詞,固有名詞,人名,姓,*,*,小野,オノ,オノ
妹 名詞,一般,*,*,*,*,妹,イモウト,イモート
子 名詞,接尾,助数詞,*,*,*,子,シ,シ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
遣 動詞,自立,*,*,五段・ラ行,体言接続特殊2,遣る,ヤ,ヤ
隋 名詞,一般,*,*,*,*,隋,ズイ,ズイ
使 名詞,接尾,一般,*,*,*,使,シ,シ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS
になる。mecabで辞書パラメータ最小値にしたんだけど。
どうすればいいのだろうか
34 :
2014/06/23(月) 18:01:02.28 ID:qZVVaTos
小野妹子、
妹子、
遣隋使
の3語を登録する
35 :
デフォルトの名無しさん
2014/06/24(火) 00:30:04.82 ID:13L7pvDP
できない
36 :
デフォルトの名無しさん
2014/06/24(火) 00:45:44.58 ID:13L7pvDP
どうしても辞書登録が認識してくれない。徳川家康はできれば徳川+家康でなく徳川家康と認識
してほしいのだが確実にできる手だてはないのだろうか?
37 :
2014/06/24(火) 01:30:56.05 ID:1OnpMhpf
最長一致法
38 :
デフォルトの名無しさん
2014/06/24(火) 01:36:52.54 ID:13L7pvDP
mecabでどうするのかを知りたい。
39 :
2014/06/24(火) 08:21:43.05 ID:+csYm/QE
mecabが優秀じゃなくて、助詞をもつなどの日本語文法が機械的な解析に向いていただけだ。
40 :
2014/06/24(火) 11:28:06.49 ID:AfD6RzLL
向いてない向いてない。
わかち書きのような特殊な書き方をしてない限り、単語の区切りが不明瞭とか。
41 :
2014/06/24(火) 17:41:46.27 ID:FbF3Qsch
逐一辞書登録するのは限界があるよね。
Google検索やWikipediaのデータを引っ張ってきて用語を補整するなんてことも必要になりそう。
42 :
2014/06/24(火) 18:02:41.00 ID:1OnpMhpf
音声認識に適した形態素解析って無いだろうか?
43 :
デフォルトの名無しさん
2014/06/25(水) 01:28:47.07 ID:A+D1SfZu
>>Google検索やWikipediaのデータを引っ張ってきて用語を補整するなんてことも必要になりそう。
それができない。WikiPediaをDLしてアンカー抜き出して用語集作っても
コストの値を調節しないと正しくできない.
mecabは速いだけか?
44 :
デフォルトの名無しさん
2014/06/25(水) 01:32:05.16 ID:A+D1SfZu
Jumanかkyteaがいいのか?
mecabは微妙に形態素がへん。Webの記事ならとても99%も正解があるとは思えない
新聞記事でもあやしい
45 :
2014/06/25(水) 07:47:26.06 ID:UMucURAO
99%正解があったら他には何もいらないというレベルの精度じゃね
46 :
デフォルトの名無しさん
2014/06/26(木) 09:41:16.59 ID:S6b66RTi
述部の言語構造分析をもとに,「辞書定義文」,「用語属性」,「分布類似度」,「機能表現」という複数の言語知識を用い,
それらを素性とした識別学習で同義判定を行う.
https://www.jstage.jst.go.jp/article/jnlp/20/4/20_539/_pdf

 つまり、「台所」という表現が料理という場面=料理フレームを喚起するトリガーとして働き、その
ようなフレームのなかで、料理人や調理作業、調理道具、さらに料理にかかる費用等、料理に関わる
多様な要素が指示されるわけである。国広は、このような言語現象を多面的多義と呼び、その他にも
「学校」「病院」「銀行」といった概念が、建物や組織、そこで営まれる活動等、多様な現象の集合とし
て分析されると指摘している。
http://opac.lib.yamanashi.ac.jp/metadb/up/honkan/13_302-320.pdf

(1)同義語:同じ意味を持つ単語であり、テキスト中での置き換えが可能である単語のペア。「コンピュータ」と「電子計算機」など。
(2)上位/下位語:一方が他方の上位概念であるような単語ペア。「コンピュータ」と「サーバ」など。
(3)部分/全体語:一方が他方の一部であるような単語ペア。「帽子」と「つば」など。
(4)対義語:対となる概念を示す単語ペア。「男」と「女」など。
(5)兄弟語:同義ではないが、共通の上位概念を持つ単語ペア。「ルータ」と「サーバ」など。
(6)関連語:類似しておらず、階層的でもないが、概念的に連想される単語ペア。「細胞」と「細胞学」など。
http://www.google.com/patents/WO2014033799A1?cl=ja

例(2)の動詞「教える」は、以下のような意味を持っていることから、動詞自体が方向性を持っていることが伺える。
・行動や身を処し方などについて注意を与えて導く。いましめる。さとす。
・知っている事や自分の気持、要求などを他の人に告げ知らせる。
・知識、技芸などを身につけるようにさせる。教授する。
・おだてたりして、悪い事をするようにしむける。

http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no5_papers/JCLWorkshop_No5_04.pdf
47 :
デフォルトの名無しさん
2014/06/27(金) 04:03:33.62 ID:MjVrnFmf
新聞とかのデータからから「名詞+助詞+動詞」の組み合わせをひろってきたいんだけど、構文解析する必要ありますか?場違いだったらすみません
48 :
デフォルトの名無しさん
2014/06/28(土) 06:42:58.08 ID:gMf17FhW
◎2chスレッド勢いランキングサイトリスト◎

★+ニュース板
・ 2NN (推奨サイト)
・ 2chTimes
★+ニュース板新着
・ 2NN新着
・ Headline BBY
・ unker Headline
★+ニュース板その他
・ Desktop2ch
・ 記者別一覧
★全板
・ 全板縦断勢いランキング (推奨サイト)
・ スレッドランキング総合ランキング
・ ログ速
★全板実況込み
・ 2勢 (推奨サイト)
・ READ2CH
・ i-ikioi

※ 要タイトル検索
※ 2chブラウザ併用推奨
49 :
デフォルトの名無しさん
2014/06/28(土) 13:20:04.17 ID:pYYcNfOX
例えば、「空港へのアクセスを調べる」という入力文に対して、「アクセス」を換言したい場合、
「空港への◯◯」という前文脈と「◯◯を調べる」という後文脈に分けてコーパスを探索し、
◯◯に該当する名詞のうち共通する名詞を抽出する。図 1 の例では、前文脈と後文脈で共通して
用いられる「乗り換え」「料金」「行き方」の 3 単語が抽出される。
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D5-1.pdf

意味空間は1次元ではなく多次元である. どの属性に注目して(観点で)分類するかによって、いろいろな分類の仕方が考えられる.
身近な例で「料理」について考えてみる.古今東西の料理の種類は相当な数になり、分類の仕方も人によって異なる.
ここで調理法、材料、地域の3 つの観点で分類するとつぎのようになる.
調理法の観点で分類すると 生もの、煮物、焼き物
材料の観点で分類すると  魚料理、肉料理、野菜料理
地域の観点で分類すると  和食、中華、洋食
例えば「刺し身」は、料理を3つの観点によって分類した結果、連想された用語「魚料理」「生もの」「和食」の狭義語である.
逆に「刺し身」の広義語が「生もの」「魚料理」「和食」の3つあることになる.その結果、網構造になる。これを図にすると、図1のようになる.
http://www.asahi-net.or.jp/~wd2y-kkb/t.pdf
50 :
デフォルトの名無しさん
2014/06/28(土) 13:47:07.22 ID:mTJgjjdL
>>47
構文解析は必要ないが形態素解析はいる
51 :
デフォルトの名無しさん
2014/06/28(土) 13:54:17.48 ID:la3VBp+u
同時に何人も愛せて
何人とでもSEXする塩村議員動画
http://www.youtube.com/watch?v=O1U1ulLinPw
52 :
2014/06/28(土) 14:49:34.97 ID:Wnh+uZwR
構文解析まで含めるなら
もの凄く精度の高い解析が必要になる話ではないか
53 :
2014/06/28(土) 18:38:56.18 ID:ago1EUHo
>>51 死ねカス。氏ねじゃなくて死ね。
54 :
デフォルトの名無しさん
2014/06/29(日) 19:17:16.27 ID:8NVTS3/J
図やイラストの理解
センター試験の英語の問題では、図やイラストが多用されます。人間であればだれでも理解できるような簡単な図ですが、
これを理解することはコンピュータにとっては至難の業です。画像認識の研究はさかんに行われていますが、ほとんどの
研究は写真を対象としており、図やイラストを理解する研究はほとんど行われていません。これは、デフォルメされたイメージ
を理解するためにはさまざまな常識が必要であり、今のところ有効なアプローチが全く見当たらないためと考えられます。
人間にとっては図やイラストの理解は試験問題を解く上で重要なポイントではないですが、人間にとって当たり前すぎるからこそ、
逆にコンピュータにとっては非常に難しいと言えます。
http://21robot.org/research_activities/english/

 物理シミュレータを使うことの将来性について、横野氏は、「例えば、テーブルの上を転がるものを見たとき、
人はとっさに手を出してテーブルから落ちないようにします。ところが、今のロボットは、転がっているものを認識できても、
物理の法則に従ってそれがテーブルから落ちることまでは予測できません。人工頭脳が進展すれば、実世界の状況を理解し、
物理法則に従って変化する事象を物理シミュレーションによってモデル化し、将来を予測することもできるでしょう」と語る。
http://21robot.org/%E3%83%9B%E3%83%BC%E3%83%A0/introduce/NII-Special-2/
55 :
デフォルトの名無しさん
2014/06/30(月) 11:11:53.76 ID:yTE03nVF
一次視覚野はほぼ解明されてる
写真とイラストはもう区別しない
56 :
2014/06/30(月) 11:48:04.73 ID:9KK/EJtO
モジュール理論とか、何十年の間にだいぶ進んだよな
57 :
デフォルトの名無しさん
2014/06/30(月) 13:42:52.23 ID:tZCwK3PP
>>55
>一次視覚野はほぼ解明されてる
>写真とイラストはもう区別しない

 おそらく最初とは異なる判断になったのではないでしょうか。このように、私たちは経験やこれまでの条件づけによって、
無意識のうちに「決めつけ」を行いがちです。この絵のように、わずか数秒見ただけでも大きな結論の違いを生むことが
あるわけですから、これまで長い人生の中で培ってきた「決めつけ」は、あなたのさまざまな判断に大きな影響を及ぼします。
そして、誤った先入観や印象による決めつけは非常に危険なものといわざるを得ません。

この絵、何に見えますか?――あなたの“思い込み”をテストする
http://bizmakoto.jp/bizid/articles/0905/29/news009.html
58 :
デフォルトの名無しさん
2014/06/30(月) 16:33:45.79 ID:yTE03nVF
>>57
それは二次視覚野以上の話だ
59 :
デフォルトの名無しさん
2014/06/30(月) 17:46:07.82 ID:ULkK/oEi
>>57
鼠に見えたりオッサンに見えたり・・・人間がイラストを解読するメカニズムはよくわからない。
60 :
2014/06/30(月) 18:56:54.14 ID:OP+eMRFG
3つは違う絵だから、ネズミに見えるのもおっさんに見えるのも
その中間に見えるのも意図通りとしか感じない
61 :
デフォルトの名無しさん
2014/06/30(月) 20:02:41.31 ID:bnSHXbvL
今一番画像処理で進んでるのはコンボリューションニューラルネット
畳み込みをしてて、二次視覚野に近いとは言われてる
62 :
2014/06/30(月) 20:49:30.42 ID:CGk8SAom
IBMのワトソン君は何の役に立ってるの?
63 :
2014/06/30(月) 21:02:54.51 ID:CGk8SAom
一家に1台ワトソン君
64 :
2014/06/30(月) 21:03:06.40 ID:9KK/EJtO
技術は、大量のテキストにタグを付けてコーパス化したりとか、そういう方向に応用されてる
だろうと思うけど。
65 :
2014/06/30(月) 21:07:00.10 ID:CGk8SAom
みんなでワトソン君をどうやって活用するか考えよう!!
66 :
2014/06/30(月) 21:14:43.35 ID:CGk8SAom
いいアイデアを思い付いた!!

ワトソンをWebに公開し、何回か質問できる権利を販売すればIBMがぼろ儲けできるぞい!
67 :
2014/06/30(月) 21:46:33.42 ID:avOqRzMr
>>62
とりあえずは医療診断に使おうとしている。
画像診断や画像認識、音声認識技術と組み合わせれば、診断分野に人間が
出る幕はなくなるんじゃないか
68 :
2014/06/30(月) 21:49:01.19 ID:kvIkRbCF
>>65
役場の窓口にワトソン君を置いて、公務員の人件費削減
69 :
2014/07/01(火) 04:28:13.07 ID:9WHDZwaI
それなんてエキスパートシス・・・いや、いい、忘れてくれ
70 :
2014/07/01(火) 08:59:30.77 ID:xCHeKPxQ
電話サポートなら出来そうだね。休日や時間外用にでも
71 :
デフォルトの名無しさん
2014/07/01(火) 17:42:24.79 ID:MLoIfLOU
自動改題システムがあったらこうやる。本問は、正三角形ではなく直角二等辺三角形だったら、また放物線ではなく楕円だったら、
問題とその解法はどう変わるか。あるいは設定が変え方によっては、高校数学では解答できなくなるのか。 

> 東大理系数学2004年第1問
72 :
デフォルトの名無しさん
2014/07/01(火) 17:48:46.07 ID:MLoIfLOU
>>24
長文を短文の箇条書きに書き換えるアルゴリズム、短文の箇条書きを長文にまとめるアルゴリズムを考えてみる。
やり方は人海戦術で多くの長文を、短文の箇条書きに書き換え、意味内容について詳細にタグ付けして、インプットする。
類似の文章に遭遇したら、選択検出できるようにする。
73 :
2014/07/01(火) 20:10:32.48 ID:WdBXMFPF
>>67
「マギはどう言っている?」
「2対1でガンだと回答しています」
74 :
デフォルトの名無しさん
2014/07/05(土) 11:17:57.64 ID:EeQIx6Tc
 SWでは図12のような手の形,動き,顔・頭,身体の部分などを表す図像的な記号を二次元的に配置して,
人間にとって分かりやすく手話を記述する.図13にSWによる日本手話の記述例を示す.これらの記号の集合
はISWA(International Sign Writing Alphabet)と呼ばれており,ISWA2008には639種類の基本記号が含まれる.
向きの違いなどを考慮するとその数は約35,000種類に上る.
https://www.jstage.jst.go.jp/article/essfr/4/4/4_4_282/_pdf

本研究の最終的な目標は, CL を組み込んだ手形変化と, CL を用いた図像的な手の動きが組み合わさった
手話表現 CL 述語 (CL 構文, Classi?er Predicate)[3]の生成を機械翻訳上で行うことにある.
CL 述語は, 現実世界での場所・形状・動き (動きの軌跡) 等が手話表現空間上でもリンクするように CL 手形
を用いて表現するもので, 手話の意思伝達において非常に重要な役割を担っている.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P7-12.pdf
75 :
デフォルトの名無しさん
2014/07/05(土) 15:51:46.96 ID:PDgdEPrp
word2vecとdeep learningって別に関係無いよね?
word2vecの前身にrecurrent neural networkが使われてたってだけで
現在のword2vecの実装はロジスティック回帰ベースのものになってるし
76 :
デフォルトの名無しさん
2014/07/05(土) 21:00:44.58 ID:yP4JAf0g
(5-4) この野菜は害虫に強い.(植物の野菜)
(5-4) 太郎は野菜をたくさん食べる.(食物の野菜)
http://tdl.libra.titech.ac.jp/hkshi/xc/contents/pdf/116061503/6

赤い三角,青い丸などの図形を見せられ,それについての質問「何色ですか」
「何という形ですか」に対して「赤」や「丸」などと試行錯誤的に答え,
その答えに対する評価を利用して正しく答えられるように学習するシステムを構築する.
https://kaigi.org/jsai/webprogram/2014/pdf/474.pdf

手順(6)では,既存オントロジーに対し,概念追加処理を行う.既存オントロジーにおいて,
対象領域の中でも最上位に位置すると考えられる概念をルート概念として設定する.
Protégé を使用して既存オントロジーの可視化を行った例を図 5 に示す.図 5の可視化範囲においては,
紫の楕円で囲んである概念をルート概念としている.なぜならこれらの概念が理科に関連する
概念の最上位概念として適当であると推測できるからである.このようにして手動で設定した
ルート概念は“時”,“動物”,“事象”,“位置”,“三日月形のもの”,“別のもの”,
“生物”,“動物”,“植物”,“生物”,“自然現象によって出来るもの”,“具体的あるいは
抽象的存在物”,“抽象物”の計 13 概念である.
http://sigswo.org/papers/SIG-SWO-A1303/SIG-SWO-A1303-05.pdf
77 :
デフォルトの名無しさん
2014/07/06(日) 13:17:55.07 ID:UIel1dtG
□(日常的)状況理解と(代数スキーマ)問題構造理解
• 支援が必要なのは問題モデル表現,日常的な状況はよく知っている
• 状況に基づく理解には問題文からの暗黙的な特徴抽出が必要
- 最初に「形式主義」が役に立つ理由 [Nathan 1988]
• 相互に支援「状況が問題モデルの意味付けに」「問題スキーマが状況モデル作成に」
「予測2」
与えられたカバーストーリにおけるキャラクタ・イベント・関係を量的な解法に必要な形式的な記号と
表現の知識と関係づけることにより数学的にストーリ状況を解釈するよう励まされた生徒は,
文章題の解を導き出せる方程式の生成において,ストーリのフレーズと方程式のマッピングを行う
直接的な変換に基づくアプローチを使う対照者より有意になるであろう.
「予測3」
与えられたカバーストーリにおけるキャラクタ・イベント・関係の知識に形式的な記号と表現を関係づけ
ることにより代数式を状況的に解釈するよう励まされた生徒は,代数式の状況的な記述の生成において,
ストーリのフレーズと方程式のマッピングを行う直接的な変換に基づくアプローチを使う対照者より有意になるであろう.
「予測4」
状況的に推論を行う問題解決者は,フレーズ志向の対照者より,カバーストーリを伴うかもしれない状況的
な方程式の組の適切さ,あるいは不適切さを認識する能力をつけるだろ
http://miwalab.cog.human.nagoya-u.ac.jp/database/resume/2003-02-04.pdf
78 :
デフォルトの名無しさん
2014/07/06(日) 15:17:27.05 ID:Tf6s8TDO
句構造とそれに対応付けられた述語項構造情報を持つ,統語情報と意味情報を統合した日本語ツリーバンク
について述べた.構築した 20,000 文を既存の構文解析器に適用することにより,文節係り受け解析と同程度
の解析精度を持ちつつ,詳細な統語情報を出力できることを確かめた.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B5-3.pdf

UML では,オブジェクトを状態機械と考え,その振舞いを状態遷移図で表す.記法としては,基本的に Harelの
Statechart を採用している.たとえば,図 5 は Fowler の本 [2] からとった.図の「動作中」と名前を付けているの
が親状態 (superstate) である.その中に 3 つの子状態があるが,それを隠して 1 つの状態と見なしたものが「動作中」である.
http://tamai-lab.ws.hosei.ac.jp/pub/ss01paper.pdf

つまり、図的メディアは表現している情報の内容概略をまず直観的に把握することができ、その点において文書メディア
と大きく異なる。例えば、多くの図形要素がある方向に整列していれば、順序もしくは流れの意味が瞬時に感じられるが、
同じ意味を表現した文書は通読しなければわからない(図 2.1)。
http://www.image.esys.tsukuba.ac.jp/~murayama/work/ms_thesis.pdf
79 :
デフォルトの名無しさん
2014/07/07(月) 12:36:07.24 ID:bhOiadyO
2.2 語彙・構文的言い換え
語彙・構文的言い換えに限っても,純粋に統語論で扱えそうな言い換えか
ら語の詳細な意味に立ち入る必要のある言い換えまで多岐にわたる。こうし
た言い換えは,実現に必要な知識の種類の観点から便宜的に次の4種類に分けられる。
統語的言い換え 個別の語の意味に立ち入らなくても統語論の記述レベルで概ね説明できる言い換え
(3) 最初に合格したのは高橋さんだ ⇔ 高橋さんが最初に合格した
語彙的言い換え 語の同義性だけで概ね説明できる,統語操作を伴わない局所的言い換え
(4) 一層の苦境に陥る恐れがある ⇔ 一層の窮地に陥る可能性がある
語彙構成的言い換え 語の統語的特性と意味的特性に基づいて構成的に説明できると考えられる規則性の高い言い換え
(5) 2 位が先頭との距離を縮めた ⇔ 2位と先頭の距離が縮まった
推論的言い換え 内包的意味が近似的に等価な言い換えのうち,上のどの種類にも当てはまらないもの
(6) 財政再建が急務の課題だ ⇔緊急に財政再建する必要がある
http://paraphrasing.org/~fujita/publications/coauthor/inui-LF-2.pdf
80 :
デフォルトの名無しさん
2014/07/09(水) 09:13:08.64 ID:W1L77FJX
イヌ語、イルカ語、サル語を解析するアルゴリズムありますか?
81 :
2014/07/09(水) 19:42:55.77 ID:k9yY+Ntl
>>80
バウリンガルと同じアプローチで可能
82 :
デフォルトの名無しさん
2014/07/09(水) 20:08:34.07 ID:s3czgtxE
たとえばどのようにしたら?
83 :
デフォルトの名無しさん
2014/07/10(木) 11:50:45.70 ID:b8e/9c1m
10^5単語
10^3個の単語からなる文章

(10^5)^(10^3)の組み合わせ(テンソル)

全ての組み合わせを予め計算するのは不可能だ
構文が似ている単語は同じ構文を持つと仮定し、確率的に構文解析すればいいのか?
84 :
デフォルトの名無しさん
2014/07/10(木) 14:23:18.66 ID:aR1UjDzC
>>83
>10^5単語

固有名詞(住所・氏名など)を一般化し、さらに頻出単語のみに絞る。
85 :
デフォルトの名無しさん
2014/07/10(木) 14:39:03.10 ID:b8e/9c1m
>>84
オートマトンでやるからテンソル演算にはならないが、それにしても桁違いだから絞ってどうなる量じゃない。
未知の単語が来た時対応できないし、自分で入力されたことのない文章を構文的に正しいものを推定して組み立てないといけない。
86 :
片山博文MZ悪魔崇拝 ◆T6xkBnTXz7B0
2014/07/18(金) 14:38:59.47 ID:XMEHR0Aa
自然言語相手にすべてのケースのテストデータを作成しようとしたら、800MB超えてしまった。。。
愚かだな。
87 :
2014/07/18(金) 15:09:02.82 ID:D2raAtlG
800MBならまだましでは?
88 :
2014/07/19(土) 21:02:40.01 ID:mm+kcL5W
まずは、この無限大に近い組み合わせと戦わないといけないのか。
ランダム抽出か、代表値でやってみるか。
89 :
デフォルトの名無しさん
2014/07/22(火) 12:13:33.59 ID:E09TR4vO
チンパンジー語解読される
http://wired.jp/2014/07/22/dictionary-of-chimpanzee/
90 :
2014/07/23(水) 06:05:31.34 ID:cG8Of2p8
日本語のmecab cabochaと同じことを英語でする場合には
どのソフトを使えばいいのでしょうか?
91 :
デフォルトの名無しさん
2014/07/26(土) 22:52:13.10 ID:vhGqByQW
Stanford CoreNLPでぐぐってみ
92 :
2014/07/27(日) 08:37:51.99 ID:b6NTPR2W
>>89
言語構造を見つけたらまた来てくれ
93 :
2014/07/29(火) 05:02:08.10 ID:lhxkPIlc
>>91
nltk
よりそっちの方がお勧めなんです?
94 :
2014/07/30(水) 00:17:55.16 ID:yEskz56N
動詞活用と動的パーサーを頑張ってやるぞー!

エイエイオー!
95 :
2014/07/30(水) 01:03:45.57 ID:yEskz56N
違う違う。そんな文字コードが固定された融通の利かないありきたりの形態素解析ツールの
1ユーザーにとどまるのはイヤだ。もっとオープンでダイナミックに組織化されるシステムでなきゃ。
えっ、大規模機械学習や統計学を否定するの? ひょっとして馬鹿?
96 :
デフォルトの名無しさん
2014/07/30(水) 01:06:51.20 ID:yEskz56N
あげ
97 :
2014/07/30(水) 14:46:58.32 ID:nHLRqrzx
moses-supportやparser-supportでアホな質問ばかりする中国人やアラビア人にも真摯に対応する姿に感心する
98 :
2014/07/30(水) 22:44:45.78 ID:PuN0tVbh
http://anond.hatelabo.jp/20090330065954
JavaのStanford CoreNLP
より 
pythonのnltk
の方が良いみたいですね
99 :
デフォルトの名無しさん
2014/08/06(水) 18:09:18.10 ID:acb72KUN
ところでだ。「チンボがシコシコする」という日本語表現は、文法的に正しいのか?

チンボ「を」シコシコするのではなくて、チンボ「が」シコシコする。この場合、「チンボ」は主語となる。

オブジェクト指向で言う「集約」は2種類あって、全体(俺)と部分(チンボ)が繋がっている場合と、
全体(俺)と部分(チンボ)が別々になっている場合とが考えられる。けれども「チンボ」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、勃起して「シコシコする」。
例えば寝てる時にエロい夢みて朝起きてみたらチンコが勃起して射精してたとか。

違うか?

「頭がズキズキする」は良いが、「チンボがシコシコする」はダメな理由を、50字以内で述べろ!>>98
100 :
デフォルトの名無しさん
2014/08/29(金) 20:13:29.62 ID:pIYD+XWo
1. 辞書の違いによる形態素単位の分割
2. 機能語,複合語などによる文節分割
3. 鍵括弧内の読点による文の分割
4. 鍵括弧による文節分割
5. 機能文節などの特殊な文節による分割
6. 係り先の文節を複数持つか

http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P3-15.pdf

(1)二格深層格の出現比率はコーパスによって有意な差がある.特に「場所」,「複合辞」,「目的」
における差が顕著である.
(2)定性的に分類された深層格を定量的に見ると頻度において差が顕著であった.特に「対象」(間
接目的語)の頻度が高い.一方,「場所」や「時間」の頻度は全体の割合から見るとさほど高くない.
(3)二格と共起する名詞と動詞と深層格との関係について主成分分析を行った結果,「結果」「複合
辞」「その他」>「副詞」「目的」>「時間」「場所」の順に他の深層格との隔たりが確認された.これに対して,
「対象」「役割」「動作主」「頻度」は共起語においては特性が薄いため,深層格推定にも困難が予想される.
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P5-3.pdf

今後は、平成 28 年度末を目標として、日本語の書き言葉の文 4 万文に統辞・意味解析情報をタグ付けし
た欅ツリーバンクを完成させる予定である。また、これとは別に、対話データのタグ付けも計画している。
開発したツリーバンクのうち公開可能なものは全て以下のサイトで配布する予定である。

http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P8-8.pdf
101 :
デフォルトの名無しさん
2014/08/29(金) 21:20:47.93 ID:zSOx7Ia5
構文解析って文法的に正しいかどうかしか判断できないんじゃないの?
102 :
デフォルトの名無しさん
2014/08/29(金) 23:25:55.15 ID:bwbSKW1s
>>101
>構文解析って文法的に正しいかどうかしか判断できないんじゃないの?

なら、「チンボがシコシコする」という日本語表現は、文法的に正しいのか?
103 :
デフォルトの名無しさん
2014/08/30(土) 02:26:42.95 ID:BAPN2lOA
単語と動詞という分類で言えば正しいが、単語としては確率低い組み合わせだろうなぁ
104 :
デフォルトの名無しさん
2014/08/30(土) 09:34:03.26 ID:014RRRVX
指示表現と文体―「この」のジャンル別コーパス分析を中心に
https://www1.doshisha.ac.jp/~cjtl210/data1/22_ryuuhyoo.pdf
日本語機能表現の自動検 出と統計的係り受け解析への応用
https://www.jstage.jst.go.jp/article/jnlp1994/14/5/14_5_167/_pdf
文脈の多様性に基づく名詞換言の提案
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D5-1.pdf
構文構造の処理技術 - 芝浦工業大学
http://www.sic.shibaura-it.ac.jp/~sugimoto/nlps/nlps14-3.pdf
文体から見た『今昔物語集』の語彙 ―『日本語歴史コーパス 平安時代編』と比較して
http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no4_papers/JCLWorkshop_No4_15.pdf
NTCIR MedNLP: 本邦初の医療分野の言語処理コンテスト
http://mednlp.jp/PAPER/2013-jcmi-ntcir.pdf
単語間結合度に基づく複単語表現のアライメントの改善
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A2-4.pdf
NTCIR MedNLP-2: 医療分野の言語処理
http://must.c.u-tokyo.ac.jp/sigam/sigam05/sigam0512.pdf
述語と項の位置関係ごとの候補比較による日本語述語項構造解析
http://hayashibe.jp/publications/JNLP2014.pdf
「述語構造の意味範疇の普遍性と多様性―理論的および応用的な成果―」
http://www.ninjal.ac.jp/event/specialists/project-meeting/m-2013/20140202-ninjal2014/pdf/008.pdf
検索・分析のための手順文章からの意味構造抽出
http://db-event.jpn.org/deim2014/final/proceedings/C3-2.pdf
コーパスに基づく日本語の文法形式の使用傾向の記述 ―「大きい・な」「小さい・な」の使い分けについて―
http://ir.nul.nagoya-u.ac.jp/jspui/bitstream/2237/19119/1/1306.pdf
大域的な統語情報を用いた単語アラインメントの改善
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A3-2.pdf
対訳抽出におけるハブの影響
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B2-2.pdf
105 :
デフォルトの名無しさん
2014/08/30(土) 09:35:42.15 ID:014RRRVX
述部意味関係コーパスの構築
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/C4-4.pdf
日本語文章に対する述語項構造アノテーション仕様の考察
https://www.jstage.jst.go.jp/article/jnlp/21/2/21_333/_pdf
機械学習を用いたニ格深層格の自動付与の検討
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D6-2.pdf
統辞・意味情報を付加した日本語コーパスの構築欅ツリーバンク プロトタイプ について
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P8-8.pdf
記号化による数学文の理解—線形代数における数学文を中心として—
http://www.seto.nanzan-u.ac.jp/msie/gr-thesis/2013/10se201.pdf
文の意味構成に伴う高次元空間の最適化と単語表現学習
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D6-3.pdf
用語の属性を考慮した上位,下位概念辞書の構築
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B6-1.pdf
学校数学における確率を捉える枠組みの一提案
―数学的モデルとしての確率という視点から―
http://www.juen.ac.jp/math/miyakawa/article/2013-ronhatu-ikarashi.pdf
『現代日本語書き言葉均衡コーパス』形態論情報アノテーション支援システムの設計・実装・運用
https://www.jstage.jst.go.jp/article/jnlp/21/2/21_301/_pdf
統語情報と意味情報を統合した日本語句構造ツリーバンクの構築
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/B5-3.pdf
統計的日本語述語項構造解析のための素性設計再考
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/D1-5.pdf
教師あり機械学習による助詞「も」の分析
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P8-11.pdf
単語出現頻度を考慮した事後確率制約による単語アライメント
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A3-4.pdf
日本語カルテをアノテートする
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P5-2.pdf
比喩表現コーパスの構築と問題点-言語学の立場から-
http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/P3-2.pdf
106 :
デフォルトの名無しさん
2014/09/08(月) 02:15:18.02 ID:P298uFJ/
東大のプロジェクトどうなったのw
もう挫折ですか
107 :
デフォルトの名無しさん
2014/09/08(月) 09:27:57.13 ID:m/nJA+ci
>>101
機械的な構文解析のこと?
正しいかどうかじゃなくて、正しいと仮定して解釈することじゃないのかな
意味ある形で分かれてるかどうかは、人が解釈するしかないような気がするけど。
108 :
2014/09/08(月) 11:11:27.22 ID:p73tUNq8
ひらがな電卓Calc-H ver.0.8.0
http://katahiromz.web.fc2.com/calc-h/

まだまだ頑張るぞ!!!
109 :
デフォルトの名無しさん
2014/09/08(月) 21:00:23.20 ID:wT2B4Cec
>>107
いや、コンパイラの構文解析って正しいか間違ってるかしか出力しないじゃん
110 :
2014/09/09(火) 01:59:16.85 ID:gwS2ebzP
なんでやねん
最低でもツリー構造くらい取るわ
111 :
デフォルトの名無しさん
2014/09/09(火) 08:12:04.96 ID:FnHbwOUK
「問題文を読んで題意が理解できない」ってのは、去年の東ロボと共通する点に思える。

教えているうちに気づいたことがあります。それは、数学の問題文を読んでその題意が理解できない子どもが目立って増えた、
ということです。「問題文を読んで題意が理解できない」といっても、いろいろなタイプがあります。
1.?語彙力が不足していて文節と文節のつながりがわからない。
2.?数学特有の言葉、つまり記号や用語の定義が理解できていない。
3.?文章と文章のつながりがわからず、条件がつかめない(演繹的な推論による文法の知識がない)。
4.?文章が長くなると全体像がつかめなくなり、題意の目標が捉えられない(論理的な読解力の不足)。

『読解力を強くする算数練習帳』著:佐藤恒雄
「数学とは、何のために勉強するんだ」と悩んでいる人へ
http://gendai.ismedia.jp/articles/-/37357
112 :
デフォルトの名無しさん
2014/09/11(木) 17:25:16.70 ID:sSttSQlP
自然言語は社会性を表現できないとダメだろう

オートマトンの集団がいて
それぞれが他のオートマトンと自然言語でのみ通信できる
任意のオートマトンは、自分以外のオートマトンの社会的な状態を知っているか推測できる
113 :
デフォルトの名無しさん
2014/09/12(金) 11:01:38.13 ID:E5d9ulLz
子供は指差しで覚える
http://development.kt.fc2.com/point.html
114 :
2014/09/12(金) 13:53:52.51 ID:6MLnTCJT
115 :
片山博文MZ次期CEO ◆T6xkBnTXz7B0
2014/10/11(土) 00:07:21.76 ID:bs/sFubV
学習ありの字句解析の上に動的パーサーを乗せれば最強
116 :
デフォルトの名無しさん
2014/10/13(月) 21:41:40.39 ID:8+60HAaA
機械は人間と同じように現実世界を認識したり、また人間と同じように来るべき状況を推論することはできない。
けれども人力で「擬似状況シミュレータ」と「注釈付きコーパス」を充実させれば、試験問題の回答率は向上する。
例えば「マクドナルドのハンバーガーを買う」というフレーム問題は、試験の範囲内ということで人力インプット。
マクドナルドは企業・店屋で、ハンバーガーは商品・食べ物、そして「買う」については、所持金と支払い金額
とお釣りはいくらかという、試験の範囲内だけで連想する。数学や物理に関してはパターンがある程度決まっており、
入試の範囲内にのみ対応させればいい。但し言語解釈が正しくできないと、同じ問題は解けても類似の問題は解けない。
朝三暮四になっていないか、一つの問題を様々な角度から理解させたり、表現や設定を変えて類題を作ってみる。

>もし台車を動かしても,天井は落ちてこない.
>もし台車を動かしても,部屋の壁の色はかわらない.
>もし台車を動かしても,部屋の電気は消えない.
>もし台車を動かしても,壁に穴があいたりしない.

考えられる全ての可能性を、人力でインプットする。例えば台車を動かしたときに停電が起これば、部屋の電気は消える。
117 :
2014/10/15(水) 07:18:38.39 ID:beWphTMz
問題に出てきたものだけ考えればいいんじゃないの?
台車が斜面を動く問題で衛星の軌道や壁の色なんてのは考えなくて良い。その上で天井や床は動かないとか、台車が斜面にめり込むことはないとかだけを考えればフレーム問題は抑えられる。
118 :
2014/10/15(水) 11:31:02.58 ID:hrBmyTxM
デネット フレーム問題 でググれ
119 :
2014/10/15(水) 15:22:08.72 ID:beWphTMz
10個も同時に物体が出てこないんだし全ての組み合わせを考えても10!で3628800、十分に時間内に解答可能。
120 :
2014/10/15(水) 16:35:37.73 ID:beWphTMz
トチ狂ってたわ。10!も無い。2^10しか無いから尚更速い。
121 :
デフォルトの名無しさん
2014/10/17(金) 16:43:02.23 ID:724m77ZA
@noricoco さんの最後のお話はいわゆる東ロボ、東大入試を突破する人工知能プロジェクトについての記念講演だったのだが、
中身は数学基礎論をいかに実世界に接地するのか、という極めて意欲的・現実的なお話であった。論理だけでは解けない問題
を経験的に解く。しかも、それは単なるパターンマッチではなく、コンピュータ将棋の初期の開発で評価関数をヒューリスティック
に設計していたように、入試問題に合わせて作り込む、というものである。かといって80年代に逆戻りする、というわけではなく、
「この問題は数学的にどのクラスの問題(たとえば集合論)なのか」「高校数学の範囲内で解を求めようとすると、どうなるか」
といったようなことを記述するのである。
自分も学部生時代は数学基礎論をかじったことがあり、それこそが哲学ではなく言語学、そして自然言語処理へと専門を変えて
いく理由となったのだが、このようなプログラムがその当時あって、自分が参画できるのであれば、哲学の立場のまま哲学を現実
世界に基礎付ける、という方向に挑戦していたかもしれない。東ロボプロジェクト全体に関しては、あまり重要な問題を解いている
わけではないと半ば距離を置いて見ていたが、少なくとも数学に関しては、とても野心的な試みであり、数学の問題が解けるよう
になるだけでも、このプロジェクトは人類にとって大いに意味のある試みなのではなかろうか。
http://d.hatena.ne.jp/mamoruk/20141004/p1
122 :
デフォルトの名無しさん
2014/10/17(金) 21:14:01.02 ID:UIYNCvLu
すっかり聞かなくなったけどとうロボどうなったの
123 :
デフォルトの名無しさん
2014/10/17(金) 23:45:31.75 ID:mnwHFJbg
664 :デフォルトの名無しさん:2009/02/20(金) 20:42:25.00
大辞林
日本語「国語+百科」大辞典の最高峰、「スーパー大辞林3.0」のoneswing仕様版。
「現代語義優先方式」にもとづく解説で知りたいことがすぐ分かる。  
実際に使われている意味を懇切丁寧に解説し揺れ動く日本語の現在を映し出す
25万2千語を収録。本製品では、百科的要素として動植物のカラー写真約1,000点
様々なモノクロ線画約2,000点および鳥虫の鳴き声の音声約270点を収録。
日本語のアクセントが表示されているほか、注意が必要な約1,000語には音声を付与しており耳で確認することが可能。
さらに、近代の作品から採録した豊富な用例ほか同音語や類義語の使い分け誤用などの解説も充実。
http://jp.fujitsu.com/group/personal/services/jisho/kaiset95.html

>25万2千語を収録

ではその25万2千語全ての単語について、百万冊の書籍をスパコン「京」で形態素解析し、
さらにコンピュータの「誤読」と「理解不能表現」を分析抽出し、これらを「人力で修正」し、
「属性フレーム」と「意味ネットワーク」と「RDFトリプル」を作成というわけにはいきませんか。
コンピュータには何が理解できて何が理解できないのかも、ここではっきりさせられませんか。

 そして次に、ワトソンの「誤答」はワトソンが自然言語を理解していないことを示している。アメリカの都市名を
問う質問に対して、カナダの都市名を答えたというのだ。そのときには失笑が起こったという。これは知識の誤り
ではない。問題文の文意自体を理解していないから起こることだ。開発途中では、ファーストレディーの名を問
われているのに大統領の名を答えるといった間違いも起こしているらしい。
http://d.hatena.ne.jp/r-hiragi/20130218/1361158109

あるいは現在の技術では、未だにコンピュータの「誤読」と「理解不能表現」が多すぎて無理なのですか。
けれどもそれなら2チャンネラー百万人を動員して、人力でオントロジー作成という手もあると思われますが。
124 :
デフォルトの名無しさん
2014/10/17(金) 23:51:06.28 ID:Lz6GLdVj
>2チャンネラー百万人を動員して、人力でオントロジー作成

一般にコーパスアノテーションは複数の作業者により実施され,異論があるにせよ
アノテーションの一貫性がほぼ唯一の定量的な評価方針となる。このため,
基準の修正はアノテーション従事者全てで共有する必要がある。作業者の多くは
人文系の日雇いもしくは時間単価で働くパート労働者であり,基準の見直しの
たびに動機づけを含めた組織運営が必要になる.
https://www.jstage.jst.go.jp/article/jnlp/21/2/21_95/_pdf
125 :
デフォルトの名無しさん
2014/10/23(木) 13:59:17.26 ID:H9x7O/fU
PAS-NNLM のモデルとしての表現力 SVO に関しては, 本実験では PAS-NNLM の学習後のモデルを用
いた ‘PAS-NNLM comp’ により, ‘PAS-NNLM add’よりも高い相関係数 (0.42) を得た. これは Tsubaki
ら [10] の C-NLM による結果 (0.38) を上回るものである. この C-NLM は, 動詞と目的語のペアのみに着目
して NNLM を学習するモデルである. しかし, 同じくTsubaki ら [10] の CoC-NLM による相関係数 (0.47)
には及ばなかった. CoC-NLM の優れている点は, 一種の語義曖昧性解消の手法を, 動詞-目的語の組み合わせ
の意味構成に取り入れたことである. また, Kartsaklisと Sadrzadeh [7] も, 単語からの意味構成の前に語義
曖昧性の解消を行うことの重要性を示している. 本研究の PAS-NNLM では, 品詞の情報は用いているものの,
その他の明示的な語義曖昧性の解消を行っていない. より文脈に依存した語義曖昧性解消の手法を取り
入れることにより, さらなる性能向上が考えられる.
http://www.logos.t.u-tokyo.ac.jp/~hassy/publications/nlp2014/paper.pdf

言語学における語彙意味論の立場からすれば,その名詞の意味構造に記載すべき内容は語を成立させる最低限の要素に
限るというのが基本的な立場であろう.これは本研究の枠組みでいうならば情報抽出システムをソフトウェアと捉えた場合,
システム辞書が持つ基本オブジェクトデータと捉えることが出来る.つまり,評判やその診療所 (インスタンス) に関する人
からみた認識などは,既存のオブジェクトデータに対して動的に加えられた属性項目と考えられる.人の言語表現はまさに発
話者の認識において,抽象的に聞き手と共有するオブジェクトに対して個別の情報を加えることで新たな情報を提供している
と捉えるならば,こうした名詞意味構造の属性の拡張は取り込むべき機能であり,ソフトウェアにおけるオブジェクト指向の
枠組み?6で情報抽出システムを構成していく必要がある.
https://kaigi.org/jsai/webprogram/2014/pdf/679.pdf
126 :
2014/10/23(木) 20:25:59.88 ID:FP/Pp1Ki
【技術】ロボットは東京大学の入試に合格できるか? 「東ロボくん」、猛勉強で私大A判定も [10/23]
http://daily.2ch.net/test/read.cgi/newsplus/1414063059/
127 :
デフォルトの名無しさん
2014/10/29(水) 15:23:53.31 ID:WOXCtObY
翻訳って不可逆変換された後のデータから、別の不可逆変換された後のデータにいきなり変換しようとしてるから困難なんだよね。
いわばjpgからjpg2000にraw画像に戻さずに変換しようとしてる
128 :
2014/10/29(水) 17:53:35.79 ID:TaY3Bs2I
超解像みたいな
129 :
2014/10/29(水) 19:15:45.42 ID:N8JvcROE
読み・書き・聞き取りの最強の日本語コーパス「三位一体」
プロジェクトを開始しました。
ご期待下さい。
130 :
2014/10/29(水) 23:38:27.55 ID:zlK0g2wj
raw画像に戻すってのは、
中間言語式の翻訳のこと?
131 :
デフォルトの名無しさん
2014/10/30(木) 00:55:36.93 ID:iSxCzdRK
1pixごとの完全に元のデータ

自然言語の場合で言うなら、必ずしも言語である必要もないと思う
132 :
デフォルトの名無しさん
2014/10/30(木) 01:56:04.20 ID:jdjv0M6/
鏡に映るものを計る、それがMZの目標である。
133 :
【東電 74.8 %】
2014/10/30(木) 12:36:21.88 ID:VubmAqci
>>125
また、そんなことばっか言うて!キミはいい加減にしたまえ。ボクはキミをあまり知らない。もう面倒くさいったらありゃしゃんせ


神戸市の東、芦屋西宮の知的障害者施設で未成年利用者に性的な行為をして淫行条例で逮捕された三田谷学園元職員の堂垣直人(西宮市老松町)は、結局どういう罪になったの?
被害者家族のケアを芦屋市役所と兵庫県警はちゃんとやったのか?
差別や虐待は環境を選べない子供には関係ない。

http://www.youtube.com/watch?v=JxMzW3ZlV4g&sns=em


執行猶予終了までまだあるよ。
134 :
デフォルトの名無しさん
2014/10/31(金) 16:05:31.03 ID:0ns/rhdq
【科学】人工知能「東ロボくん」、センター模試英語で平均点超え 全体成績は私大8割と国公立4校でA判定 21年度までの東大合格目標2ch.net
http://daily.2ch.net/test/read.cgi/newsplus/1414724624/
135 :
2014/11/01(土) 11:21:29.62 ID:m4AuzDYU
えつ!
136 :
デフォルトの名無しさん
2014/11/03(月) 08:11:18.01 ID:tokfpTJi
代ゼミ物理問題のイラスト。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/a/8/a8fbf865.jpg
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/b/3b63acc4.jpg
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/b/3b65850a.jpg
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/2/8/28b52d74.jpg

@やAは無理でも、Cの図なら「四角い箱」「四角い物体」くらいの大雑把な認識をする。
それは「弁当箱」かもそれないし、「本」かもしれないし、「小包」かもしれない。
次にBの図ろ考えると、点線が途中までになっていて、「何かが入っている箱」と考えられる。
文章では、「板」と「水」を入れて「板は沈める」ということになっている。
けれども「板」といってもそれは物理的に何の役割を果たすのかも考えなければならない。
137 :
デフォルトの名無しさん
2014/11/03(月) 08:35:06.90 ID:gGej6kOp
(1)今年は3パーセント物価が上昇し、来年は5パーセント物価が上昇するという。平均の予想物価上昇率はいくつか。
(2)今年は3パーセント物価が上昇するという人と、5パーセント上昇するという人がいる。平均の予想物価上昇率はいくつか。
<ロボットは東大に入れるか 新井紀子>

「今年は〜」
@ 西暦○年度(現在)2)
A 去年は、来年は、○年前は、○年後は〜(1)
B うるう年だ

「物価が上昇」
@ どの月間に、どの年間に(1)、何%の割合か(1)(2)
A 品目別には〜、○円上昇、○円下落

「〜という人」
@ 〜という名前の人間が居る(人間A、人間B)
A 人間Aは○○と述べた、人間Bは△△と述べた(2)

機械には連想思考は期待できない以上、徹頭徹尾人力でインプットあるのみ。
138 :
デフォルトの名無しさん
2014/11/03(月) 09:22:18.89 ID:tokfpTJi
>公式に当てはめる単純なタイプの問題には対応できますが、図形の性質に着目するような応用タイプの問題にはまだ対応できないようです。

「方べきの定理」という公式にあてはめるだけの問題も、図形がらみだと機械には理解できないらしい。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/f/d/fd1497d7.jpg

余計な部分を消せば、「円に交わる(または接する)、平行ではない2本の直線」と、数式化できる。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/0/c/0cdeedcc.jpg

図形の性質に着目するような応用タイプの問題は、余計な部分を消して、公式に当てはめる単純なタイプの問題に帰着させること。
設定が複雑になったら、「○本の直線と、○個の円と、○個の三角形と、○箇所の接点と、○箇所の交点」をバラバラに抽出し、しかる後に全ての組み合わせを提示する。
139 :
デフォルトの名無しさん
2014/11/03(月) 11:07:24.52 ID:gGej6kOp
今回も出来の悪かった数列について。

b1 = 1 , bn+1 = bn + 3 → 階差数列 Cn = bn+1 - bn を考える

東ロボは、こんな程度の初歩的な連想ゲームも出来なかった。式の同値変形は東ロボの得意技であり、
bn+1 - bn = 3  と変形できれば簡単ではなかろうか。同様に 3bn+1 = 3bn + 4 → bn+1 = bn + 4/3 
→ bn+1 - bn = 4/3 も可能なはずだ。それから式の同値変形の手順も教え込んでおきたい。
140 :
デフォルトの名無しさん
2014/11/03(月) 11:29:13.15 ID:gGej6kOp
物理の第三問は、「段差を作った容器に浅く水をはる」「斜め方向に一定周期の平面羽を入射させる」の文から、以下のような類題を検索できないだろうか。

図1のような深さが変化する水槽に水を入れ図2のように深さが変わる境界面に対して、45°の方向から斜めに平面波を進行させたところ、
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q12119401572
141 :
デフォルトの名無しさん
2014/11/03(月) 18:22:59.01 ID:tokfpTJi
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/f/1/f1f74737.jpg

 ブルーベリーがのったデコレーションケーキ(のイラスト)なんて、おそらく多くの
人が生まれて初めて見るものでしょうね。なのに、われわれはそれがそうだと、正し
くわかる。どうしてなのでしょうか。これは認知科学という分野の難問のひとつです。
 だいたい、このイラスト、変なんです。ブルーベリーの直径って1センチ未満ですよ。
だとすると、このケーキ、直径が12センチくらいしかないことになる。そんなの、
おかしいでしょう?(笑)にもかかわらず、その年のセンター入試を受けた受験生たち
は誰一人としてそれを変だと思わず、粛々と問題を解いたんですね。
 ちなみに私の職場で、ケーキにプチトマトがのってるね、と言ったひとがいますね(笑)。
<ロボットは東大に入れるか 新井紀子>

>ケーキにプチトマトがのってるね、

楕円形の周上に、白っぽい不定形の何かと、黒っぽい円形の何かが、交互に並んでいる。
但しこの図を立体として観察すると、楕円形は円形を現しており、また黒っぽい円形の何かの中心部が白くなっているのは球形と推測される。
142 :
デフォルトの名無しさん
2014/11/03(月) 19:01:37.56 ID:ieVOoQg9
東ロボくんって画像処理系の人ほとんどいないでしょ
143 :
デフォルトの名無しさん
2014/11/03(月) 23:09:51.81 ID:tokfpTJi
初頭幾何は、不要な線を消して、必要な線だけにしないと、定理が使えない。

元の図形
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/a/3aaa1e5f.jpg
単純化して、2QT=QR
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/0/1/01eaff32.jpg

線分QTと線分QRの関係を求めるのに、どの線が必要で、どの線が不要なのか。
また必要な線が無い場合は、点と点同士を結んだり線分を延長させたりして、補助線を引く。
計算力にモノを言わせて、しらみつぶしに全ての場合を調べつくすというやり方もある。

正九角形があり辺を共有しない三角形はいくつあるか。という問題があり、答えは30らしいです。なぜこうなるのでしょうか?
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10114300645

全ての場合をしらみつぶしに数え上げるアルゴリズムは可能ですか?
144 :
デフォルトの名無しさん
2014/11/04(火) 00:06:26.26 ID:LJyHsHlb
組み合わせ最適化だろ
オーダーくらい自分で考えろよ
145 :
デフォルトの名無しさん
2014/11/04(火) 02:08:02.45 ID:Td6UKxL3
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/5/8/589fbe91.jpg

全滅だった表問題だが、このくらいならエクセル処理できるのではないか。
146 :
デフォルトの名無しさん
2014/11/04(火) 10:46:33.52 ID:Td6UKxL3
イラスト理解は、とりあえず形状と色彩だけを、「遠近法」で大雑把に捉えて推定するくらいの機能を。

>ケーキにプチトマトがのってるね、

ケーキだのクリームだのブルーベリーだのは特定できなくてもいい。まず「形状」は、手書きの文字認識機能
は向上しているのだから、その技術を応用すればいい。また「色彩」は白黒でも遠近法が把握できるように工夫する。
楕円形の周上に、白っぽい不定形の何かと、黒っぽい円形の何かが、交互に並んでいる。但しこの図を立体
として観察すると、まず何かの土台があって、上部の楕円形は円形を現しており、また黒っぽい円形の何かの
中心部が白くなっているのは球形と推測される。
147 :
デフォルトの名無しさん
2014/11/04(火) 11:14:12.09 ID:Td6UKxL3
>>116
>朝三暮四になっていないか、一つの問題を様々な角度から理解させたり、表現や設定を変えて類題を作ってみる。

私の講座のテキストで恐縮ですが、コチラの2問をご覧ください。
一見すると、「お菓子を配る問題」「直方体を積み上げる問題」と別の問題に見えます。
しかし、解いてもらえるとわかりますが、この2問は素因数分解を使って解く、
同じパターンの問題です。つまり類題ってことになりますね。
さらに、(細かい説明は解説に任せますが)2つの問題とも「2以上」という語句が共通しており、
この「2以上」が解法の方針を示してくれる重要な語句だということがわかります。
これより類題とは、問題文の重要語句が共通している問題を指すことがわかります。
したがって、皆さんが類題を認識するためには、問題文の重要ポイントを意識しない
といけないんだっていうことがわかりますね?
http://shibasaki873.blog.fc2.com/blog-entry-74.html
148 :
デフォルトの名無しさん
2014/11/04(火) 11:49:28.30 ID:Td6UKxL3
>日本語の形式表現変換については,物理科目では極めて困難で,

>余計な部分を消せば、「円に交わる(または接する)、平行ではない2本の直線」と、数式化できる。

そもそも自然言語というのは、単語ひとつとっても『不要な情報』で溢れ返っている。例えば『板』という単語の用途は様々で、
物理学的にみれば「剛体」にもなりうるし「物体」にもなりえるし「障害物」にもなりえる。東大の二次試験などは分野が複数
にまたがっていて一層わかりにくい。自然言語文を題意に合わせた形式表現変換するには、膨大な連想シソーラス網から、
必要な部分だけを切り出すこと。
他の煩雑かつ不要な情報を完全に除外し「重要ポイント」のみを抽出する。入試問題の多くは過去問の焼き直しだが、
表面上の言い回しを変えていたり、別の図柄を用いていたりして、改題して出題される場合が多い。似た問題は出るが
同じ問題は出ない。単純な問題に不要な情報を追加してわざとわかりにくくしているのだ。こういう場合は「類型問題」
の候補をいくつか挙げて、共通事項を抽出するというアルゴリズムが不可欠になってくる。
149 :
デフォルトの名無しさん
2014/11/05(水) 13:11:11.01 ID:TFchYdUt
ていうかどうしたいのかね。
画像処理では物体認識と、座標位置は取得できけど。
150 :
デフォルトの名無しさん
2014/11/06(木) 07:15:21.52 ID:1dD9kBwW
http://blog.livedoor.jp/dg_law/archives/52234923.html

>日本語の形式表現変換については,物理科目では極めて困難で,数学のような半自動化さえ難しい。
>日本語が曖昧すぎるため。たとえば「金属を折り曲げる」や「滑らかな坂」を東ロボくんが自力で理解して,
>シミュレーターに取り込むのは,少なくとも現状では絶対に無理。

こういうのは、物理用の形式表現変換コーパスを用意しておきたい。

>金属を折り曲げる

長方形のABCDがある。金属板は一様で、質量はM。金属板をEFとGHでそれぞれ直角に折り曲げて、
水平な床に置きCDの中点Iから軽い糸でおもりをつるす。おもりの質量がある値より大きいと金属板は倒れてしまう
mはどのような値になるか?
http://okwave.jp/qa/q7197628.html

この類題に、「金属板」=「金属でできた板」とアノテーションをつけておけば、「金属を折り曲げる」にも応用できる。
また金属を折り曲げると、支点とモーメントはどうなるかという連想思考も可能になる。

>滑らかな坂

したがって滑らかな坂を転がる質点は運動の方向が斜面の形状によって変わろうとも力学的エネルギーの保存は成り立っている。
http://www.ep.sci.hokudai.ac.jp/~heki/pdf/mechanics5.pdf

全ての文章を完璧に形式表現変換できなくても、過去問の解法パターンからある程度の推論はできる。
入力予測機能を備えた文字変換システムのように、解法予測機能をつける。
151 :
デフォルトの名無しさん
2014/11/06(木) 13:15:54.06 ID:1dD9kBwW
http://www.ep.sci.hokudai.ac.jp/~heki/pdf/mechanics5.pdf

>なめらかな面に束縛された質点の運動。

これをどうやってコンピューターに理解させるか、どう形式変換するか。

mv2/2(運動エネルギー) + mgh(位置エネルギー) = 一定、となる物理現象とでも定義しようか。
滑らかな面は不定曲線でもいいということで。これなら風が吹いたり電磁気が出たりで別のエネルギー加減
が生じない限り、公式当てはめで楽に解答できる。
同じ内容の物理現象を、別の言葉で言い換えたり、別のイラスト図で書き換えたりして、形式変換コーパスを増やす。
152 :
2014/11/06(木) 14:50:01.57 ID:1dD9kBwW
数学TAの第5問「104を素因数分解すると〜」ができなかったのは何故かを数学担当者に聞いてみた。
いくら東ロボが語学オンチでも、これはないだろう、と。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/3/0/301029f2.jpg

前文の「104以下の自然数で,104と互いに素である自然数の個数を求めよう。」に目がくらんで解答できなかったらしい。
余計なノイズ(最初の問いでは)が判断を狂わせたのだ。何がノイズかは、文章の一部を何百回もランダムに抜き出して吟味するしかない。
長文は一文一文を分解して(省略語を補い、かつ「それ」「これ」などの代名詞の内容は明確にした上で)、
例えば一つの大問に10の文章があったら、その中からランダムに一つ(10通り)、ランダムに2つ(10×9÷2=45通り)、
ランダムに3つ(10・9・8÷3・2)・・・というふうに挙げてみる。また一つの文を文節に区切ったり、短い文に書き換えたり、
省略語を補ったり、ランダムにいくつかの文節を切り取ってみたりして、小問ごとに必要な要素だけを抽出する。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/8/f/8f23e42b.jpg

数列もからっきしだった。これの最初の問いは、ある条件での等比数列の一般項を求めるというごく初歩的な問い。

いったんノイズを消去して、a2 = 24 , a5 = 192 から r^3 = 8
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/5/6/56b247f8.jpg
あとから復活させて、公比は実数だから r = 2 よって
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/2/8/28b927d8.jpg
公比=2、かつ a2 = 24 より 初項a1 = 12 、よって数列{an}の一般項は an = 12(2)^(n-1)
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/c/3/c3506aa2.jpg

あとは東ロボくんお得意の「同値変形」で楽勝のはず。
153 :
デフォルトの名無しさん
2014/11/06(木) 16:11:34.55 ID:1dD9kBwW
>ブルーベリーがのったデコレーションケーキ(のイラスト)なんて、おそらく多くの人が生まれて初めて見るものでしょうね。
>なのに、われわれはそれがそうだと、正しくわかる。どうしてなのでしょうか。

http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/0/9/090ff180.jpg

こうして「ある部分」を削除してしまえば、「何かと何かが交互に楕円形に並んでいる」くらいの認識はできるはずだ。

どのように削除するかは、「境界線」のみに着目して切り分けで、あとはランダムに何万通りも抽出する。
154 :
2014/11/06(木) 18:54:37.32 ID:yUh2UtPW
ここを頻繁に更新している人って同一人物なの?
155 :
デフォルトの名無しさん
2014/11/06(木) 20:49:20.00 ID:Z+6n6avI
>>153
画像処理を最低限知ってから言えよ
ちんぷんかんぷんだわ
156 :
デフォルトの名無しさん
2014/11/07(金) 02:56:19.25 ID:zRPOEUiC
>>155
そういう君は、画像処理のプロなの?
157 :
デフォルトの名無しさん
2014/11/07(金) 20:12:31.00 ID:LCGb7X+6
囲碁の碁石は、将棋の駒とは違い、一つ一つに能力の差は無い。状況によって要石になったり廃石になったりする。
これは企業が社員ひとりひとりの評価をどうするかという問題と似ている。どの社員が必要で、どの社員がお荷物なのか。
ある時には存分の活躍をしていた社員も、時代が変わればお荷物になったり、逆に新人のときにお荷物だった社員が、
3年目で頭角を現してくる場合もありうる。碁石の評価は社員の社内評価と同じと考えられないだろうか。

●●●
●●●
●●●

だが少なくとも上の図の真ん中の黒石は、役に立たないどころか完全な害悪であろう。会社で言えば「懲戒免職」に値する。
こんな社員ばかりを抱えている企業に、未来があるようには思えない。囲碁における「評価関数」も、
○手目現在における人事評価ということにしてはどうか。
158 :
デフォルトの名無しさん
2014/11/08(土) 04:53:29.67 ID:WHpgboF2
>>156
プロだけど?
でも書き込みの内容から最低限度の知識も無いことは誰でもわかるね
159 :
片山博文MZ次期CEO ◆T6xkBnTXz7B0
2014/11/08(土) 05:41:32.70 ID:ebCh2W7f
【確率問題の考え方】
1.試行や事象を表す文章から、すべての未知数の範囲を決定し、
それぞれの未知数の範囲を区間の集合として表す(Boost.Icl参照)。
2.特定の試行や事象の未知数の組合せを計算し、全試行・全事象の組合せに対する割合を求めたものが確率である。
160 :
2014/11/08(土) 06:33:51.13 ID:ebCh2W7f
※「コインには裏と表がある」「袋にお金を入れると袋の中のお金が増える」
といった常識を理解しておく必要がある。
※試行には順序がある。
161 :
デフォルトの名無しさん
2014/11/08(土) 09:53:46.74 ID:DB2yxOk0
>>158
>プロだけど?
>でも書き込みの内容から最低限度の知識も無いことは誰でもわかるね

では先生が>言う「最低限度の知識」とは何?
162 :
デフォルトの名無しさん
2014/11/08(土) 09:56:43.31 ID:6X6f98tO
>>158は素人なのは、書き込みからして明らか。プロなら間違いの理由を理路整然と述べる。
163 :
デフォルトの名無しさん
2014/11/08(土) 09:58:47.70 ID:6X6f98tO
>>161
「プロのあなたに教わりたい」なんて言ったら逆切れするだろうねw
164 :
2014/11/08(土) 10:04:27.32 ID:DB2yxOk0
更に言えば、その道で高給稼いでる画像処理のプロが、こんな2ちゃんねるの名無しの
ゴミカキコにいちいち反応する理由があるのか。

踊るアホウに見るアホウwwww
165 :
デフォルトの名無しさん
2014/11/08(土) 10:10:13.37 ID:6X6f98tO
優秀なプロの画像処理エンジニアの君のレスを、早く読みたいなぁw
166 :
2014/11/08(土) 11:13:11.28 ID:V4kxl14a
公務員試験の先生がなにをほざいているの?
167 :
デフォルトの名無しさん
2014/11/09(日) 00:34:13.35 ID:iKOy/805
>>162
しょうがないなぁ
マッチング性能トップはずっとconvolution newralnetだよ
画像処理の機械学習について調べたらすぐ出てくることだぜ
168 :
デフォルトの名無しさん
2014/11/09(日) 00:36:05.09 ID:iKOy/805
東ロボくんの講演で参加者がアホなことほざいてるのは画像処理の人間がほぼいないからってだけだ
お互いにできるこできないことだけでも相談してみたらいいのにね
だから情報工学は程度が低いって言われるんだよ
169 :
2014/11/09(日) 09:28:59.82 ID:GJ+B7IxW
せめて画像認識とかコンピュータビジョンとか言ってくれ
170 :
デフォルトの名無しさん
2014/11/09(日) 12:07:09.66 ID:iKOy/805
アハハハw
171 :
デフォルトの名無しさん
2014/11/09(日) 18:10:14.84 ID:uoUT28t9
>>168
>東ロボくんの講演で参加者がアホなことほざいてるのは

だから優秀なエンジニアの君にこそ、技術立国日本の未来がかかっているってことさ!!

優秀なエンジニアの君の話を、もっと聞きたいなぁ。
172 :
2014/11/09(日) 19:16:53.62 ID:wHnpXD4s
>>168
お前が無知だということはよくわかった。もう来ないで欲しい。
173 :
デフォルトの名無しさん
2014/11/11(火) 07:12:12.70 ID:0bxYCDe4
「各○個ずつあり」「左から1列に並べる」「〜の順に並んでいる」「繰り返し行う」「次の操作を繰り返し行う」「無作為に〜を選び」
「場所を入れ替える」、そのままを当てはめればいいだけではないのか。

<2014年代ゼミ東大プレ文系数学第二問>
 白球,黒球,赤球,青球が各1個ずつあり,これらを左から1列に並べる。最初,4個の球は左から「白球,黒球,赤球,青球」
の順に並んでいる。これらの球に,次の操作(※)を繰り返し行う。
(※)4個の球のうちから無作為に2個の球を選び,これらの並んでいる場所を入れ替える
<以下略>

【問】A,B,Cの3つの箱と,赤,白,青,黄の玉が各3個ずつある。
http://www.nipec.nein.ed.jp/kk/b14/h22/pdf/16nagai.pdf

(1)順序をつけて,左から 1 列に並べる場合をすべてあげよ.
http://157.7.137.167/text/mat_a_s2/mat_a_s2_05.pdf

http://pws.prserv.net/math/mathpuz.html
3人は、前からA、B、Cの順に並んでいます。

いま、初めに頂点Aに白玉を1個、頂点Cに赤玉を1個置き次の操作を繰り返し行う。
http://www.riruraru.com/cfv21/math/kom11sA4.htm

例題 13 右の表は,206 個の卵のうちから無作為に35個を選び,その重さを調べたものである。
http://www.insatell.co.jp/CN/ikou/chugaku/pdf/chumath_3.pdf

池の左側にアマガエルが、右側にヒキガエルが3匹ずつ並んでいる。このカエルのいる場所をそっくり入れ替えてほしい。
http://r27.jp/quiz/toads-and-frogs/
174 :
デフォルトの名無しさん
2014/11/12(水) 11:50:37.55 ID:LPSYNXn+
中間言語方式はなぜ失敗したのか
175 :
2014/11/12(水) 14:03:23.82 ID:dsokmnVj
機械翻訳における枢軸(pivot)の話か?
そのような中間言語を作ることが事実上不可能だから。以上。
176 :
デフォルトの名無しさん
2014/11/12(水) 15:33:24.76 ID:LPSYNXn+
なぜ不可能だったのか
177 :
デフォルトの名無しさん
2014/11/12(水) 22:23:18.43 ID:yWDn898h
 検索キーワードを選んだら「実数」「満たす」「範囲」とか「a」「x」とか、ほとんど変わらないです。
でも、解き方も答えも全然違う。数学の問題は、統計的手法ではどうにもならなさそうです。
1)xを実数とする。つねにx^2 + ax + 4 ≧ 0 であるとき、aの範囲を求めよ。
2)x,y を実数とする、a = x + y とする。つねにx^2 + y^2 = 1 であるとき、aの範囲を求めよ。
<ロボットは東大に入れるか 新井紀子>

>つねにx^2 + ax + 4 ≧ 0 であるとき、
>つねにx^2 + y^2 = 1 であるとき、

前者は「2次不等式」、後者は「円の方程式」。それくらいの違いは区別してもらいたい。
178 :
2014/11/12(水) 22:50:00.93 ID:dsokmnVj
>>176
日本語の「首」が、ネックの意味だったりヘッドの意味だったりするとか
そういった翻訳上の困難を全部、しかもあらゆる言語間におけるそういった
差異を全部中間言語が吸収しなければならない。あるいは、そうでなければ
各言語間のそういった問題を、中間言語(への・からの)変換部分が抱え込む
必要があって、結局、n 個の言語に対して n × n 個の翻訳エンジンを作るのと
変わらない難しさということになってしまう。
179 :
デフォルトの名無しさん
2014/11/13(木) 00:33:08.26 ID:EzUPhDs/
中間言語の候補としては、数学とか物理とかが良いと思う。「東ロボ」プロジェクトに期待したい。

>つねにx^2 + y^2 = 1 であるとき、

x^2が1/x(x≠0)だったら話は違ってくるだろう。また高校数学で二次方程式は解けるが三次方程式は解けない。
180 :
デフォルトの名無しさん
2014/11/13(木) 02:08:12.41 ID:EzUPhDs/
類似性に基づく推論は,人間の強力な問題解決方略の 1つである.我々は
新奇な問題に遭遇した時,自分自身が過去に経験した問題や既存の例と
いった「事例」から似たものを参照し,それを問題解決に利用することが
多い.そのため,様々な課題を用いて,人間の類似性判断や問題解決にお
ける思考メカニズムを理解する認知心理学的研究や,類似性に基づく推論
を要素技術として問題解決や問題解決支援を行う計算機システムを構築す
る知識工学的研究が展開されてきた.
類似性に基づく推論においては,現在直面している問題と類似する過去
の事例を利用することから,類似性の判断が問題解決における重要なキー
となる.類似性は,問題と事例との間の同一の要素(共通点),および,
異なる要素(差異)に基づいて評価される.一般に,現在の問題と完全に
一致する過去の事例が利用できることは稀であるため,通常は問題と事例
との差異に基づき,事例を修正する必要がある.
しかし,差異は単に埋められなければならないだけのものではなく,差
異に積極的な意味が生じる場合も存在する.その一例が,数学学習におけ
る問題解決である.数学学習には,教示された問題(例題)に基づいて別
の問題(類題)を解く類題解決や,学習者自身が新しい問題を作り出す作
問といった問題解決がある.数学における作問については,問題を作るこ
とは問題を解くことと同様に重要な活動であることが,数学者や数学教育
者によって指摘されている.

類似性に基づく推論を用いた知的問題解決支援の検討と実現
http://ir.nul.nagoya-u.ac.jp/jspui/bitstream/2237/8249/1/kojima_thesis.pdf
181 :
2014/11/13(木) 03:28:10.49 ID:mINVD8Cg
中間言語やインターフェースは、卸しと同じ

メーカーが10社、小売店が20社あるとき、
卸しが無いと、10*20=200 通りのコネクションが必要だが、

卸しを中間に介すると、メーカー・卸し間が10通り、
小売店・卸し間が20通りの合計、10+20=30 通り

つまり、掛け算を足し算にすることで、
組み合わせ爆発を防いで、コネクションの手間をへらす
182 :
2014/11/13(木) 07:54:59.39 ID:EnlSRtmw
>>179
一般的解法は教えられないが数学Uで因数定理を使った解き方は教えられる
183 :
2014/11/13(木) 10:17:56.29 ID:7ZjHj42h
>>179
単に言語が表現できる世界を極端に制限するだけじゃないか。
そんなことを許せばいくらでも簡単になることは当然わかっている。

そのかわりどんな短篇小説の一本も訳せないような使えないゴミができるだけだ。
184 :
デフォルトの名無しさん
2014/11/13(木) 14:34:17.79 ID:ydn9QRw8
>>183
東ロボは国語もやってるが?
185 :
2014/11/13(木) 15:00:26.25 ID:7ZjHj42h
機械翻訳における枢軸(pivot)の話とは違う「中間言語」のことを言いたいのか?
だったら知らんわ。
186 :
デフォルトの名無しさん
2014/11/13(木) 23:46:06.97 ID:G+XRMicG
東ロボの話してるやつは体系的に勉強して出直してこい
187 :
2014/11/14(金) 02:28:48.58 ID:cE0anVKk
>>186
そういう君は、自然言語処理学のプロなの?
188 :
2014/11/14(金) 10:28:40.79 ID:0NdzO4Gj
プロの定義による、と一蹴されて終わりということがわかっている質問をなぜするのか?
人工知能云々以前に、バカだから、か。
189 :
2014/11/14(金) 10:55:08.96 ID:NoejJarl
プロといいたいアマチュアな方が
190 :
2014/11/14(金) 10:59:07.21 ID:0NdzO4Gj
東ロボの話してるやつはどう見てもアマチュア以前だがな
191 :
2014/11/14(金) 10:59:35.20 ID:NoejJarl
アマチュア以前ってありですか?
192 :
2014/11/14(金) 11:05:09.41 ID:/Gbyfjip
ここにプロ以降()が居るとは思えん。
193 :
2014/11/14(金) 11:11:46.80 ID:NoejJarl
それっぽい方がたまに降臨されることが
194 :
デフォルトの名無しさん
2014/11/14(金) 16:47:02.37 ID:cE0anVKk
>>188
>プロの定義による、と一蹴されて終わりということがわかっている質問をなぜするのか?

レスありがとう。それが自然言語処理学のプロたる君の意見なんだね。

だから優秀なエンジニアの君にこそ、技術立国日本の未来がかかってるってことさ!
195 :
2014/11/14(金) 17:15:16.64 ID:127iWseV
東ロボはマーケティング・話題作りのセンスがズバ抜けている
エスキモーに氷を売れるレベル
196 :
デフォルトの名無しさん
2014/11/14(金) 20:26:15.60 ID:E47YIEif
人工知能学会の親戚でしょ
無人気すぎて細々とやってたとこで昔からアマチュアの参加を奨励してたよね
197 :
デフォルトの名無しさん
2014/11/16(日) 15:42:31.45 ID:jrq2Dts2
( 1) オブジェクト指向的アプローチによる係り受け/語義曖昧性解決/照応解析/
述語項解析システム
伊藤 英紀 ((株)富士通研究所)
係り受け解析、語義曖昧性解決、照応解析、および述語項解析の4つのタスクに
対する新たなアプローチを提案する。第一に、これら4つの処理を、逐次的(パイ
プライン的)にでなく同時に行う。これにより、逐次的に行うよりも解析精度が
向上することが期待される。第二に、文中の名詞をオブジェクトに対応させ、
それらオブジェクトの属性とその変化をトラッキングする。形容詞は一般にオブ
ジェクトの属性を、動詞はそれらオブジェクト属性の変化を表す、と考える。
これにより、文脈の情報を解析結果に反映させることが可能となる。このような
意味理解のモデルは、人間が脳で行っているであろう理解プロセスに近く、自然
言語理解には有望なアプローチである。このアイデアに基づいたシステムを実装
し、例文に対して動作を確認した。
( 2) uLSIF を用いた事例への重み付けによる語彙曖昧性解消の領域適応
新納 浩幸, 菊池 裕紀, 佐々木 稔, 古宮 嘉那子 (茨城大学工学部情報工学科)
語彙曖昧性解消の領域適応に対して共変量シフト下の学習を試みる。確率密度比
の算出に uLSIF を用いる。このとき通常のガウスカーネルではなく線形カーネ
ルを利用する、また重み付き学習には、通常、最大エントロピー法を用いるが、
ここでは SVM を利用する。また確率密度比が極端に小さい、あるいは大きい事
例のみに重みを与える方法も試す。
http://www.ipsj.or.jp/kenkyukai/event/nl218.html
198 :
2014/11/18(火) 04:28:56.07 ID:3dChaymz
長文コピペする奴がいるせいで糞スレに
199 :
デフォルトの名無しさん
2014/11/18(火) 14:10:53.64 ID:7YVftxrd
人工無脳学会はないの?
200 :
sage
2014/11/18(火) 20:56:42.46 ID:jieDrr0b
>>198
本当だよね。このスレは本来需要が高いはずなんだけど、スパム投稿で荒らされてる気がする。
201 :
デフォルトの名無しさん
2014/11/18(火) 21:19:15.86 ID:f2DqKBZs
自然言語処理の需要ってあんの?
202 :
2014/11/18(火) 21:44:26.22 ID:EImKA09P
>>200
削除願い出したら?
203 :
sage
2014/11/19(水) 01:09:50.33 ID:hLraT9DN
削除して再出発しても、自分の意見のない荒らし君が来るとまた同じだからなぁ。
204 :
デフォルトの名無しさん
2014/11/19(水) 05:37:54.13 ID:SWof/ihh
じゃあ聞くけど東大ロボットて問題どう読み込んでるの
世界史なんか図をを認識する必要があるのに
まさか手作業で、コンピュータに理解できるように
入力してるじゃあないだろうなw
205 :
2014/11/19(水) 06:50:11.76 ID:CbmB6PIS
長文禁止とかいうルール無いからなぁ…荒らしとは判断し辛い。
長文投げる人がコテつけてくれたらいいんじゃないかな?読みたい人は読めて長文嫌いな人は黙ってNGできるように。
206 :
デフォルトの名無しさん
2014/11/20(木) 08:59:42.01 ID:AVgM9bDZ
でも画像処理スレが他にあるのにここで変な話されてもね
207 :
2014/11/21(金) 19:28:46.00 ID:u/qmfXxQ
>>206
画像が東ロボの本質というわけではないよね。
208 :
デフォルトの名無しさん
2014/11/21(金) 21:08:35.82 ID:u7zfQT1D
209 :
デフォルトの名無しさん
2014/11/21(金) 22:00:40.78 ID:o0Qb8YAB
>>208
もしかして>>153を投稿された方でしょうか。でしたら質問があります。

現在の画像処理技術で、「不要な部分を消して、必要な部分だけ取り出して認識」は可能ですか?
また>>153の画像から、「何かと何かが交互に楕円形に並んでいる」と認識させることは可能ですか?
それから>>136>>143のように、「認識に必要な輪郭だけを取り出す」ことは可能ですか?
210 :
デフォルトの名無しさん
2014/11/21(金) 22:33:18.98 ID:u7zfQT1D
211 :
2014/11/22(土) 01:13:12.25 ID:AHB+ph+z
亀レス。

>>137
文章題は、「風が吹けば桶屋が儲かる」方式の連想モードで何とかなるかも。機械には
「なぜそうなるか」の論理思考は無理だが、試験問題の多くはそういう能力を要求していない。
212 :
デフォルトの名無しさん
2014/11/22(土) 01:16:42.03 ID:g4vKpQIM
何言ってんだ?
213 :
デフォルトの名無しさん
2014/11/22(土) 14:09:13.78 ID:6/H2UDnl
エラー分析まとめ
<誤り 200事例 分析結果>
@正解を支持する推論事例が得られていても誤った
? 従来の知識表現で?適切でない推論事例が適用されてしまうのではないか?
→ 大部分を占めている.@事象間関係知識?文脈化
A正解を支持する推論事例が得られなかった
? 2億もの推論事例をもってしても得られない → 類似した事例が在るが適用できない
? より大規模にすれ?解決する問題なのか? → そういった問題?少ない
http://www.cl.ecei.tohoku.ac.jp/~jun-s/publications/nlp2014_slides.pdf
214 :
2014/11/22(土) 16:10:30.29 ID:6qlI/h48
人口知能
詐欺集団の合言葉
役人の受けがいい、人口知能関連で科研費が出やすい
何時までも詐欺行為がとまらない
215 :
2014/11/22(土) 19:26:32.72 ID:ueFBqDyb
「人口知能」じゃ予算は出ないと思うけど
216 :
2014/11/22(土) 22:49:14.76 ID:o5aDMJLX
いかにも僻み根性だけで生きている無能らしい誤字だな
217 :
2014/11/23(日) 02:01:52.03 ID:PwhPUgLb
>>124
>作業者の多くは人文系の日雇いもしくは時間単価で働くパート労働者であり,

「 2チャンネラー百万人 」ってのも、当たらずしも遠からずだな。
218 :
2014/11/23(日) 02:42:03.48 ID:PwhPUgLb
新井紀子氏「これは面白い結果。"含意関係認識は人間には易しく機械には難しい"と我々人工
知能/自然言語処理の学者は考えているが、本当にすべての人間は含意関係認識を行えるのだろうか」
219 :
デフォルトの名無しさん
2014/11/23(日) 03:50:57.22 ID:EIkF2ojA
情報工学の連中はなぜ自分らのやってることをサイエンスだと思ってるんだ?
220 :
2014/11/23(日) 03:57:22.23 ID:K4bM7kRY
確かにどっちかというと数学に近い
221 :
デフォルトの名無しさん
2014/11/23(日) 04:24:52.15 ID:EIkF2ojA
数学ならサイエンスだろ
アホか
222 :
2014/11/23(日) 10:31:00.56 ID:K4bM7kRY
もうしわけないが数学はサイエンス=自然科学ではないね
223 :
2014/11/23(日) 10:43:58.95 ID:heOpQ8vp
お前の中ではな。
224 :
2014/11/23(日) 10:52:01.52 ID:U8weQpWK
工学はエンジニアリングだしな。
こういったごく基本的な語の解釈すら怪しい奴が何を批判しようとしても自爆するのは当然w
225 :
2014/11/23(日) 10:56:15.70 ID:K4bM7kRY
え?数学が自然科学ではない、というのは当たり前の話じゃなかったの?
226 :
2014/11/23(日) 15:07:14.96 ID:z0t1kbZ2
数学が自然科学じゃなきゃ何に分類されるって言うんだそもそもスレチだが
227 :
2014/11/23(日) 15:13:23.98 ID:K4bM7kRY
228 :
デフォルトの名無しさん
2014/11/23(日) 18:57:03.46 ID:PERA2nvu
51. 意味素性 つづき ?出来事および動作、作用の領域:PRC ?ACT(動作、行為) ?EVE(イベント、出来事)
?APO(予定に従った行動: ex 銀行が9時から始まる) ?RES(結果 ex 災害) ?PRO(結果、制作物 ex パンを焼く)
?PHE(自然現象の結果できるもの ex 氷が張る) ?NAT(自然物、現象 ex 台風、太陽) ?PLA(植物) ?GAS(気体 ex 霧、息)
?ELM(五感では捉えられない性質 ex たんぱく質、神 経) ?POT(身体部位 potency ex 足、肩、肺、胃腸)
52. 意味素性 つづき ?抽象性の領域:ABS ?Price(収入、価格) ?Measure(身長、体重) ?Information(情報、身長、小説、音楽、批評、住所)
?Quantity(重量、面積) ?Social bonds(格差、関係) ?Grade(身分、評価、規模) ?Form (評価される属性 ex 味、形)
?Attribute(程度で計るもの ex 非常識、進歩、塩) ?Reciprocity(相性) ?Personality(意地、性格) ?Mind (勘、神経)
?Manner(能力、性向など ex 料理、詰め、発表、運転、色 使い、人使い)
53. 意味素性 つづき ?抽象性の領域:ABS ?Method(方法、やり方) ?Objective-value(値 ex 赤、四角) ?Sensational-value(甘い、辛い)
?Evaluation(評価 ex 台所が苦しい、財政、舌) ?Currency(価格 ex 100ドル、1000円) ?Duration(期間 ex 3年) ?Distance (距離 ex 3km)
?Item(数を表す、ex 3人、1個) ?Ratio(割合, ex 30%) ?Quantity(量 ex 30kg) ?State(状態 ex安定、幸福、不幸、静か、可能、頑固)
54. 意味素性 つづき ?抽象性の領域:ABS ?Role(役職名) ?Relational-term(親族、交友関係) ?Direction(東西南北左右上下前後)
?Phase(時間的、位置的順序) ?Reference-point(基準点からの相対 ex 逆、以上) ?Norm(規則、法則、法律、公式)
?Subfield(学問、芸術、スポーツなどの分野) ?Inclination(心理的傾向 ex 興味、馴染み) ?Appearance(外見 ex印象、態度、形跡)
?Unit(単位) ?Time-point(時点) ?Time(出来事の順序関係、抽象的時間 ex 将来)
http://www.slideshare.net/hirsoshnakagawa3/grammar-39910952
229 :
2014/11/23(日) 18:57:20.44 ID:yTKWpXRp
役に立てばどっちでもいいよ
230 :
デフォルトの名無しさん
2014/11/23(日) 19:14:32.75 ID:uAltGaNh
整数は神が作ったから整数論は自然科学
それ以外は人間がつくったkら形式科学
231 :
2014/11/23(日) 19:22:23.28 ID:PERA2nvu
グーグルが開発を進めている、写真を「自動的に説明する」技術
http://wired.jp/2014/11/20/google-image-recognition/
自然言語処理に新風を巻き起こしたWord2Vecとは何か
http://business.nikkeibp.co.jp/article/bigdata/20141110/273649/
述語項構造を意識した名詞の意味構造アノテーションのための名詞意味構造の検討
http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no6_papers/JCLWorkshop_No6_06.pdf

意味役割の種類
現段階での意味役割の種類を記述する.大きく 4 つの類にわけて,中分類で 29 種類を定義した.
さらにこれらに対して属性タイプが付与される形である.まず 29 種類を以下に示す.
構文類 ?      連語,外の関係,補語相当
対象類 ?      経験者,被使役者,対象,基準, 相互, 起点,着点,起点・着点,通過点,経路,方向
動作主類 ?    使役,原因,動作主,使役者,手段
条件周辺類 ?   限界,領域,場所,時間,条件,様態,程度,目的,順接,逆接
232 :
2014/11/23(日) 19:26:53.14 ID:PmCQRqdR
>>228
>>231
ならば今こそ、そうした「意味役割」を付与したアノテーションコーパスを作成すべきだ。
それこそ 「 2チャンネラー百万人 」を動員すれば何とかなるはずた。
233 :
2014/11/23(日) 19:34:46.40 ID:U8weQpWK
2ちゃんねらーなんか動員したら、ゴミの山が出来上がるだけ。
徴兵とか徴農とかがたいしてうまくいくシステムじゃないのと同じ。
234 :
デフォルトの名無しさん
2014/11/23(日) 21:41:51.89 ID:PmCQRqdR
でも、アノテーションコーパスは、人手でやるしかないんでしょ。
235 :
デフォルトの名無しさん
2014/11/24(月) 03:15:43.74 ID:wqHflsYn
無意味なコピペするやつやめてくんない?
236 :
2014/11/24(月) 11:35:30.53 ID:rXGvP499
>>228とかホント迷惑だよね。お前の意見はないの?という。
237 :
デフォルトの名無しさん
2014/11/24(月) 23:07:25.90 ID:PS8Utgm4
>>124
>作業者の多くは人文系の日雇いもしくは時間単価で働くパート労働者であり,

43歳ニートの俺でも雇ってくれるかな・・・
238 :
デフォルトの名無しさん
2014/11/25(火) 09:26:09.87 ID:aL15dD2y
数学では,ある問題を解くために,その問題を別の問題に翻訳して,もとの問題ではなく
て翻訳された問題の方を解く,という方法がとられることがよくあります.A という問
題を解くために,B という問題が解ければ,その解から A の解も得られることが判って
いるような問題 B をうまく設定して,A を解くかわりに B を解くのです.このような
問題 B を見つけることを,「問題 A を問題 B に帰着させる」と表現します.B は以下の
例でのように単に A の言い替えにすぎない場合もありますが,面白いことには,B は A
よりむしろ難しい問題になっていることも多いのです.これは,問題がやさしいか難しい
かは必ずしも問題が解きやすいかどうかということと一致しない,ということでしょう.
多くの場合,解きたい本来の問題 A を帰着させる先の問題 B は A よりずっと抽象的
な問題になっています.これは,前の節でも述べた,抽象的な設定の方が数学的には扱い
やすい,という現象の現われと言えるでしょう.
もとの問題 A が一般的な(必ずしも数学で扱えそうには見えないような)問題で,そ
れを数学的な問題 B に帰着させているときには,A の数学化(mathem atization)が B で
ある,というような言い方をすることもあります.
一般的な問題を数学的な問題に帰着させる,つまりこの一般的な問題の数学化を行う
例として「ケーニヒスベルクの橋の問題」という名前で知られている問題について考察し
てみることにしましょう.
http://kurt.scitec.kobe-u.ac.jp/~fuchino/chubu/method-math-WS06.pdf
239 :
デフォルトの名無しさん
2014/11/25(火) 12:38:38.21 ID:7PX75+Zb
無意味なコピペ迷惑だからやめてくんない?
240 :
2014/11/25(火) 12:48:45.94 ID:jd8KQlKm
反応する馬鹿も消えろよww
241 :
デフォルトの名無しさん
2014/11/25(火) 12:50:18.42 ID:7PX75+Zb
叩かないと消えないでしょ
242 :
2014/11/25(火) 13:21:08.54 ID:jd8KQlKm
tech:プログラム技術[重要削除]
http://qb5.2ch.net/test/read.cgi/saku2ch/1273146924/
243 :
デフォルトの名無しさん
2014/11/25(火) 14:01:43.88 ID:aL15dD2y
コーパス開発はオープンにした方がよい、という提言で、全てのやり取りを公開しましょう、
という話なのだが、オープンソースソフトウェア開発のようにソースコードから開発のやり取り
まで全てをオープンにできる場合もあるが、コーパス作成は元のテキストを書いた人がいるわけで、
全てをオープンにできないという性格がどうしてもつきまとう。もちろん再利用可能なテキスト
にアノテーションをすればいいし、テキストを作るところからオープンにもできるわけだが、
それで見えなくなってしまう言語現象も少なくないと思われるし(実際講演の中でも「少数の
事例をどうするか」という問題提起があった)、個人的にはセミクローズド(特定のグループ内で共有)
程度が現実的なところではないかと思う。
それより大事だと思われるのは、そういったコーパス開発に参加する、あるいは門前の小僧状態で聞
くだけでも人が育つことであって、結局ここがボトルネックになり、特定の研究室の出身者しかノウハウがない、
という状況になっているのだと思う。特に個人的にポイントだと思っているのは、先日も書いたような新人
に対して優しいコミュニティになっているかどうかで、自然言語処理自体はかなり新人が入りやすい
コミュニティだと思うのだが、ことコーパスや辞書のようなリソース作成系はかなりハードルが高いと感じる。
コーパス分析やそれを用いた自動解析に関しても、簡単にできるところはすでにやり尽くされていて、
残っているのは難しいところばかりで、簡単なところから練習してウォーミングアップし、
助走期間を設けて本丸に突撃する、というようになっていないのである。もちろん最先端を走る研究者
たちで議論するのはもっとも難しい事例でよいし、むしろそうでないと意味がないのだが、簡単な事例
から始める(あるいは既存のものの分析からではなく、新しいタグ付与にメンターつきで最初から関わる)、
というトレーニングもあってよいと思う。
http://d.hatena.ne.jp/mamoruk/20140902/p1
244 :
2014/11/25(火) 14:04:53.12 ID:jd8KQlKm
コピペうぜぇ。

誰か削除願い出せや。
245 :
デフォルトの名無しさん
2014/11/25(火) 14:29:27.54 ID:aL15dD2y
コーパス作成について一からやり直したほうがいいかどうかは、悩ましい問題なので一概にどうだ
ということは言いにくいのですが、アノテーション・コーパス作成自体が大きな研究テーマであり、
ベストプラクティス的なものもなければ、少しだけ蓄積されているノウハウ的なものすらチーム
レベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したら
すぐコーパスができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので
(自分の携わった NAIST テキストコーパスは5年以上かかっています)、すぐ利用可能にはならないでしょう。
http://d.hatena.ne.jp/mamoruk/20140902/p1
246 :
2014/11/26(水) 10:03:34.88 ID:NpjnEUfO
国や自治体は、地球儀で表現できる。物体・流体とその運動は、シミュレーターで表現できる。
人物とその行動はオブジェクトで表現できる。けれども「民主主義」とかの抽象概念は表現できず、
せいぜい共起関係を調べるのみ。例えば朝鮮民主主義人民共和国だって「民主主義」ということで、
北朝鮮=民主主義国家なんて理屈も成り立つ。しかしこれは一般的なイメージとはかけ離れている。
従って抽象概念を一般的なイメージに帰着させるためには、いくつかの具体物を結びつけるしかない。

「世間」とは何か
http://www.pat.hi-ho.ne.jp/nobu-nisi/kokugo/seken.htm

「世間」とは・・・近所のおばさん、警察、新聞、学校、勤め先の会社、知り合い・・・・
247 :
デフォルトの名無しさん
2014/11/27(木) 17:46:09.92 ID:+o9Dshrb
英語の論文読むのが苦痛でたまらない
はやく翻訳装置つくってくれ
248 :
デフォルトの名無しさん
2014/11/28(金) 17:31:36.07 ID:7V+kfZOs
対話の学習ってどうやるの?
249 :
2014/11/28(金) 21:08:06.67 ID:utFPiG0+
第二に,3 次元オブジェクトの中には複数の物体から構成されるオブジェクトがある(たとえば,図 6 は「花」と「鉢」
から成る一つのオブジェクトである).今後,画像解析技術が進み,機械が複数の物体から構成されるオブジェクト
を一つ一つの物体に分解できたとしても,機械にとって,それが常識に基づいた構成であるか,常識から外れた
構成であるかを区別することは困難であると推測される.
http://minamigaki.cs.inf.shizuoka.ac.jp/work/2014/SCIS2014fujita.pdf
250 :
デフォルトの名無しさん
2014/12/01(月) 17:26:06.50 ID:7r1s3h7c
目障りなコピペ野郎が
251 :
デフォルトの名無しさん
2014/12/02(火) 19:50:43.04 ID:OPiibqqe
東ロボくん センター模試2014

英語………95
国語………69
世界史B… 52
日本史B… 44
数学TA… 40
数学UB… 55
物理………31

7科目合計…386/900

漢文は全問ノーマーク
世界史Bは2問ノーマーク
日本史Bは4問ノーマーク

数学じゃないんだから
分からない問題はランダムにマークしろよ…
252 :
デフォルトの名無しさん
2014/12/02(火) 19:51:56.20 ID:OPiibqqe
漢文・世界史B・日本史B
ノーマークの問題をすべてランダムにマークしてたら
49.6%の確率で14点以上アップ

つまり49.6%の確率で7科目合計が400点に届いたことになる
253 :
デフォルトの名無しさん
2014/12/02(火) 19:53:47.76 ID:OPiibqqe
東ロボくん 英語 センター模試2014

発音・アクセント問題…パーフェクト(配点14)

未知語-語意推測問題…パーフェクト(配点8)

グラフ・図表問題…得点率75%(配点20)

語句整序完成問題…得点率67%(配点12)

意見要旨把握問題…得点率67%(配点18)

文法・語法・語彙問題…得点率60%(配点20)

会話文完成問題…得点率33%(配点12)

文脈に合わない文-指摘問題…得点率33%(配点15)

実用文書読解問題…得点率33%(配点15)

読解問題(論説文)…得点率33%(配点36)

読解問題(情報理解)…全滅(配点30)
254 :
デフォルトの名無しさん
2014/12/02(火) 19:54:56.87 ID:OPiibqqe
東ロボくん 国語(現代文) センター模試2014

漢字…パーフェクト(配点10)

語句の意味…得点率67%(配点9)

評論読解…得点率50%(配点40)

小説読解…得点率32%(配点41)
255 :
デフォルトの名無しさん
2014/12/02(火) 19:55:07.53 ID:iCHrVmBA
東ロボくんの話しないでくれない?
256 :
2014/12/02(火) 21:51:00.22 ID:E8W1d5Nr
>>255
お前実は、自分で長文コピペ貼っておいて、自作自演してる張本人だろ?
257 :
2014/12/03(水) 20:07:38.80 ID:+0WWtRs0
>>253
未知語の推測問題、推測するまでもなく意味を知ってたんじゃないのこれ
258 :
デフォルトの名無しさん
2014/12/03(水) 21:02:56.05 ID:14+GtqTY
文章が入力されたら、隠れマルコフモデルがたくさん存在する集合に射影するようなことできないかなぁ
259 :
デフォルトの名無しさん
2014/12/03(水) 22:32:37.61 ID:H1Y0sahg
NAISTの自動音声翻訳
2013年、初級通訳者レベルに到達

ドコモが機械翻訳の会社「みらい翻訳」を設立
機械翻訳の精度は現在TOEIC 600点レベル
2016年までにTOEIC 700点レベル、2019年までにTOEIC 800点レベルを目指す

TOEIC 600点レベルなら、センター英語はもっと点とれるんじゃないの?

東ロボ英語チームはみらい翻訳と組めばいいかもね
260 :
デフォルトの名無しさん
2014/12/04(木) 11:13:59.73 ID:h+gvphcs
word2vecはギリギリまで次元を減らして意味ありげな指標を作っただけという可能性
261 :
2014/12/04(木) 16:22:22.74 ID:NIw8k+Ja
翻訳はしょせん入出力が一対一レベルじゃろ 文脈をどこまで見てるかもあやしい
262 :
デフォルトの名無しさん
2014/12/04(木) 18:17:46.95 ID:5hTqY9uU
東ロボくん 東大模試2014

理系数学…36/120(偏差値55.7)
文系数学…32/80(偏差値54.1)
263 :
デフォルトの名無しさん
2014/12/04(木) 18:19:56.45 ID:5hTqY9uU
「理論上は」東ロボくんがほぼ全ての入試問題(数学)を解ける「目処」が立ったらしいが
まだ課題があるみたい

http://blog.livedoor.jp/dg_law/archives/52234923.html
264 :
デフォルトの名無しさん
2014/12/04(木) 21:03:38.82 ID:MwWrePzc
東ロボくん専用スレ立ててこのスレでは禁止していいかな?
265 :
2014/12/04(木) 21:26:07.87 ID:otxDKoZc
そうね。
本人がロボットみたいだしw
266 :
2014/12/04(木) 21:50:05.85 ID:+VhC1jdJ
>>264
削除願い出したら?
267 :
片山博文MZ次期CEO ◆T6xkBnTXz7B0
2014/12/07(日) 12:57:22.31 ID:O40P0GQH
268 :
2014/12/09(火) 07:42:52.02 ID:NLTvYswf
公務員試験だけの先生が東ロボの話をコピペしているの?
269 :
デフォルトの名無しさん
2014/12/15(月) 06:54:15.73 ID:NngIclHu
東ロボにRubyは使えないのか?

力学シミュレーションと可視化
これまでRubyで軽くシミュレーションを書くのはかなり困難なことでした。
微分方程式はRuby-GSLで解けますがインストールは非常に煩雑でした。
可視化に関しては決定的な方法がなかったように思います。 (私がよく知らないだけかもしれませんが…)
今ではFortranをラップしたODE gem (gem install odeだけでインストール可能)で常微分方程式
を解くことができます。 また、IRubyに新しく加わったCustomWidgetを使うことで、Rubyとネイティブ
拡張の出した結果をリアルタイムにブラウザ上に表示できます。この場合JavaScriptの有名なdom操作ライブラリ、
jQueryやd3.jsを使って可視化部分を簡単に書くことができます。
http://domitry.hatenablog.jp/entry/science_with_ruby
270 :
デフォルトの名無しさん
2014/12/16(火) 14:52:53.84 ID:hxvZqs1F
>>245
>自分の携わった NAIST テキストコーパスは5年以上かかっています

人海戦術で何とかならんのか?
271 :
デフォルトの名無しさん
2014/12/17(水) 13:49:18.49 ID:+8T0slzN
>>245
>自分の携わった NAIST テキストコーパスは5年以上かかっています

それでもアノテーションコーパスの充実は、今後ますます必要になってくると思う。

□現象?多様性?カバーできているのか?
SNS文書,論文など別?種類?文書へアノテーションが必要
□学習アルゴリズム・解析アルゴリズム・特徴抽出?さらなる改善
現象?多様性を捉えるには? 今まで?延長線上でうまくいくか? 問題?観点を効果的に捉えるには?
□情報共有
アノテーション時?経験則,問題?評価指標
□ジレンマ
学術的に?問題を安定させなけれ?共有が難しい /
今後想定される応用に向けて問題?改編が必要
□アノテーションしたデータだけ対象にしていていいのか?
アノテーション学 vs ポスト経験主義

述語項構造と照応関係?アノテーション:
NAISTテキストコーパス構築?経験から
飯田龍(NICT), 小町守(首都大),井之上直也(デンソー・東北大),
乾健太郎(東北大), 松本裕治(NAIST)
http://www.anlp.jp/anniversary/20th_sympo/slide_iida.pdf
272 :
デフォルトの名無しさん
2014/12/18(木) 17:37:40.91 ID:h7yCp+rM
長文を箇条書きにするというのは恐らく文書要約の範疇で、盛んに研究されているところだと思いますが、
重要文抽出以外はまだ実用的には難しいでしょう(文抽出以上のことをしようとすると、意味を理解しないといけなくなる)。
最近はニュースの配信アプリケーション・サービスが盛んに開発されていて、ざっくりまとめたりする機能がありますが、
自然言語処理の最先端の技術が使われているというよりは、かなりルールを書いたり、人手を入れたりしている、と聞いたことがあります。
http://d.hatena.ne.jp/mamoruk/20140902

コーパスのアノテーションは、ものによりますが人海戦術でなんとかなるものではなく、人を増やしても質が確保できない
(むしろ悪化する)ため、少数の人数で長期間作成する、というのが典型的な方法です。最近はクラウドソーシングによって、
多数の人間にアノテーションをさせる、という試みがなされていますが、自然言語処理は画像認識ほどには一般的ではありません。
見てすぐ分かる、というタスクならいいのですが、少し考えないといけないようなタスクが多いからでしょう。
画像認識については、リンク先を拝見しましたが、これは画像認識だけの問題ではなく、かなり難しい類の問題であると思います。
何が「余計」かというのを分かるためには、答えを推測できないと分からないように思いますし、いまの東ロボプロジェクトの数学
を公理系(数式)に落とし込んで推論(というか証明で)解くアプローチでは、このような問題は苦しいのではないでしょうか(
予測して探索するようなアプローチをする必要があり、どちらかというと証明系というよりはゲームAIの推論のような感じ?
要は大規模なデータからのパターンマッチにする、というパラダイムにする、とうことです)。これを幾何の問題のまま解こうと
するのは数学の解答エンジンを一から作り直すことに相当すると思われますし、このプロジェクトのフォーカスからは離れそうです。
http://d.hatena.ne.jp/mamoruk/20140822
273 :
デフォルトの名無しさん
2014/12/19(金) 11:41:50.67 ID:Rp55Z5Hh
無意味な長文コピペやめろ
274 :
デフォルトの名無しさん
2014/12/22(月) 13:05:29.12 ID:mCwiHCRV
コピペするなよ!
絶対にコピペするなよ!
275 :
デフォルトの名無しさん
2015/01/01(木) 13:33:29.53 ID:BsJlAb0F
自然言語処理のエラー分析は、これまた困難らしい。

Project Next NLP という、いろいろなタスクでエラー分析をする日本の自然言語処理コミュニティの一大実験プロジェクト
があるのだが、予想通り大変そうである(自分は今年度子育ての負荷が高いことが分かっていたので、結局メインでは
参加していない)。こういう機会が必要なことは恐らくこの業界のほとんどの人が賛同すると思うのだが、実際にエラーを
分析しようとすると、アノテーションの経験がありかつ言語学にも詳しい人がプロジェクト内に複数人いないと、
そもそもエラー分析自体がまともに回らないと思うし、もしそういう人たちが中核にいたとしても、議論が白熱して
毎回侃侃諤諤の議論になることうけあいなのである。
http://d.hatena.ne.jp/mamoruk/20141112/p1
276 :
2015/01/01(木) 13:39:38.39 ID:BsJlAb0F
アノテーションに関しては、自然言語処理におけるアノテーションに特化したような和書はありませんね。需要はあると思うので、
出版社の方が見えたとき、そのような本を企画されては、と提案したことはあります。ただし、体系化することが難しいので、
書くには骨が折れると思います。ほとんどの場合、仕様を解説されても意味が分からないので、読む人が言語現象自身に詳しく
(つまり言語学の知識があり)、かつ自然言語処理にも明るい(つまりプログラムを書いて機械学習を行う処理がイメージできる)
必要がありますので、入門書とはならないでしょうし、個人的にも入門書ではなく専門書としてちゃんと書いたほうがいいと思っています。
http://d.hatena.ne.jp/mamoruk/20140902
277 :
2015/01/01(木) 17:51:57.22 ID:LvmvuVw0
RDF等に関しては自然言語処理よりはウェブマイニング(広義の人工知能研究)で盛んに
研究されていますが、ほとんどの研究は英語が対象で、日本語でちゃんとしたリソースは
作られていないというのが現状だと思います。だからどう(日本語でも作るべき)だとい
うわけではないですが、少なくとも東ロボのプロジェクト期間内にどうこうできるという話ではないでしょう。
個人的には、ここは確かに研究の余地があるところだと思っているのですが、英語で書かれた
リソースと比べると日本語で書かれたリソースが少ない(かつ分野が偏っている)という問題と、
日本語が英語と比べると処理しにくいという問題のため、英語のように精度の高いリソースを
作るのはそんなに簡単ではないと思っています。(たとえば、英語だと2つの名詞句の間の文字列
を取ってくれば、だいたい述語が取れるので、構文解析によらない頑健な処理ができますが、
日本語では述語は文の末尾に出現するので、係り受け解析をしないと述語が分からず、なかなか頑健にはできなさそう)
http://d.hatena.ne.jp/mamoruk/20140902
278 :
2015/01/04(日) 08:53:09.06 ID:Vh1lmQHV
このコピペの動機はなんなの?
守本人なの?
279 :
デフォルトの名無しさん
2015/01/04(日) 19:32:49.96 ID:UrD0d14K
コピペが無くても誰も書き込まないスレッドをコピペのせいにするなよ
280 :
2015/01/05(月) 07:11:49.24 ID:755b/Otu
コピペが無くても誰も書き込まないスレッドをコピペのせいにして申し訳なく思います
281 :
2015/01/06(火) 21:01:58.55 ID:rhCaR8KF
まるで何かの宣伝みたい。
282 :
デフォルトの名無しさん
2015/02/12(木) 14:36:17.01 ID:LHb2oe4V
RDFトリプルセットは「連想・推論」に利用できるので、人力でRDF辞典を作成しておきたい。
自然言語の多義性・曖昧性は、これである程度解消できるはず。

提案手法では,開世界仮説に基づき,RDF グラフからそれより高い表現力をもつ SROIQ概念の極小モデルを推論できる.
さらに,ある概念の極小モデルが一意に決まることを利用し,与えられたRDF グラフから記述できるすべての概念を生成
する停止性をもつアルゴリズムを提案した.
http://sigswo.org/papers/SIG-SWO-A1402/SIG-SWO-A1402-10.pdf

(x,y,z)=(主語,述語,目的語)で、出現頻度の多い順に並べる、あるいは少ない順に並べる。高頻度のトリプルがやたら多いということは、
逆に言えば他と似たり寄ったりでつまらないコンテンツである可能性が高い。出現頻度の少ない組み合わせは、オリジナル表現か
あるいはナンセンス文かのどちらか。例えば「女性は子供を産む機械」。こういうのは普通に「女性 子供」で検索しても出ない。

コーパス作成について一からやり直したほうがいいかどうかは、悩ましい問題なので一概にどうだということは言いにくいのですが、
アノテーション・コーパス作成自体が大きな研究テーマであり、ベストプラクティス的なものもなければ、少しだけ蓄積されている
ノウハウ的なものすらチームレベルでしか共有できていない(共有するのが難しい)、という状況です。また、やり直したらすぐコーパス
ができるかというと、質の高いコーパスを作るには時間が何年もかかるものなので(自分の携わった NAIST テキストコーパスは
5年以上かかっています)、すぐ利用可能にはならないでしょう。
http://d.hatena.ne.jp/mamoruk/20140822

今後,画像解析技術が進み,機械が複数の物体から構成されるオブジェクトを一つ一つの物体に分解できたとしても,機械にとって,
それが常識に基づいた構成であるか,常識から外れた構成であるかを区別することは困難であると推測される.
http://minamigaki.cs.inf.shizuoka.ac.jp/work/2014/SCIS2014fujita.pdf

『常識』なるものは、専ら人力で登録するしかない。コンピューターなんていくら高性能でもただの計算機に過ぎないのだから。
283 :
デフォルトの名無しさん
2015/02/18(水) 13:15:42.49 ID:dIyx5cm4
>>282
>機械にとって,それが常識に基づいた構成であるか,常識から外れた構成であるかを区別することは困難であると推測される.

自動作成が困難な「違和感CAPTCHA」は、試験問題作成委員と東ロボとイラスト作成支援ツールや
過去問改題支援ツールを併用し、人力と機械力のハイブリッドで効率的に作成する。イラスト理解は
コンピューターには困難だが人間には易しい。難しい東大の過去問も、懇切丁寧な誘導付きで易しい問題
に改題すればいい。センター数学は人間には易しいが東ロボには困難だ。またそれ専門のセキュリティ
企業を設立して、効率よく大量生産できるようにしたい。できれば一日あたり一万通りくらいは作りたい。
三回間違えたら30分間はアクセス禁止にするとか。そうすれば2chのアラシ投稿も激減するはずだ。
「ぐにゃぐにゃ文字CAPTCHA」にはもうウンザリ。
284 :
デフォルトの名無しさん
2015/02/18(水) 15:59:15.93 ID:dIyx5cm4
あと、2ちゃんねるでの板違いスレ立て乱立防止のために、「資格試験CAPTCHA」を導入するとか。
例えばプログラマー板なら、基本情報技術者試験の午前問題で、7割正解しないと投稿できないようにするとか。
285 :
デフォルトの名無しさん
2015/02/21(土) 17:29:42.70 ID:VfWo/10x
人間は完璧を求める。物体に穴が開いていると、物体の一部が欠けていると、そのギャップを埋めようとする。
次の画像を見ると、実際には存在しないものの、円と長方形に見えてくる。
閉合の法則が存在しない状態では、長さの異なる線にしか見えないが、閉合の法則により、線を組み合わせて、形として見る。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/1/8/186ef42f.jpg
http://www.seojapan.com/blog/8-web-design-rules

82. 1. 記述範囲として20sの領域を選択 2. 領域を4 4(=16)ブロックに分割 3.
記述範囲をオリエンテーション方向に回転 方向の正規化 20s 20s 82
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/e/1/e1a13d79.jpg
http://www.slideshare.net/MPRG_Chubu_University/sift-32258833

 我々人間は、無意識のうちに膨大な量のコモンセンス知識を、日常生活の中で自然と会得し共有している。
人間に近い思考をする人工知能を実現するためには、コンピュータ上にコモンセンス知識の巨大なデータベース
を構築する必要がある。ビッグデータを扱う技術と組み合わせれば、人工知能の思考精度を向上させる土台となる。
http://livedoor.blogimg.jp/mikamikanmikamikan/imgs/2/9/2989d626.jpg
http://business.nikkeibp.co.jp/art…/bigdata/20140722/268973/
286 :
デフォルトの名無しさん
2015/02/21(土) 21:50:03.02 ID:RYr+Lvse
もうコピペすんのやめろ
287 :
2015/02/22(日) 12:00:11.88 ID:ALoz31q1
全角カンマが論文で多く見られ、一般には余り用いられないことから
,(.|\n)+https?://
をNGにすると結構良いんじゃないだろうか。

あと驚いたのが
る。(.|\n)+https?://
が思ったより誤認識しないこと。これも論文に特徴的な、「である調」を意識したものだが、このスレで引っかかった中で少しでも意見が含まれると思われる投稿は9件に留まった。

リンク先との内容の重複を検出するのが一番なんだろうけどね。
288 :
2015/02/22(日) 12:27:03.95 ID:z7hrtyyQ
研究者ワナビーのオッサンがコピペしてそうだよな
学歴は高くなさそうなオッサンが
289 :
2015/02/22(日) 13:05:32.71 ID:I5/HIZJG
ふつうに入門書から読めば、学歴がどうあれそれなりに理解はできるだろうにねえ。

わけもわからずそれっぽいweb上の記事を漁って仮にそれを丸ごと暗記できたとしても
何の意味もないのに。
290 :
2015/02/26(木) 03:40:26.29 ID:syX8dA4x
Wikipediaのdumpって
いつの日付のが良くベンチマークとして使われてるとかあるのですか?
むしろlatestを使うのが普通なんですか?
291 :
2015/02/26(木) 07:01:52.77 ID:Msso4ZG7
なんのベンチマーク?
292 :
2015/02/26(木) 07:27:44.19 ID:Xrj2IFMm
言葉を間違ってそう
293 :
デフォルトの名無しさん
2015/02/28(土) 15:19:37.45 ID:LSUjOX6L
学歴高いオッサンでポストがあっても話にならんクズは多いけどな
294 :
2015/03/01(日) 03:47:39.01 ID:2eKDkVCS
あれっ?
CRFって最大エントロピー法の特殊な場合なんだっけ?
295 :
2015/03/01(日) 09:29:41.24 ID:SMJwAP9t
似てはいる
296 :
2015/03/08(日) 00:31:15.52 ID:mm6WxmZr
入力や解析の途中の状態をすべて保存しておけば、
入力・解析が途中で止まっても再開できるぞ。
俺スゲー
297 :
2015/03/25(水) 01:12:56.51 ID:0RNXcvZ9
https://radimrehurek.com/gensim/wiki.html
に書いてある通りにwikipediaのデータを読み込ませているのだけど
セグメンテーションフォルトで落ちる

メモリー8GのマシンではWikipediaを全部読むのは無理ってことでしょうか?

このドキュメントにはwikipediaのダンプは8Gのファイルサイズって
書いてあるのだけど先月のダンプが12Gあるので
そこも疑ってるのだけど
298 :
デフォルトの名無しさん
2015/03/28(土) 11:02:53.34 ID:8HMktsnF
https://sites.google.com/site/projectnextnlp/ws2015

12:30-13:00 言い換え 「言い換え認識技術の評価に適した言い換えコーパスの構築指針」(論文,スライド)
藤田篤(NICT),柴田知秀(京大),松吉俊(山梨大),
渡邉陽太郎(NEC),梶原智之(長岡技科大)

13:00-13:30 「情報検索のエラー分析」(論文,スライド)
難波英嗣(広島市立大),酒井哲也(早稲田大)

13:30-14:00 「『ロボットは東大に入れるか』プロジェクト 代ゼミセンター模試タスクにおけるエラーの分析」
299 :
デフォルトの名無しさん
2015/03/30(月) 20:19:29.89 ID:kzWOqVdv
すみません、どなたかお力をお貸しください!
英語版Wikipediaのタグ除去済みの生データが欲しいのですが、
どうしても今日中に手に入れたく、、うちのコンピュータだと各種コンバータを借用しても間に合いません。
古めでも問題ないので、どこか公開されてたりしないでしょうか?
300 :
デフォルトの名無しさん
2015/04/05(日) 02:41:47.47 ID:KpTWWol8
Splitで分割して読み込み
301 :
デフォルトの名無しさん
2015/04/05(日) 08:15:51.92 ID:4nn8wKW5
タグ除去すらできないって(笑)
302 :
デフォルトの名無しさん
2015/04/06(月) 11:50:16.79 ID:q6HYn914
まぁ、地味にうちのi5マシンでも
英語版Wikipediaデータのコンバータ使ったら、5日かかったからな。
SQLのINSERT外して、タグ除去ってやり方なら一瞬だけど、
XMLに変換して、綺麗に構造的に展開していくタイプのツールだと、とんでもない時間かかる。
303 :
2015/04/06(月) 15:48:02.41 ID:NDmCmS3H
なんでそれを早く用意しなかった
304 :
2015/04/20(月) 14:39:42.43 ID:tFQeFLnS
Wikipedia のdumpをapache solrに入れて検索してるんだけど
遅すぎる
どうやったらgoogleの半分の速度でいいから高速検索できるんだ
305 :
2015/04/20(月) 15:47:41.04 ID:kK5NTkAl
つelasticsearch
306 :
デフォルトの名無しさん
2015/04/21(火) 07:29:39.62 ID:QYKPjluf
東ロボが「図とグラフの把握」をクリアするころには、連想型アニメイラスト作成支援ツールが普及して、
漫画家はアシスタントを雇う必要が無くなっているに違いない。イラストの大半は既存のオブジェクト
の組み合わせで、それとこれとはどんな繋がりがあるのかが理解できればいい。
307 :
デフォルトの名無しさん
2015/04/22(水) 10:52:46.25 ID:ROZbcw1E
また東ロボの話か
308 :
デフォルトの名無しさん
2015/04/27(月) 18:01:44.51 ID:tY3Rtetf
質問「ロボットはジグソーパズルを解けるか」
309 :
デフォルトの名無しさん
2015/05/07(木) 18:56:37.96 ID:drp//ZQC
自然言語理解=単語と助詞の連想ゲーム。例えば「象はバナナを食べる」はOKだ が、
「バナナは象を食べる」は×。こ のように現実に有り得ない組合せ は、予め削除しておく。
嘉門達夫の 「あったら怖いセレナーデ」を、一 億通り作成しておきたい。
310 :
デフォルトの名無しさん
2015/05/15(金) 16:53:00.42 ID:9Z/KxJs4
日本語の語彙的換言知識の質的評価
https://dl.dropboxusercontent.com/u/2152477/arc/14/14NLC-kajiwara.pdf
日本語の語彙平易化システムの構築
https://dl.dropboxusercontent.com/u/2152477/arc/15/15IPSJ-kajiwara.pdf
高専関連報道記事を活用した活動情報の獲得と分析

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-konishi.pdf
高次脳機能障害スクリーニング検査支援ツールの開発

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-yamamoto.pdf
日本語の語彙平易化評価セットの構築

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-kajiwara.pdf
評判分析における品詞情報と意味類型情報の有効性比較

https://dl.dropboxusercontent.com/u/2152477/arc/15/15NLP-okada.pdf
311 :
デフォルトの名無しさん
2015/06/11(木) 16:58:19.47 ID:10eKY6On
ボトムアップな言い換え事例収集
ある範囲のテキストをとことん言い換える (内省)
 l 仮説: 100人集めればある程度の網羅性を担保できる
 l パイロット作業
n BCCWJから言い換え元の文をサンプル
n ひたすら言い換え →150事例/5時間(ペースはほぼ一定)
 l trivial なものも結構含む
 l minimal pair となる負例は別途要作成
l 宮尾さん「人間の限界はたかがしれている」
http://paraphrasing.org/~fujita/publications/fujita-NLP2015WS-slides.pdf
312 :
デフォルトの名無しさん
2015/06/13(土) 10:59:18.21 ID:oC83Eqv7
才能の無い人の思い付きほど邪魔なものはない
313 :
デフォルトの名無しさん
2015/06/20(土) 06:18:33.41 ID:hFZryW7a
2.1 述語項構造に基づく共起関係のモデル化
述語項構造は, 述語とその任意個の項の関係を記述するものである. 例えば,
HPSG に基づく構文解析器 Enju によると, 以下の文

An importer might be able to make payment in his own domestic currency.

に関して表 1 のような述語と項の関係が得られる.Enju における述語項構造では,
動詞だけでなく任意の単語が述語として扱われる. 表 1 では, 主語と目的語に対応する
名詞句を項とする他動詞 make に加え,動詞句の付加部を構成する前置詞 in も述語
として扱われている. これにより, 様々な種類の述語を介して句と句の関係が記述される.

http://www.logos.t.u-tokyo.ac.jp/~hassy/publications/nlp2015/paper.pdf
314 :
デフォルトの名無しさん
2015/06/20(土) 07:25:49.31 ID:hFZryW7a
3.1 よく知られている単語の抽出
スクリーニング検査の被験者は,一般的に高齢者が多く,「三単語復唱」で用いる単語には新造語や流行語
は適切ではない.これに対し,童話や童謡は,対象が幼児,児童である故に,そこに出現する単語の多くは,
あらゆる年代の人間に親しみ深く,非常に認知度が高い.そこで,本研究では童話や童謡歌詞を題材とし,
それらに出現頻度の高い名詞を抽出して,「三単語」の候補とすることにした.
本研究では,日本の童話 210 編,童謡 90 曲1をコーパスとして用い,そこから,出現頻度の高い名詞を自
動抽出した.抽出された名詞を日本語語彙大系2の一般名詞意味属性体系に準拠させて「食べ物」,「乗り物」,
「植物」,「動物」,「建築物」,「日用品」,「スポーツ」,「空想物」の 8 つのカテゴリに分類して格納する.
これら 8 つのカテゴリは,互いに意味属性体系上の包含関係が生じないように定めた.この作業の終了後,
「三単語」に適さないと思われる名詞を手動で削除し,さらに,各カテゴリに,適切と思われる名詞を適量ずつ追加した.
http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/B4-4.pdf
315 :
デフォルトの名無しさん
2015/06/20(土) 08:37:02.94 ID:hFZryW7a
言語処理部とシミュレータ部を組み合わせることで、「場合の数・確率」の文章題に自動で解答する
システムを開発中であるが、現状では正答率は低い。シミュレータ部では、多くの問題タイプに対応
できるようにして、より汎用的なプログラムにする必要がある。言語処理部では、問題文を変換する
パターンを増やしていき、変換可能率をあげるとともに、オブジェクトが玉でないものにも対応する必要がある。

数学確率文章題の自動解答システムの開発

http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/B2-3.pdf

これができるようになれば、東ロボは東大理3入ってるだろう。
316 :
2015/06/20(土) 12:11:28.08 ID:hFZryW7a
文章中の数箇所をワイルドカードで置き換えることによって
表現されるいわゆる文章テンプレートは, 自然言語生成の分野
で使われ, また, ワイルドカードに入る語を見ることで関係抽
出にも使われる. 次々に新しいテンプレートを増やす必要があ
る場合, 人手でテンプレートを作る作業は高コストであり自動
的にテンプレートを抽出する必要がある.
http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/D1-2.pdf
317 :
2015/06/21(日) 00:51:58.71 ID:hjBNKoPn
>>302
Apache solarより
Indriというデータベースの方が良いと聞いた
318 :
デフォルトの名無しさん
2015/06/21(日) 00:53:04.18 ID:hjBNKoPn
>>304
の間違い
319 :
デフォルトの名無しさん
2015/06/22(月) 11:16:04.74 ID:FGMmqqpL
本稿では,マンガ作品において重要な要素である登場人物の顔領域検出について,
学習サンプルの違いによる検出率の変化を検討する.マンガの登場人物の顔領域は
現実の顔画像と比較して,個々の特徴変化が大きい傾向にある.
そこで,顔検出器の学習に,特定の登場人物の顔画像のみを使用した場合と,
複数の登場人物の顔画像を使用した場合について,検出率の比較を行った.

http://www.ams.giti.waseda.ac.jp/pdf-files/2015IEICE_D_12_31_yanagisawa.pdf
320 :
デフォルトの名無しさん
2015/06/22(月) 13:30:11.67 ID:10N9eACE
東ロボは別のスレたてろ
321 :
デフォルトの名無しさん
2015/06/22(月) 20:47:32.82 ID:WAMJP5Js
全国大会とかゴミだから邪魔
322 :
デフォルトの名無しさん
2015/06/23(火) 07:28:27.73 ID:gLR1mXdw
4. アノテーション作業と問題点
「たら」「れば」「なら(ば)」の3つの条件表現アノテーション作業はガイドライン設計
者 2 名で行った。それぞれの表現について、多くの文章の中から該当の表現が出現
する部分を抜き出し、その用法がどのカテゴリに属するかを、テストをもとに判断した。
アノテーションの件数は「たら」「れば」「なら(ば)」それぞれ 200 件ずつ、計 600 件行った
アノテーションを行う中で、以下のような例に対するアノテーションが問題となった。
https://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no7_papers/JCLWorkshop_No.7_10.pdf

 実験の結果から, 全体的に「対象」の役割をもつヲ格名詞句に焦点が置かれる傾向があるが,
段階的に「対象」から「到達点」あるいは「道具」へ焦点が移っているということがわかった. 焦点
が置かれるところが類似している動詞は, 意味内容も似通っていることが明らかになったといえる.
 日本語の使役空間移動動詞には, 「−が−に−を 動詞」の型と「−が−で−を 動詞」型があるが,
どちらの型もとれる動詞もある. その場合,対象がヲ格で示され, ニ格で到達点が示された動詞は,
そのニ格がヲ格となって中身よりも容器のほうに焦点が置かれ, ヲ格の対象物はデ格で表されることになる.
 これらの動詞について, 対象物・到達点・容器・道具を示すと考えられる名詞句のどこに焦点が置かれ,
それを話題として取り上げるか, その傾向を調べたのであるが, 全体的にはヲ格名詞句に焦点が置か
れる傾向があることが明らかになった.
http://www.jcss.gr.jp/themes/jcss2014/meetings/JCSS2014/proceedings/pdf/JCSS2014_P1-27.pdf

辞典類にあって、 「し」の用法としては、 〈並列〉と〈原因理由〉とは立項されるが、 〈果〉は立てられていない。
たしかに、、〈34)の例は〈果〉を示しているが注意しておくべきは「だから」の語が直前にあるように、
そうした接続語の支えが必要であるように思うが、このことは、 「し」が何を列挙するのかということを
考える上でも興味深いように思う。
http://www.lib.shimane-u.ac.jp/kiyo/a014/035/004.pdf
323 :
2015/06/23(火) 12:24:22.70 ID:gLR1mXdw
従来の係り受けアノテーションは、専門家がそれぞれの文節に対して一つの係り先をタグ付けしている。
この手法だと、例 (2) のように、意味的にはどちらにもとれるような係り受けに対して、係り先をどちらか
に決める必要があり問題となる。
本タスクでは、クラウドソーシングによる係り受けのアノテーションを試行した。一つのタスクは、一つ
の文節の係り先を判定するタスクとした。ワーカーへのインストラクションを図 1 に示す。係り先の候補と
しては、KNP が出力する係り先候補とタグ付きコーパスの正解係り先とした。タグ付きコーパスとしては、
京都大学 Web 文書リードコーパス 2 を用いた。このコーパスは京大コーパスと同じ基準で係り受けがタグ
付けされている。
Yahoo!クラウドソーシング 3 を用いて、一つの文節の係り先につき 10 人のワーカーに判定を依頼した。

https://kaigi.org/jsai/webprogram/2015/pdf/2L3-4.pdf

項省略型は,動詞などの述語の項が省略されているケースで,いわゆるゼロ照応として知られている
問題である.ゼロ照応解析は述語項構造解析の範囲であるが,ゼロ照応解析には自動解析が困難な
例が多数存在しており,すべての問題を対象に自動解析を試みた場合に解析精度が極端に低くなる
ことが報告されている [飯田 12].特に,今回は省略された項が述語と異なる文に出現する文間ゼロ照応
の問題となっているが,文間ゼロ照応の自動解析は文内ゼロ照応と比較して精度が極端に低く
(例えば [今村 15])依然大きな課題である.
https://kaigi.org/jsai/webprogram/2015/pdf/2L3-4.pdf
324 :
2015/06/24(水) 10:18:27.20 ID:fsHZ6HK+
Apache solarはsenを組み込めるけど
他でmecab組み込めたりするのあるのかな
325 :
デフォルトの名無しさん
2015/06/24(水) 22:50:57.26 ID:RNNpRBpA
mosesのmlでまたバカが騒ぎ出した
326 :
デフォルトの名無しさん
2015/06/25(木) 13:26:33.36 ID:DHp0BB+5
アノテーションは、人手でやるしかない。コンピュータはただの計算機で自然言語はただの文字列にすぎず、
人間が教えていかないとどうにもならない。

自分は NAIST 松本研にいたからこそこういうタグ付けの方法論を教わったが、自然言語処理の研究室でも
ほとんどの研究室ではこういうノウハウがなく、卒論や修論で闇雲にタグ付けして再利用できないデータが
再生産されているのではないか、と懸念する(先輩から引き継いだ、というか教員から渡されたデータを使っ
て実験したりしても、元々のデータがあやしいのでちゃんとした研究にならない、みたいな)。
コロナ社の言語処理シリーズでもアノテーションの方法論について誰か書いてくれるといいのに、と編集の方
にときどきお話ししているのだが、想定読者が少なすぎるのか(確かにマニアックなテーマで、ほとんどの人
はデータを作る側ではなく使う側)、引き受け手がいないのか、まだ動きが見えないようである。
http://d.hatena.ne.jp/mamoruk/20150529/p1

2 つ目は,4.4.2 項で述べたエラー要因に対する対策を実現することである.対応策の
中には,否定表現や時制表現の処理など,比較的容易に実現できるものもあるが,特にエ
ラーの要因の中で大きな割合を占める人物抽出やパターンに関する問題の解決策は時間
をかけて深く探求する必要がある.M人手 においては完全に人手でパターンの構築を行っ
ているため,パターンが少ないことが大きな問題である.そのため,人物間の関係を表す
典型的な言い回しを数多く発見する手法を検討する必要がある.
https://dspace.jaist.ac.jp/dspace/bitstream/10119/12702/5/paper.pdf

もっと沢山の、人手によるアノテーションコーパスが必要。
327 :
2015/06/30(火) 09:53:09.21 ID:HPXFOTKK
JavaだとMavenにmecabあるので自動でインストールできるけど
Cabochaがないみたい

みんな手動でインストールしてるの?
328 :
2015/06/30(火) 12:11:15.70 ID:3qn7PSIa
はい
329 :
2015/06/30(火) 21:26:32.37 ID:TRsjzCuz
かぼちゃインストールめんどくさいよねえ
330 :
デフォルトの名無しさん
2015/07/01(水) 07:24:28.67 ID:jIHWDdJH
KNPのほうがめんどくさくね?
331 :
デフォルトの名無しさん
2015/07/01(水) 21:28:38.00 ID:V1VHs37R
野良レポジトリでcabochaらしきものあったけど
332 :
2015/07/03(金) 12:58:38.55 ID:xhUgkep8
mavenに

mecab
kuromoji
go

形態素解析ばかり3つもあるのか
どれが一番いいんだろ

cabochaも誰かつくればいいのに
333 :
2015/07/04(土) 23:32:46.44 ID:RxNq2g3r
mecabがダントツでデファクト
334 :
2015/07/08(水) 01:38:18.18 ID:QVdVWp6D
http://www.lemurproject.org/indri/
IndriにMeCab組み込んで日本語検索してる研究らしき発表はあるのに
公式のホームページにMeCabの組み込み方が書いてない

ワイルドカード検索できるっぽいからSolrより良い感じなんだけど
日本語検索の方法がわからない
335 :
デフォルトの名無しさん
2015/07/08(水) 06:14:03.89 ID:iCYqIP+y
solrもワイルドカードできるだろ
336 :
2015/07/08(水) 11:39:07.72 ID:65nXd/Mo
以前に使った時はSolrのワイルドカード検索はかなり機能が限定的だった
*が一ヶ所しか使えなくて複数がダメだった
337 :
デフォルトの名無しさん
2015/07/11(土) 07:30:19.31 ID:C8cgx19B
じゃあindriでやれば?
338 :
2015/07/18(土) 17:06:52.27 ID:IQ+2wK5V
機能表現解析の結果を表 1,2 に示す.これらの結果より,CRF を用いることでベースラインよりも
高い性能での機能表現解析が可能であることが分かった.CRFの結果から,範囲同定は比較的高
い性能で行えるが,曖昧性解消は難しいことが分かった.
https://www.ipsj.or.jp/award/9faeag0000004ej9-att/5Q-02.pdf

本稿では,数学入試問題自動解法の概要を示した後,その技術課題について述べる。
http://img.jp.fujitsu.com/downloads/jp/jmag/vol66-4/paper03.pdf
339 :
2015/08/07(金) 16:15:26.34 ID:UBcknauV
Mecabで分かち書きしたのを結合して元の文章にもどす
逆変換の様なものってないのでしょうか

やりたいのは名刺部分だけ言い換えをした文を作りたいのです
340 :
デフォルトの名無しさん
2015/08/07(金) 22:10:35.42 ID:bzlwzbgh
名刺部分か。。。
難しいかもね
341 :
2015/08/07(金) 22:49:42.50 ID:eSh4n7lV
プログラムは全く書けないの?ものすごく単純な事だと思うんだけど
ただスパムっぽいので協力したくない
342 :
デフォルトの名無しさん
2015/08/07(金) 23:06:48.26 ID:wRRiJPql
Mecabはそもそも単語の位置を返すので、結合も糞もないと思いますが。
343 :
2015/08/07(金) 23:30:11.31 ID:eSh4n7lV
多分wakatiオプションで半角スペース区切りされてるのをくっつけたいんだと思う
344 :
2015/08/07(金) 23:32:33.40 ID:kPH4MtZ6
>>339
すごく高度な質問なので皆んな戸惑ってるよ。
事例を載せてくれた方が分かりやすい。入力した原文、MeCabの出力、期待する結果。
345 :
デフォルトの名無しさん
2015/08/08(土) 03:26:46.26 ID:U78hTTuj
MecabはC++で書かれているので、C++から使うのが一番楽です。
ラティスを好きなようにいじれば好きなように加工できます。
346 :
2015/08/08(土) 09:42:57.56 ID:0g109lmq
質問を見る限りC++を使えるとは思えないのでPythonRubyあたりが無難だと思う
347 :
デフォルトの名無しさん
2015/08/08(土) 13:51:08.73 ID:H7ZgeVqn
イイエ、C++が一番簡単です。
348 :
2015/08/08(土) 15:52:12.50 ID:0g109lmq
彼がコンパイルの概念を理解できるとは思えないので
349 :
2015/08/08(土) 16:45:27.74 ID:UXYE7e/V
C++は言語自体が扱いずらいだろ
350 :
デフォルトの名無しさん
2015/08/08(土) 16:51:37.06 ID:H7ZgeVqn
使ってみた中ではJavascriptが一番難しかった。
ハゲそうになる。
351 :
2015/08/08(土) 16:53:39.89 ID:UXYE7e/V
>>347
>>350
どう考えてもC++よりJavaScriptのほうがやさしい
352 :
デフォルトの名無しさん
2015/08/08(土) 17:03:17.95 ID:H7ZgeVqn
イヤイヤ、Javascriptはかなり難しいよ。

C++は基本的に型がハッキリしてるから、コンパイラが誤りをみつけてくれるけど、
Javascriptは実行しないとわからない。
テストを書いても簡単にすり抜けるし、毛が抜ける。
353 :
2015/08/08(土) 17:30:12.22 ID:UXYE7e/V
JavaScriptよりC++がかんたんに思えるとしたら
それはおそらくC++をCに近い状態で書いている
354 :
デフォルトの名無しさん
2015/08/08(土) 17:37:01.00 ID:H7ZgeVqn
>>353
Cもかなり難しいよ。

C++が一番簡単だよ。
C++11以降はほとんど何の文句もない。
やりたいことがすぐできるようになってる。

元の話題に出てくる、MecabをもしもJavascriptで書くとかなったら
腹痛と吐き気に悩まされると思う。
誰でも。
355 :
2015/08/08(土) 17:56:22.37 ID:mAU+OpWx
君がJavaScriptの書き方知らないだけでしょ
356 :
2015/08/08(土) 18:24:19.95 ID:UXYE7e/V
>>354
>Cもかなり難しい
C ⊂ C++ だからCのほうがやさしい

>C++が一番簡単
おそらくC++とJSの学習量が違ってる
同じ学習量だったらJSのほうがやさしい
357 :
デフォルトの名無しさん
2015/08/08(土) 18:32:46.48 ID:H7ZgeVqn
>>356
イヤイヤ、C++が一番簡単。

Cなんてオーバーロードすらできないし。
358 :
2015/08/08(土) 18:49:06.65 ID:mAU+OpWx
テスト書いててすり抜けの意味がわからない
jsの仕様わかってないだけやん
359 :
2015/08/08(土) 18:58:24.44 ID:QwAfSdLt
>>356
一票!
360 :
デフォルトの名無しさん
2015/08/08(土) 19:06:53.94 ID:H7ZgeVqn
Javascriptは難しいよ。
テンプレートすらないし。
361 :
2015/08/09(日) 08:06:39.17 ID:Qi9vnN0I
頭がC++で凝り固まってるんだろ
多言語使えない可哀想なやつになっちゃったね
362 :
2015/08/09(日) 14:40:14.70 ID:aboGxbYP
動的型言語のjavascriptに対して、templateも無いから難しいって言ってる時点で、jsに対する知見がないわけで、、、
知見のない人が優劣判断なんて出来るはずもないと思うの、、、
363 :
デフォルトの名無しさん
2015/08/09(日) 18:55:33.51 ID:XcPHqnDO
速度重視と言いながらmltonを使わずにc言語使っちゃう人が多すぎる
どこが速度重視なんだ
364 :
デフォルトの名無しさん
2015/08/09(日) 20:52:48.18 ID:Icb40LOY
JavaScript書き方が多彩すぎてつらい
365 :
デフォルトの名無しさん
2015/08/09(日) 20:54:49.89 ID:Icb40LOY
JavaScript書き方が多彩すぎてつらい
366 :
2015/08/09(日) 21:27:14.38 ID:aboGxbYP
大事なこと?
367 :
2015/08/09(日) 22:32:14.42 ID:pJNpRnPb
本当にJavascriptで自然言語処理してるのか?
368 :
2015/08/15(土) 01:46:01.15 ID:90IR3onH
動的型付けが簡単だと言ってる奴は書捨てしか書いたことないか脳内型推論が得意な天才
369 :
2015/08/21(金) 09:53:06.85 ID:gbC4ODJM
田宮栄一かよ
370 :
2015/08/23(日) 18:26:25.13 ID:PCzDkU9i
分布表現の正確な定義は?
371 :
デフォルトの名無しさん
2015/08/31(月) 18:43:52.25 ID:8EAWBV0c
25000×25000=626000000通りの「共起関係」、及び29種類の「属性」を、人力で分析してアノテーションコーパスを作成すべき!

(3) 学習語彙:小学生用の国語辞典に登録されている語彙約 25000 語。語彙数は,『新教育基本語彙』[3]などを根拠とする。
小学生の理解語彙の上限を示すとされる。
http://www.nise.go.jp/kenshuka/josa/kankobutsu/pub_f/f-141/f-141_2.pdf

本研究では,意味の似ている語をまとめると共起ベクトルの距離は近くなるという仮定を前提に,単語間の共起頻度を用い
るのではなく,単語に付随する意味属性を利用する.単語の意味属性には,単語を意味によって分類整理したシソーラスであ
る分類語彙表を利用し分類語に適用する.
http://db-event.jpn.org/deim2015/paper/335.pdf

意味役割の種類
現段階での意味役割の種類を記述する.大きく 4 つの類にわけて,中分類で 29 種類を定義した.
さらにこれらに対して属性タイプが付与される形である.まず 29 種類を以下に示す.
構文類 ? 連語,外の関係,補語相当
対象類 ? 経験者,被使役者,対象,基準, 相互, 起点,着点,起点・着点,通過点,経路,方向
動作主類 ? 使役,原因,動作主,使役者,手段
条件周辺類 ? 限界,領域,場所,時間,条件,様態,程度,目的,順接,逆接
http://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no6_papers/JCLWorkshop_No6_06.pdf
372 :
デフォルトの名無しさん
2015/09/02(水) 08:44:33.62 ID:gyrealzj
ここって低レベルな話でもいい?

全文検索したくてSuffix Arrayを作ってみたんだけど
調べるとTrieというデータ構造もあるじゃない?

Trieで文字単位の全文検索の準備をする場合は
Trie構築時に文字列の開始位置を1文字ずつずらして切り出した文字列を入力すればいいの?
373 :
デフォルトの名無しさん
2015/09/08(火) 17:07:13.89 ID:kn1dOvzd
新井 今の人工知能にとって一番難しいのは深い言語処理。例えば、人間が何かを命令してロボットがそれを
理解して何かをする場合、命令パターンが決まっていれば簡単です。ですが災害救助現場などで、人間が何か
の指示をして、ロボットが画像認識による状況理解と合わせて問題解決する場合は難しい。そして、
もっとも必要なのは深い言語処理です。
 数学や物理の問題に見られる非常に限られたフレームという縛りがある設定であっても、現段階の自然言語
処理では極めて困難です。でもそこが一番伸びしろが大きいことも事実です。
https://cakes.mu/posts/10730
374 :
デフォルトの名無しさん
2015/09/12(土) 09:59:59.57 ID:SNkY48rJ
>>371
>25000×25000=626000000通りの「共起関係」

有り得る共起関係、有り得ない共起関係。

例えば「自動車に乗る」は○だが、「雲に乗る」は×。
375 :
デフォルトの名無しさん
2015/10/01(木) 15:50:28.34 ID:wVM5vSk2
職業PGだけど専門が違います。
趣味で自然言語処理やりたいですがいいですか?
376 :
デフォルトの名無しさん
2015/10/01(木) 15:55:49.74 ID:ioIU6evz
 これを見てわかることは、Googleの翻訳は、図20でもとても理解し難いところがあったように性能はそこそこですが、
Yahooの翻訳は、人間が機械と同じ条件で行った翻訳にかなり近いレベルまで達しています。よって、
点数をみた限りでは、翻訳システムによっては、文脈まで考えなければこれ以上の上達は難しいことがわかります。
人間でも、文脈を考えるかどうかで10ポイント以上の差がついているので、機械翻訳がこれ以上人間並みに近づくためには、
文章の前後の繋がりを考えるという、計算機にとっては殊の外大きな技術的チャレンジが必要なことが、
このデータを基にわかったという実験結果です。
http://www.scat.or.jp/scatline/scatline98/pdf/scat98_seminar_01.pdf
377 :
デフォルトの名無しさん
2015/10/02(金) 06:13:00.34 ID:dkvJ4zDP
単語の使われ方の類似度をベクトルで表現したいんですが、どんな方法がいいでしょうか?
他の単語との距離空間をつくるのがいいと思ってるんですが
378 :
2015/10/03(土) 20:05:53.04 ID:TDca+yKY
今はword2vecが最も定番で安定してます
理屈も単純だし
379 :
2015/10/25(日) 23:00:25.20 ID:Cx6k/MbF
https://github.com/klb3713/sentence2vec
の実装を読んでるんだけど
skip-gramの実装が

word2vecの時の入力層=l2 出力層 =l1
なのに
sent2vecの時の入力層=l1 出力層=l2

になっててインデックスが逆になってる

なんか実装が怪しくないか?
380 :
デフォルトの名無しさん
2015/11/14(土) 22:37:12.15 ID:60P4EW2B
北大の入試問題と等価な ZF+ の式 (Zermelo‐Fraenkel)
http://www.ssken.gr.jp/MAINSITE/event/2015/20150828-hpcf/lecture-01/SSKEN_hpcf2015_anai_presentation.pdf

文頭から一気に訳す(形式変換)のではなく、細かく分割して質問応答システムで『前処理』しておくのはどうか。
「球面S」=「中心点は?半径は?面積は?体積は?通る点は? ・・・ets」
「直線l」「xyz空間内」=「法線ベクトルは?通る点は? ・・・ets」

今回の東大模試でも、『「(一つの)小石」を「3つの(いずれかの箱)」に「(ある条件で)移動させる」』を、
東ロボは全く把握できなかったようだ。ここでの「小石」というのは単にある条件で移動する「点」に過ぎないが、
物理の問題では「小石」がおもりの役割を果たしていたり、水中に沈めてその体積と浮力はいくらかなんて
ことが問われたりもする。文脈によって訳し分けるのは現状困難かもしれないが、入試で問われる内容
はパターンが限られており、ある程度の予測と候補の絞り込みは可能に思える。
381 :
2015/11/15(日) 10:33:40.85 ID:mMtidkZ5
大学の授業の数学の課題はとけるのけ
自然言語解釈できなくてもいいけど
382 :
デフォルトの名無しさん
2015/11/17(火) 22:57:26.06 ID:Ec7F9ua7
成功報酬20000円の宿題出したよ
解いて行ってね
http://peace.2ch.net/test/read.cgi/tech/1432402159/
383 :
デフォルトの名無しさん
2015/11/19(木) 10:25:00.56 ID:QKaOM6mk
確率の問題ってどうやって解くの?
QEでは解けないよね?
384 :
デフォルトの名無しさん
2015/11/19(木) 14:04:39.52 ID:iJa/TMnV
>>383
>確率の問題ってどうやって解くの?
>QEでは解けないよね?

数学確率文章題の自動解答システムの開発
http://www.anlp.jp/proceedings/annual_meeting/2015/pdf_dir/B2-3.pdf
385 :
デフォルトの名無しさん
2015/11/19(木) 14:30:09.74 ID:iJa/TMnV
 句構造文法による解析,あるいは格文法解析,係り受け解析のいずれかが行われることが多い。
しかし,たとえば,図4に示すような比較的短い文でもいくつもの正しい解析が成り立つ。
長い文になれば可能な構造は爆発的に増え,そのうちのどれをとるべきかは非常に難しくなる。
その文が話された場面状況,あるいは文章の場合はそれまでに述べられてきたことから作られる
状況知識によって解釈されることになるが,現在の機械翻訳ではその状況を具体的に扱うことが
できていない。日本語に多い主語や目的語の省略について,前後2,3の文からそれを推定して
復元することが試みられている段階である。
https://www.jstage.jst.go.jp/article/johokanri/58/8/58_616/_pdf
386 :
デフォルトの名無しさん
2015/11/19(木) 14:57:31.01 ID:iJa/TMnV
(物理的に・常識的に)あり得ない共起関係は、即刻に翻訳候補から外すアルゴリズムが必要。

「炎を食べる」「ヒマワリが跳ぶ」「自動車が泳ぐ」「犬が喋る」「クジラが走る」「テレビが躍る」「クラゲの骨」「ミミズの耳」・・・etc
387 :
デフォルトの名無しさん
2015/12/26(土) 04:45:32.56 ID:n0l6crRX
 さらに重要なのは、Unbabelの機械翻訳ソフトの精度が急上昇していることだ。Unbableには「機械が間違えた
翻訳と人間が修正した結果」というデータが猛烈な勢いで集まっている。このデータを「教師データ」にして機械学習
を実行すれば、「機械翻訳が間違えやすい文章のパターン」と「正しい翻訳パターン」を得られる。同社はこれら
の新しいパターンを機械翻訳ソフトに実装することで、翻訳精度を改善しているのだ。
 機械翻訳の精度は「BLUEスコア」という尺度で評価する。2014年3月にUnbabelが翻訳サービスを開始した当初、
同社のソフトが英語をスペイン語へと翻訳する精度は、BLUEスコアで「35」だった。それが現在は「45」にまで伸びた。
 「機械翻訳が人間と同レベル、BLUEスコアで65〜70に到達するのは、当面は不可能だ。しかし機械翻訳の
精度が上がることで、近い将来、機械翻訳を併用した場合の人間による翻訳スピードを、毎時4000単語にまで早め
られるだろう」。Pedro CEOはそう見通しを語っている。
http://itpro.nikkeibp.co.jp/atcl/column/15/061500148/122100040/?ST=bigdata&P=2
388 :
2016/01/03(日) 11:10:52.50 ID:h+Kw2aOG
自然言語処理シリーズの対話システム
ぜんぜん理解できないんですけど
先に読んどいたほうがいい本とかあります?
389 :
デフォルトの名無しさん
2016/01/07(木) 16:42:12.63 ID:bIRvr46P
日本語認識するwatson作りたい
てっとり早く1ヶ月ぐらいで作れそうな方法教えて?
390 :
2016/02/17(水) 13:53:23.35 ID:LFLQrOdm
391 :
デフォルトの名無しさん
2016/03/12(土) 06:26:09.19 ID:8bNf0gbG
質問。

? 大量のテキストから自動獲得する
ポイント:同じような意味の単語は同じような環境に現れる
朝見たらぽげらが真っ赤に熟していた。
おいしそうだったので、またぽげらを食べてしまった。
塩をちょっとかけたぽげらは激ウマだね。
https://www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec.pdf

和田秀樹の黒塗り教科書、二冊用意して一冊を塗り潰す、
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q12115115392
難解な語句の意味を文脈から推測する問題
http://www.ravco.jp/cat/view.php?cat_id=6445
オントロジー強化型シソーラス
https://www.jstage.jst.go.jp/article/johokanri/58/5/58_361/_pdf

AIが新聞や著書などの大量のテキストから自己学習するために、ランダムに単語一つを黒塗りにして、
そこに当てはまる単語を推論させることはできますか。文中には同じ単語が何度も現れるので、
ある単語をランダムに黒塗りにして、文中に何度も出ている単語のいずれかを当てはめて類推する。
392 :
デフォルトの名無しさん
2016/03/13(日) 16:23:48.95 ID:ItxX9S5w
60±40%位の精度でできそう
393 :
デフォルトの名無しさん
2016/05/01(日) 15:33:35.03 ID:tKi6j9CT
匿名通信(Tor、i2p等)ができるファイル共有ソフトBitComet(ビットコメット)みたいな、
BitTorrentがオープンソースで開発されています

言語は何でも大丈夫だそうなので、P2P書きたい!って人居ませんか?

Covenantの作者(Lyrise)がそういう人と話したいそうなので、よろしければツイートお願いします
https://twitter.com/Lyrise_al

ちなみにオイラはCovenantの完成が待ち遠しいプログラミングできないアスペルガーw


The Covenant Project
概要

Covenantは、純粋P2Pのファイル共有ソフトです

目的

インターネットにおける権力による抑圧を排除することが最終的な目標です。 そのためにCovenantでは、中央に依存しない、高効率で検索能力の高いファイル共有の機能をユーザーに提供します

特徴

Covenant = Bittorrent + Abstract Network + DHT + (Search = WoT + PoW)

接続は抽象化されているので、I2P, Tor, TCP, Proxy, その他を利用可能です
DHTにはKademlia + コネクションプールを使用します
UPnPによってポートを解放することができますが、Port0でも利用可能です(接続数は少なくなります)
検索リクエスト、アップロード、ダウンロードなどのすべての通信はDHT的に分散され、特定のサーバーに依存しません
394 :
デフォルトの名無しさん
2016/08/20(土) 11:23:57.46 ID:3pLJP3Pq
見返りとしての歴史認識
 強化されつつある露中のパートナーシップの枠内で、中国は、事実上、欧州における「結果の見直し」の阻止をめぐる
呼応的連帯と引き換えに、ロシアでお馴染みの解釈とは異なるアジアにおける戦争の中国流の解釈を受け入れるよう提案している。
 提案は、非対称のものである。西側の軍事的歴史的行動の領域において、中国の支持は、ロシアに多くのものを与えない。
この問題に関する中国の立場は、欧州にとってどうでもよいのだから。一方、アジアの「戦線」においては、歴史的なルーツ
をもつ紛争へロシアを引き入れることは、具体的困難を孕んでいる。というのも、ロシアは、今後、世界のその部分においてはるか
により活発に行動し、そこでさまざまなプレーヤーとの均衡のとれた関係を構築するつもりであるから。
http://jp.rbth.com/opinion/2015/09/02/394013

訳出がわかりにくい。

>西側の軍事的歴史的行動の領域において、中国の支持は、ロシアに多くのものを与えない。

→欧米西側諸国の軍事行動とその歴史認識といった分野において、中国のロシア支持がロシアに及ぼす影響は少ない。

>そこでさまざまなプレーヤーとの均衡のとれた関係を構築するつもりであるから

→そこ(歴史的ルーツをもつ紛争、例えば尖閣や竹島や靖国や慰安婦)で、(ロシアは)様々な関係国との偏りのない関係を構築するつもりであるから。

ロシア語のできる日本人・日本語のできるロシア人が少ないためだろうか。機械翻訳でもパラフレーズは困難というが、
日露双方でもっと大勢の訳出者が様々な方法で翻訳して、パラフレーズ辞典でも作れないだろうか。
日露翻訳を通じて、どんな訳出方法が考えられるか、なぜそういう訳出が適切なのかを徹底的に議論し、
その膨大な記録をサーバーに保管しておいて、後で人手と機械の両方でコーパスにしておきたい。
長文はなるべく句読点で句切って短い文章にすれば、機械翻訳も簡単になるだろう。
中間言語方式が廃れているというが、長文を短く区切って短文にするくらいの中間処理はしておきたいところ。
句読点で句切るのは簡単だが、句読点が無い場合でも自動で補うアルゴリズムも考えておきたい。
395 :
デフォルトの名無しさん
2016/11/22(火) 11:46:30.39 ID:ZRtoxbUd
国立情報学研究所(NII)、富士通研究所、サイバネットシステムの3者は11月14日、名古屋大学および東京大学と共同で、
NIIの人工知能(AI)プロジェクトである「ロボットは東大に入れるか」(東ロボ)において東大第2次学力試験に向けた論述式模試
とマークシート式の大学入試センター試験模試に挑戦し、論述式模試の数学(理系)で偏差値76.2、センター試験模試の
物理では偏差値59.0と、2015年度を大きく上回る成績を挙げたと発表した。
NII、富士通研究所、名古屋大学を中心に構成する「東ロボ」数学チームは、代々木ゼミナールの論述式模試である
「東大入試プレ」に挑戦した。
数学(理系)では、問題文を入力後、問題文の解釈から自動求解、解答の作成までをAIにより完全に自動で行ない
6問中4問を完答した結果、偏差値76.2(120点満点中80点)を獲得したという。2015年度は駿台予備学校の論述式模試を受験し、
数学(理系)は偏差値44.3(20点)だった。
http://news.mynavi.jp/news/2016/11/15/200/

東京医科歯科大 2010 年度 [数学]  (2009年までの問題分析)
合格可能な点数は、2009年は6割、2008年は7割、2007年は6割、2006年は6割、位でしょう。
毎年問題の傾向が変わるのは、出題者が毎年交代するせいであると思われます。2007年はやや得点しやすい
ですが、大問2,3で小問の間の関係を読み取る読解力がないと、高得点には結びつきません。ただ東大や東工
大に似たような問題があるので、それらを充分演習・理解していれば、8割以上得点することも可能です。しか
し高校数学からやや離れたところで問題が作られていますので、たとえ問題が解けたとしても、問題の意味が理
解出来ないこともあるでしょう。(東大も同じ)
2009年から?し気になった問題を見ていきましょう。
2009年大問1は、平面・空間の格子点の問題ですが、よく出題される数列の和に還元する格子点の個数の問
題ではありません。初等整数論でミンコフスキーが創始した「格子の幾何学」と呼ばれる分野の雰囲気です。
この分野では次のミンコフスキーの定理が有名です。(高木貞治「初等整数論講義」より)
http://www.waseda-eg.com/wp-content/uploads/2010/04/igakubu-ikashika2010.pdf

#入試数学というのは問題の意味を考えながら解くものではないらしいが・・・
396 :
デフォルトの名無しさん
2016/11/22(火) 11:50:24.64 ID:ZRtoxbUd
現実世界をすべてシミュレーションすることはできないが、入試で問われる数学や物理はやることが大体決まっており、
こういうものに対処するシミュレーションを作成することはさほど困難とは思えない。

(1) 正八面体のひとつの面を下にして水平な台の上に置く。この八面体を真上から見た図(平面図)を描け。
(2) 正八面体の互いに平行な2つの面をとり、それぞれの面の重心を,とする。,を通る直線を軸としてこの八面体を1回転させてできる立体の体積を求めよ。ただし、八面体は内部を含むものとし、各辺の長さは1とする。
http://www.riruraru.com/cfv21/math/tum08f3.htm

自然言語の正確な読解はまだ困難(統計的機械翻訳ではムリ)だけど、入試数学で正四面体やら正八面体やらの
「ある辺」「ある頂点」「ある面」(いずれも「対称」)を、「回転」させるとか「接地」
させるとか「光を当ててその影が」とか「ある方向から眺めると」とか、やることは大体決まっているはず。
「台の上に置く」=「接地」と解釈できるようにする。
397 :
2016/11/22(火) 16:16:28.76 ID:pcsF5hBI
>>396
> 「台の上に置く」=「接地」と解釈できるようにする
そういうAd hocな知識はもちろん東ロボで使われていて、パレートの法則に従って、2〜3割の作り込みで7〜8割の問題は解けるんだけど、そのまま作り込みを増やしても効率は悪くなる一方だし意味があるとは思えない。というのが先日の報告会の話だったと思う。
398 :
2016/11/22(火) 17:39:54.66 ID:e6b1iY6l
>「台の上に置く」=「接地」と解釈

それひとつだけなら当たり前に思えるけど
実際にはそういう類似表現は無数にあるから
いつまで経っても知識獲得が終わらない
399 :
デフォルトの名無しさん
2016/11/23(水) 23:25:59.87 ID:7Tc8wtps
シンギュラリティが近づけば近づくほど、技術的失業で雇用が喪失される。
従来型のエリートは職を失うか年収の大幅減は避けられない。

医者も弁護士も例外ではない。

AIは画像診断の“第4の技術革新”
慈恵医大 放射線医学講座の中田典生氏が語る
http://techon.nikkeibp.co.jp/atcl/feature/15/327442/092600087/?ST=health

画像認識分野では、2012年に開催された物体認識技術を競う国際コンテストでディープラーニングが驚異的な結果を出し、1位と2位を独占。
人工知能におけるブレークスルーとして注目を集めた。
ディープラーニングの登場により、人工知能の画像認識精度は急速に高まり、2015年には人間を超えたとされる。
控えめに言っても「人間と同程度になった」(中田氏)。

AI外科医ロボット、世界初の完全自動での患部縫合実験に成功
http://business.newsln.jp/news/201605052146350000.html

内科も外科もAIやロボットに代替されて、
遠くない未来に医者は機械の監視役や補助員になる。
400 :
デフォルトの名無しさん
2016/11/23(水) 23:30:24.41 ID:SxU+7yHZ
>>397
>そのまま作り込みを増やしても効率は悪くなる一方だし意味があるとは思えない。

一般的な自然言語処理に関してはそうかもしれないけど、入試での数学物理はパターンが限られる。
だから今年の東ロボでは「作り込みを増やした」だけで、物理と数学は大きく伸びた。
401 :
デフォルトの名無しさん
2016/11/23(水) 23:34:41.73 ID:SxU+7yHZ
>センター試験模試の物理では偏差値59.0と、2015年度を大きく上回る成績を挙げたと発表した。

>数学(理系)では、問題文を入力後、問題文の解釈から自動求解、解答の作成までをAIにより完全に自動で行ない
>6問中4問を完答した結果、偏差値76.2(120点満点中80点)を獲得したという。

国語や英語などの一般的な自然言語処理が問われる科目では、従来通りの「統計的機械翻訳」では限界。
けれども数学や物理においては、これまでの技術の延長でまだまだ伸びる可能性が考えられる。
402 :
デフォルトの名無しさん
2016/11/23(水) 23:43:41.18 ID:SxU+7yHZ
>>397
>そのまま作り込みを増やしても効率は悪くなる一方だし意味があるとは思えない。

数学と物理に関しては、高校入試や公務員試験の過去問も利用して、人海戦術で伸ばせると思う。
報告会でも、物理や数学はまだ実装していないシミュレータもあると聞いた。
403 :
2016/11/24(木) 01:05:49.48 ID:ZeSA51HI
>>402
わかってて書いてるんだと思いたいけど、東ロボはテストの点数を上げることそのものが目的のプロジェクトじゃないから。
404 :
デフォルトの名無しさん
2016/11/26(土) 07:08:03.31 ID:idm38aCZ
日本発、新方式の量子コンピュータ、来年にクラウドサービスを提供
http://itpro.nikkeibp.co.jp/atcl/column/14/346926/112200709/?ST=spleaf

グーグルDeepMind、AIの学習を高速化させる新手法を発表--動物の見る夢から着想
http://japan.zdnet.com/article/35092476/

この知見を取り入れたエージェントを、Atariのゲームと、「Labyrinth」という3D迷路ゲームを使ってテストしたところ、
以前のアルゴリズムに比べて学習速度が10倍に高速化されたという。
またLabyrinthのテストでは、人間のエキスパートとの比較で平均87%という成績を収めた。
従来型のスパコンの性能向上に加え、
非ノイマン型コンピュータも実用化されつつある。
と同時に、AI開発も加速している。
この状況を考えれば、否定厨のダメ出しなど言い掛かりの域を出ないと言えよう。
405 :
デフォルトの名無しさん
2016/11/26(土) 09:36:03.92 ID:EjVoV4YX
http://digital.asahi.com/articles/DA3S12674633.html

 「あなたは2021年に人工知能は東大に入れるようになると思いますか?」
 どの会場でも8割以上が「入れるようになる」と答える。みんな笑顔だ。AIがもたらす明るい未来を信じているのだろう。
「囲碁の世界チャンピオンも破ったのだから、東大に入ってもおかしくない」と言う生徒もいる。
 「では」と私は続ける。
 「AIが社会で働くようになったとき、あなたは何をして働きますか? どうやってお金を手に入れますか?」
 一転して、動揺が走る。マイクを向けると「……ゴミ拾い、とか?」と絞り出すような声。AIが東大に入るような日が来たら、
AIがゴミ拾いもしてくれるに違いない。その時、人間は労働から解放されて幸せになるだろうか。
 AIから得られる富が、地球上のすべての人に平等に分け与えられればそうかもしれない。しかし、そのような仕組みは、
今までかつてこの地球上に築き上げられたことはない。むしろ、ITが社会に導入されて以降、経済格差は広がり続けている。
 2010年、アメリカでのAIの隆盛を眺めながら、私はそのことを考えていた。AIはどこまで行き、どこで止まるのか。
AIはどのように仕事を奪い、仕事を生み出し、社会を変えるのか。私がはじき出したのが、30年に現在のホワイトカラー
の仕事の半分がAIに置き換えられるという予想だった(後に、それはオックスフォード大の研究グループが行った
予測とぴたりと合うことになる)。
 私は数学者だから、こういうときには原理から考える。コンピューターは徹頭徹尾、数学でできている。AIに使えるのは論理と
確率と統計だけだ。論理と確率はわかる。だが、いくら考えても、統計にどれだけの威力があるのか、はっきりしなかった。
 そこで考えた。AIに大学受験をさせてみたら、と。大学受験に挑ませたら、近未来のAIの可能性と限界がクリアになるのではないか。
 11年にプロジェクトが始まり、私は目標を立てた。3年でどこかの大学に合格させる。4年目には箱根駅伝に出るような名のある大学に、
5年目は国公立大学に。そして6年目に、MARCH・関関同立に合格させたいと思った。可能性は五分五分だろう。
406 :
デフォルトの名無しさん
2016/11/26(土) 09:37:16.37 ID:EjVoV4YX
 その目標を口にした時、私は恐怖に似た緊張感を覚えた。研究者としては誰も見たこともないAIを開発したい。一方で、
AIが難関大に合格する能力を備えた場合、ホワイトカラーの仕事の半分は確実にAIに奪われるだろう。AIを大胆に導入し、
コスト削減に成功した企業の利益率が上がる一方、雇用を守ろうとした企業は市場から退場を迫られるだろう。
 こう話すと生徒から責められた。「なぜ、私たちの仕事を奪うかもしれないAIの研究をするのですか」
 私がやめても世界の企業や研究者はAIの研究をやめはしない。ならば、AIの可能性と限界をきちんと見極め、
対策を取ろうではないか。AIには弱点がある。それは彼らが「まるで意味がわかっていない」ということだ。
 数学の問題を解いても、雑談につきあってくれても、珍しい白血病を言い当てても、意味はわかっていない。逆に言えば、
意味を理解しなくてもできる仕事は遠からずAIに奪われる。私は次のように講演を締めくくる。
 「みなさんは、どうか『意味』を理解する人になってください。それが『ロボットは東大に入れるか』を通じてわかった、
AIによって不幸にならない唯一の道だから」
407 :
デフォルトの名無しさん
2016/11/26(土) 10:56:50.53 ID:EjVoV4YX
グーグルの人工知能ニューラルネットワーク「ディープ・ドリーム」は、心の内側で起きている事象を
人工知能が視覚化するシステム。でもそこから生み出されたものは、6つの目を持つ犬とか、
ナメクジのような人間の足とか、もはやお薬でイッちゃった系アートで、人工知能が生み出す新しいアート
ってすごいね…ということで昨年夏、インターネットを衝撃に陥れたのは記憶に新しいところ。
http://www.gizmodo.jp/2016/02/googledeepdream.html

もっと現実性のあるアートを描けないのだろうか。題材を単語入力すると、ランダムでそれらしいアートが出てくるとか。

まんがの背景画の書き方
http://shincomi.webshogakukan.com/school/cat4/

「学校」「運動場」「野球」と入力すると、ランダムにそれらしい背景画が自動で出てくるみたいな。
408 :
デフォルトの名無しさん
2016/11/28(月) 07:52:12.25 ID:JvF7VB+B
しっぽの生えた人間とか、人間の言葉を話す犬とか、便器に生えるキノコとか、凍り付く太陽とか、三本足の人間とか、
水道の蛇口から火が出るとか、爆発するメガネとか、回転するシャクトリムシとか、「ありえない」ものはアートにしない。
そういう機能のついた人工知能アートは作成できないのだろうか。
409 :
デフォルトの名無しさん
2016/11/28(月) 13:38:25.99 ID:NUJXuwJ2
私は元創価の会員でした。
すぐ隣に防衛省の背広組みの官舎があるのですが、
自分の家の窓にUSB接続のwebカメラを貼り付けて、そこの動画を撮影し続け、
学会本部に送っていました。

別に大したものは写っていません。ゴミだしとか奥さんが子供を遊ばせている所とか。
官舎が老朽化して使われなくなってから、
今まで法人税(うちは自営業です)をほぼ払わなくても済んでいたのが、
もう守ってやれないのでこれからは満額申告するように言われました。
納得がいかないと言うと、君は自業自得で餓鬼地獄へ落ちる、
朝夕南無妙法蓮華経と三千回ずつ唱えて心をきれいにしなさいと言われ
馬鹿らしくなって脱会しました。

それ以来、どこへ行くにもぞろ目ナンバーの車につけまわされたり大変な日々です。
全部自分の出来心から起きた事で、どこに訴えるわけにもいかないのですが、
なんとかあの人たちと縁を切って新しい始まりを迎える方法はないんだろうか。
410 :
デフォルトの名無しさん
2016/11/30(水) 12:21:41.26 ID:a3BI0E5E
五文型
S+V
(x,y,z)=(S,V,0)
S+V+C (Cは正)
(x,y,z)=(S,V,C)
S+V+O (Oは負)
(x,y,z)=(S,V,O)
S+V+O+O (Z1は負 Z2は負)
(x,y,z)=(S,V,α) α=Z1 α=Z2
S+V+O+C (Z3は負 Z4は正)
(x,y,z)=(S,V,β) β=Z3 β=Z4
http://www.eibunpou.net/01/chapter3/3_1.html

五文型を (x,y,z)空間上で表現できないだろうか?
411 :
2016/11/30(水) 14:52:47.31 ID:Ul5Fc8/q
ベイジアンネットワークとナイーブベイズは別物?
412 :
デフォルトの名無しさん
2016/12/03(土) 18:45:19.62 ID:11QyyS1l
>>409

人工知能の開発はインプットできるデータを多く持っているところが圧倒的に強い。
創価もこれまでに盗みとってきたデータやら、ファミリー企業(楽天やツタヤ、セコムなど)
から吸い上げたデータを駆使して自動運転自動車の開発くらい自前でやればいいのに。



でもそうなったら原因不明の交通事故とかがちょろちょろ出てくるようになるんだろうなあ。
413 :
2016/12/03(土) 18:53:29.04 ID:YH7aKbNh
コピペにレスすんなよ……
414 :
2016/12/03(土) 18:54:35.85 ID:YH7aKbNh
>>411
ベイジアンネットワークの方が広い区分で
ナイーブベイズはその単純な形
415 :
デフォルトの名無しさん
2016/12/08(木) 18:29:53.36 ID:erOvGha/
これからはシミュレーションシステムの構築が簡略化されるので、来年のセンター物理は大きく得点が伸びるに違いない。

 理化学研究所(理研)計算科学研究機構コデザイン推進チームの村主崇行特別研究員らと、千葉大学の堀田英之特任助教、
神戸大学の牧野淳一郎教授、京都大学の細野七月特任助教、富士通株式会社の井上晃マネージャーらの共同研究グループ※は、
スーパーコンピュータ「京(けい)」(注1)を用いて、数式のような簡潔な指示を書くだけでスーパーコンピュータでの計算に必要
となる高度なプログラムを自動生成できるプログラミング言語「Formura」を開発しました。
 スーパーコンピュータでの計算に必要となるプログラムはときに数十万行にも及び、作成やチューニングは大変困難です。
一方で、原理的にはシミュレーションしたい自然現象とその離散化法(注2)を指定すれば、プログラムは機械的に生成できます。
しかし、プログラミングはシミュレーションとコンピュータ双方に深い知識が必要となる非常に高度な作業であり、多数の計算機を
協調して動作させるスーパーコンピュータの性能を引き出す高度なプログラムを、自動かつ汎用的に生成することは不可能でした。
 そこで共同研究グループは、方程式がプログラムに変換されるまでの一連の段階に対応する数学的定義を作りました。
スーパーコンピュータが持つ階層のすべての段階において、自然が元来備えている「並列性」と「局所性」(注3)を保持する変換
を厳密に定めることで、新たなプログラミング言語「Formura」を開発しました。これによって、これまで不可能だったプログラミング
の機械化に成功しました。さらにFormuraは、同じアプリケーションに対して何万通りものプログラムを試し、最も速かったものを自動的に選択します。
 Formuraを開発したことで、規則格子シミュレーション(注4)分野においては、自然科学者が慣れ親しんだ方程式の記法を使ってシミュレーション
したい対象を記述することで、スーパーコンピュータの性能を引き出すための高度なプログラムが自動的に作成できるようになりました。
気象、地震、宇宙、生態ネットワークの研究など、規則格子シミュレーションを用いる分野の研究の加速が期待できます。
http://pr.fujitsu.com/jp/news/2016/12/2.html
416 :
デフォルトの名無しさん
2016/12/10(土) 14:57:04.83 ID:zzrTqzlJ
>>407
>もっと現実性のあるアートを描けないのだろうか。

人間が見て「珍風景」であっても、人工知能からすればどうでもよいのか?

【訂正】思わず二度見してしまう世界の珍風景18選
http://kangaerarehenzo.blog.fc2.com/blog-entry-719.html
417 :
2016/12/18(日) 16:44:54.83 ID:CoxQCzHA
統計翻訳ってなんだったんだよ。。。
418 :
2016/12/21(水) 14:50:23.02 ID:BNpN6X2e
自然言語処理研の学生が意味理解の問題に対してニューラルネットや機械学習での解決に腐心している。
分類器以上の枠組みを作ろうという動きってあるの?
419 :
デフォルトの名無しさん
2016/12/22(木) 14:30:51.26 ID:ZC+xkany
どういう意味?
420 :
2016/12/22(木) 16:20:57.49 ID:YlCTiaOR
自然言語系の人達の発表ってパターン認識ばっかでつまらないんだ。
要所々々にはそれが求められるだろうし、実際人間もそうした判別を行っていると思う。
しかし、文章の整合性の把握だとか論理的矛盾の回避みたいな話はとんと出てこない。
NNや機械学習といった今の流行りは「考える」ことを考える事に尻込みしているように見える。
421 :
2016/12/23(金) 14:19:36.91 ID:FjX6yDwQ
同じようなことは思うけど
機械学習が流行したからしゃーない
みんな割に合わないことはやりたくないし
422 :
2016/12/26(月) 10:46:43.39 ID:MJMwUcFo
NNが流行りだけど
SVMも続けてほしいね
423 :
2016/12/27(火) 19:55:40.96 ID:93LJJnvg
なぜ?
424 :
2016/12/27(火) 21:00:23.68 ID:ywv/+eV5
いえ、別に
425 :
2017/01/20(金) 13:11:27.56 ID:chntIv2b
全くの門外漢なのですが、
機械翻訳で、日本語の主語や目的語の同定をしている
技術(研究テーマ)の名前を知りたいのですが、教えていただけませんでしょうか。
述語項構造解析というやつですか?
426 :
2017/01/20(金) 19:24:41.35 ID:l/KyllZN
固有表現抽出
427 :
2017/01/20(金) 22:42:50.37 ID:IeV6CMwh
>>426
全然ちげーよ
428 :
2017/01/21(土) 12:56:08.90 ID:nFM+9kDb
ニューラル機械翻訳と記号幻想の死
http://rekken.g.hatena.ne.jp/murawaki/20161017/p1
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

昨年11月にRNN(LSTM)の機構をCNNで再現するQRNNが提案され、
時系列データをGPUで高速学習できるようになった。
今年の自然言語系は昨年以上に機械学習ばかりになるのだろう。
429 :
デフォルトの名無しさん
2017/01/31(火) 17:46:47.47 ID:0xnJU1y2
http://www.afpbb.com/articles/-/3116032

【1月31日 AFP】ドナルド・トランプ(Donald Trump)米大統領がツイッター(Twitter)で繰り出す個別企業への攻撃。
それを投資に生かそうと、テキサス(Texas)州の企業が人工知能(AI)を使ったプログラムを開発した。
トランプ氏のツイートを分析して株価の変動を予想、瞬時に取引をこなすもので、すでにトヨタ自動車(Toyota Motor)
のメキシコ工場建設への批判などから大きな利益を上げたという。
 プログラムはその名も「トランプ・アンド・ダンプ(Trump & Dump)」。株価の変動につながるトランプ氏の投稿を特定し、
株価にプラス材料になるかマイナス材料になるかを即座に判断、素早く取引を行う。
 開発したテキサス州オースティン(Austin)のマーケティング・テクノロジー企業、T3のベン・ガディス(Ben Gaddis)社長は
AFPの取材に、政権移行期間にトランプ氏からツイッターで攻撃された米ボーイング(Boeing)やロッキード・マーチン(Lockheed Martin)
の株価が急落したことに目を付けたと説明した。
「トランプ氏の予測不能なツイートにどのように対処すればよいか、誰もが自問自答している」(ガディス氏)。
そこでT3が取り組むことにしたのが、トランプ氏のツイートを基にして自動取引するプログラム(ボット)の開発だった。
 同社はこれまでの運用成績に満足しているといい、2回の取引で「大きな利益」が上がり、3回目は「若干」の損失だったと明かしている。
 T3のウェブサイトに掲載された動画によると、
1月上旬にトランプ氏がトヨタ自動車(Toyota Motor)のメキシコ工場建設を批判したことを受けた際には、
同社の株価が下落すると見込み「非常に大きな」利益を得たという。
 同社は取引で得た利益を米国動物虐待防止協会(ASPCA)に寄付していると明らかにした上で
「トランプ大統領がツイートすれば子犬が救える」と述べている。(c)AFP
430 :
デフォルトの名無しさん
2017/02/12(日) 03:24:59.33 ID:F57yHuTx
http://www.sankei.com/wired/news/170210/wir1702100001-n2.html

次に「PixelCNN」(CNN:畳み込みニューラルネットワーク)を使用するprior networkが、8×8画像にピクセルを追加する。
『Are Technica』UK版の記事によると、PixelCNNは既知の画像を利用して細部を追加するという。
たとえば、唇はピンクであることが多いので、唇だと判断された領域にはピンクのピクセルを追加するという具合だ。

それぞれのニューラルネットワークの処理が終わると、グーグルの研究者たちがその結果を組み合わせて最終画像を生成する。
「顔の典型的なヴァリエーションを前もって学習することで、AIは細部をリアルに描画することができる」と研究者たちは書いている。

今後さらに研究が進めば、低解像度の写真や動画に映っているものを再現できるようなシステムが開発されるだろう。
防犯カメラの不鮮明な映像に映っているものを特定するために、こうした技術が役立つかもしれない。
431 :
デフォルトの名無しさん
2017/02/25(土) 02:16:54.69 ID:tAPebIE4
数式処理ソフトMathematicaで数学の問題を解く
https://www.slideshare.net/yoshihiromizoguchi/mathematica-62981039
432 :
デフォルトの名無しさん
2017/03/12(日) 05:00:43.07 ID:Su9PiV/H
Deep Learningでmecabとcabocha作るとか奈良先端でやってたらしいけど、もう出来たのかな
ソース公開まだかな
433 :
2017/03/12(日) 18:30:38.63 ID:Mtopujhd
JUMAN++自体は公開されてるだろ
そのソースコードそのものは公開されてないけど
434 :
2017/03/12(日) 18:59:00.84 ID:hg0qgLBW
いやそんなわけないか。gccで自分でコンパイルするんだからソース公開してる
435 :
2017/03/12(日) 19:43:55.84 ID:sYFLpRX8
今さらずまんなんてw
436 :
2017/03/13(月) 14:03:57.38 ID:0UOJ2nFM
JUMANは精度がどうのこうのという以前に遅すぎて実用サービスに組み込めない。
研究に使うにはバッチ処理的にしか使わないからいいんだろうけど
437 :
2017/03/13(月) 19:47:42.32 ID:kbRYUFrB
サーバーモードあったよね
438 :
2017/03/15(水) 11:44:48.74 ID:rfk4wFNl
サーバーモードだと処理速度も速くなるの?
439 :
デフォルトの名無しさん
2017/03/21(火) 13:44:21.14 ID:XoKHhGxy
「ロボットは東大に入れるか」成果報告会 in 2016(11/14)レポート
http://blog.livedoor.jp/dg_law/archives/52354118.html
257KB

新着レスの表示

★スマホ版★■掲示板に戻る■全部前100次100最新50

名前:E-mail: