PUNCT

This is part of archived UD v1 documentation. See http://universaldependencies.org/ for the current version.

home ja/pos issue tracker

`PUNCT`: punctuation

Definition

Punctuation marks are character groups used to delimit linguistic units in printed text. These words are tagged with supplementary_symbol/ 補助記号 in UniDic.

Punctuation is not taken to include logograms such as $, %, and §, which are instead tagged as SYM.

Examples

Period: 。, . supplementary_symbol(period) / 補助記号-句点
Comma: 、, , supplementary_symbol(comma) / 補助記号-読点
Parentheses: 「」, 『』, ()　supplementary_symbol(bracketopen) / 補助記号-括弧開, supplementary_symbol(bracketclose) / 補助記号-括弧閉
Middle dot: ・ supplementary_symbol(general) / 補助記号-一般

References

Wikipedia

Treebank Statistics (UD_Japanese)

There are 1 PUNCT lemmas (8%), 58 PUNCT types (0%) and 10247 PUNCT tokens (11%). Out of 12 observed tags, the rank of PUNCT is: 10 in number of lemmas, 7 in number of types and 3 in number of tokens.

The 10 most frequent PUNCT lemmas: _

The 10 most frequent PUNCT types: 、, ,, ）、, 」、, ，, 』、, )、, %、, ),, “,

The 10 most frequent ambiguous lemmas: _ (NOUN 50340, VERB 18567, PUNCT 10247, NUM 4184, ADJ 3393, ADV 3061, PRON 1113, DET 925, CONJ 180, X 18, PART 3, ADP 2)

The 10 most frequent ambiguous types: あるので (VERB 16, PUNCT 1), ない (ADJ 46, PUNCT 1), ものを (NOUN 18, PUNCT 1), 倒れた (PUNCT 1, VERB 1), 分けて (VERB 3, PUNCT 1), 新聞が (PUNCT 1, NOUN 1), 狙いは (PUNCT 1, NOUN 1), 落として (PUNCT 1, VERB 1), 金の (NOUN 2, PUNCT 1), 除き (VERB 6, PUNCT 1)

あるので
- VERB 16: ちょっとした遊具も あるので 小さな子どもさんもいいと思います。
- PUNCT 1: 同じビルに調剤薬局も _ あるので 会計後にそのまま向かうのが基本ルートです。
ない
- ADJ 46: 悲観的になるとは , 階級的意識がないことであるが , 本来敵であるものを味方と思った時 , その失望が悲観的にさせる。
- PUNCT 1: では , 同じくメディアとしての品性のかけらも _ ない “やや日刊カルト新聞 “が ,品性のかけらもない宗教者たちの過去のエロ事件を調べてみました。
ものを
- NOUN 18: 悲観的になるとは , 階級的意識がないことであるが , 本来敵である ものを 味方と思った時 , その失望が悲観的にさせる。
- PUNCT 1: そのような活動を止めるどころか , 顕進氏は , 自分は創始者と協力しており , 真の御父母様の遺された _ ものを 維持しようとしているのだという錯覚を , 積極的に助長してきています。
倒れた
- PUNCT 1: ASKでは男性が _ 倒れた 後も , そのままセミナーを続け , 男性の死亡が明らかになった翌日の 4日目のセミナーも最後まで行ったといいます。
- VERB 1: 旅の途中で 倒れた 地球降下部隊の女性兵士を看取った際、体格の似通っていた彼女からバートレーを形見として受け取った。
分けて
- VERB 3: インクは、大きく 分けて ビン入りとカートリッジ入りの 2種類の形態で流通している。
- PUNCT 1: ＳＡやパーキングエリア（ＰＡ）など１４カ所に放置したことには「１カ所に捨てると目立つので _ 分けて 捨てた」という趣旨の説明をしている。
新聞が
- PUNCT 1: 権力者は, われわれの _ 新聞が 大衆の手に渡るのを何よりも恐れる。
- NOUN 1: それは , われわれの 新聞が 真実を伝えるからだ。
狙いは
- PUNCT 1: _ 狙いは 「お客様中心主義」をどう形にするかです。
- NOUN 1: 統一協会 (統一教会)の 狙いは , お金と信仰基準が高い二世を集めることにあるのではないかとの意見もある。
落として
- PUNCT 1: ユトレヒト同盟で結束した北部 7州との戦争（八十年戦争）では 1582年にアウデナールデ、 1584年から 1585年にかけてアントウェルペン、ブリュッセルを _ 落として ネーデルラントに迫った。
- VERB 1: 久々の実戦はスコアを 落として ２バーディー、３ボギーの３５位となった。
金の
- NOUN 2: その点を問い詰められて、 4日目に金の出所についてのそれまでの供述が嘘であることを認めたものの、それ以後は再び黙秘したりする状況が続いた。
- PUNCT 1: 青地で、 _ 金の三峰から、冠を被り、赤と白のストライプに塗り分けられたヘッセンの獅子が現れるものである。
除き
- VERB 6: ぬーとぴあのシェアメイトは、優太を除きなんと全員女性。
- PUNCT 1: 統一協会員は二世信者を _ 除きほぼ全員が正体や目的を偽った偽装勧誘を受けその後の思想操作により入信している。

Morphology

The form / lemma ratio of PUNCT is 58.000000 (the average of all parts of speech is 4757.166667).

The 1st highest number of forms (58) was observed with the lemma “_”: “,, “、, “が, %,, %、, ),, )、, )で, +、, ,, -, -享保2年4月15日, -）は, ~,, 、, 、、, 、で, 」、, 』、, 』）、, あるので, ない, ものを, コミックパートでは, スポーツシューズでも, ファームのように, ホームページには, ・, 一人歩きには, 一括で, 一日の, 倒れた, 分けて, 富で, 審査では, 少なかったが, 常であったと, 思えば, 新聞が, 東京慈恵会医院専門学校, 比例区では, 狙いは, 科学からは, 落として, 行きましたけど, 部下は, 金の, 除き, 集計結果は, 霊言について, （、, ）-, ）、, ）」、, ，, １２位の, ：、, ､.

PUNCT does not occur with any features.

Relations

PUNCT nodes are attached to their parents using 1 different relations: ja-dep/punct (10247; 100% instances)

Parents of PUNCT nodes belong to 10 different parts of speech: NOUN (5263; 51% instances), VERB (3474; 34% instances), ADV (606; 6% instances), NUM (520; 5% instances), ADJ (304; 3% instances), PRON (64; 1% instances), X (7; 0% instances), DET (6; 0% instances), CONJ (2; 0% instances), PART (1; 0% instances)

10247 (100%) PUNCT nodes are leaves.

The highest child degree of a PUNCT node is 0.

Treebank Statistics (UD_Japanese-KTC)

There are 1 PUNCT lemmas (0%), 1 PUNCT types (6%) and 29066 PUNCT tokens (11%). Out of 16 observed tags, the rank of PUNCT is: 15 in number of lemmas, 13 in number of types and 4 in number of tokens.

The 10 most frequent PUNCT lemmas: _

The 10 most frequent PUNCT types: _

The 10 most frequent ambiguous lemmas: _ (NOUN 73916, ADP 56601, PUNCT 29066, AUX 10360, SCONJ 9060, NUM 8667, VERB 8579, ADJ 3304, PART 2730, CONJ 2110, PROPN 1795, ADV 1655, SYM 1138, PRON 138, DET 95, INTJ 15)

The 10 most frequent ambiguous types: _ (NOUN 83879, ADP 56602, AUX 29224, PUNCT 29066, VERB 24527, NUM 10685, SCONJ 9342, PROPN 7729, ADJ 4996, PART 2783, CONJ 2763, ADV 2738, SYM 1138, DET 1067, PRON 1065, INTJ 27)

_
- NOUN 83879: _ _ _ _ _ _ _ _
- ADP 56602: _ _ _ _ _ _ _ _
- AUX 29224: _ _ _ _ _ _ _ _
- PUNCT 29066: _ _ _ _ _ _ _ _
- VERB 24527: _ _ _ _ _ _ _ _
- NUM 10685: _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
- SCONJ 9342: _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
- PROPN 7729: _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
- ADJ 4996: _ _ _ _ _ _ _ _
- PART 2783: _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
- CONJ 2763: _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
- ADV 2738: _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
- SYM 1138: _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
- DET 1067: _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
- PRON 1065: _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
- INTJ 27: _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

Morphology

The form / lemma ratio of PUNCT is 1.000000 (the average of all parts of speech is 0.002927).

The 1st highest number of forms (1) was observed with the lemma “_”: _.

PUNCT does not occur with any features.

Relations

PUNCT nodes are attached to their parents using 1 different relations: ja-dep/punct (29066; 100% instances)

Parents of PUNCT nodes belong to 12 different parts of speech: VERB (13230; 46% instances), NOUN (12342; 42% instances), ADJ (1456; 5% instances), CONJ (732; 3% instances), PROPN (585; 2% instances), ADV (370; 1% instances), NUM (217; 1% instances), PRON (93; 0% instances), INTJ (38; 0% instances), DET (1; 0% instances), PART (1; 0% instances), SCONJ (1; 0% instances)

29066 (100%) PUNCT nodes are leaves.

The highest child degree of a PUNCT node is 0.

PUNCT in other languages: [bg] [cs] [de] [el] [en] [es] [eu] [fa] [fi] [fr] [ga] [he] [hu] [it] [ja] [ko] [sv] [u]

PUNCT: punctuation

Definition

Examples

References

Treebank Statistics (UD_Japanese)

Morphology

Relations

Treebank Statistics (UD_Japanese-KTC)

Morphology

Relations

`PUNCT`: punctuation