翻譯公司:在 eDiscovery 數(shù)據(jù)中查找外語的技巧
Date: 2020-06-09 11:13:15Source: 志遠翻譯
Relativity 博客上發(fā)表了一篇新的 ATA 翻譯文章。
Relativity 是最受律師和法律專業(yè)人士歡迎的電子發(fā)現(xiàn)平臺。我們最近在 Relativity 網(wǎng)站上發(fā)表了一篇博客,強調(diào)了快速識別關(guān)鍵外語信息的三個重要技巧。請看下文。
您是一家大律師事務(wù)所的 eDiscovery 專家。坐在辦公桌前,登錄 Relativity 網(wǎng)站,開始篩選文件。您一直瀏覽著,尋找需要的東西,甚至在截止日期之前就找到了。于是您開始思考午餐吃什么。我要在街對面的那家店買一份 15 美元的沙拉嗎?那我要買披薩嗎?買披薩吧,超值。一整塊披薩,太棒了。
然后,您會看到一個巨大的、看起來像外國文件的緩存。您以為是羅馬尼亞語,但實際上您不懂羅馬尼亞語。您也不懂拉脫維亞語、立陶宛語或波蘭語。可能是其中之一嗎?您的額頭上冒出一粒汗珠,您開始恐慌,在腦海中瀏覽您的選項:
- 要問其中一個伙伴該做什么,請翻到第 17 頁
- 要進入一個 13 小時的網(wǎng)絡(luò)兔子洞,請翻到第 25 頁
- 要跑到停車場在車里哭,請翻到第 33 頁
在審閱過程中盡早識別出外語,對于實現(xiàn)清晰、可預(yù)測的成本、防止不必要的延遲和構(gòu)建有意義的工作流至關(guān)重要。這里有一些簡單的技巧可以幫助您在國外的 eDiscovery 領(lǐng)域暢行。
1.使用外語停止詞
如果您沒有 Relativity Analytics,或者您正在尋找一種快速、簡單的方法來掃描您的數(shù)據(jù)集以尋找某種外語,那么在 dtSearch 中創(chuàng)造性地使用停止詞可能會有所幫助。
停止詞,也稱為噪音詞,是給定語言中使用頻率最高的單詞(例如,在英語中:and、the、my、all、for)。它們通常會從 dtSearch 或關(guān)鍵字搜索中被過濾掉,因為它們非常常見,不會返回有價值的搜索結(jié)果。然而,這些詞頻繁出現(xiàn)也使它們成為查找外語文檔的好方法。
因為可以安全地假設(shè)在任何文本中都可以找到停止詞,所以對停止詞列表的 dtSearch 可能會返回任何外語文檔。例如,如果您認為您的數(shù)據(jù)集可能包含德語,那么搜索德語停止詞將有希望返回任何帶有德語文本的文檔。
請注意,每種語言都有自己獨特的停止詞集,因此與其翻譯英語單詞列表,不如從法律語言服務(wù)專家那里獲得所需外語的停止詞列表。
2.運行語言標(biāo)識
雖然有了停止詞技巧能找到外語文檔,但是這要求您預(yù)先知道數(shù)據(jù)集中有哪些語言,并且如果您搜索的語言不止一種,那么您會感到單調(diào)乏味。對于可能包含多種語言的數(shù)據(jù)集,或者如果您只是想在對任何一種外語進行雙重檢查之后,繼續(xù)您的評審,那么,最好使用完整的語言識別分析。
語言識別運用機器學(xué)習(xí),自動檢測文本中的語言。Realativity Analytics 中的一個特性,它能返回文檔中的主語言和最多兩種次要語言,以及每種語言的百分比。
因此,您可以利用語言識別輸出來指導(dǎo)下一步。構(gòu)建鳥瞰圖面板,以能夠縱觀文檔數(shù)量、管理員數(shù)量和語言控制數(shù)量;按語言批量處理文檔,高效地發(fā)送給外語審校員;然后將外文文本發(fā)送給機器翻譯,這樣您就可以得到英文版要點。無論采用哪種方法,語言識別結(jié)果都將為接下來的審閱工作流程打下基礎(chǔ)。
3.認識到互聯(lián)網(wǎng)是您的朋友——除非它不是
互聯(lián)網(wǎng)的美妙之處在于,您只需點擊一個按鈕就能找到您想要的任何東西。僅利用谷歌搜索可能有的語言中的停止詞,將為您帶來一些快速而可靠的回報。例如,搜索“西班牙語停止詞”,您會看到一個包含 40 多種語言的完整的停止詞列表?;ヂ?lián)網(wǎng)很棒吧?但不要讓它給您一種虛假的安全感。
我們都知道有免費的翻譯工具。您可能認為,簡單地將文檔復(fù)制并粘貼到這些免費引擎之一中,就可以解決語言識別混亂的問題,但在繼續(xù)之前,有幾個重要的問題需要考慮:
- 當(dāng)您考慮到可能要處理的文檔數(shù)量時,復(fù)制和粘貼是非常單調(diào)乏味的。“Ctrl+C,Ctrl+V”在面對成百上千個文檔時并不是一個切實可行的選項。
- 免費的在線翻譯工具并不安全。一旦您將文本輸入其中一個工具,該文本也歸這些工具所有了。在大多數(shù)情況下,您處理的是不應(yīng)該向第三方公開的敏感性文檔。但當(dāng)然,您早已明白這一點。
所以您找到了外語文檔?,F(xiàn)在怎么辦呢?
現(xiàn)在是時候確定這些外文文檔是否相關(guān),是否要優(yōu)先處理或需要其他的處理——換句話說,是時候弄清楚這些文檔的所要表達的意思了。為此,您可能希望與受信任的語言服務(wù)供應(yīng)方合作。選擇一個可靠的供應(yīng)方是另一個話題,但是這里有一些快速的技巧可以幫助您開始:
- 確保他們具備 ISO 認證的質(zhì)量——糟糕的翻譯會造成混亂,浪費您的時間和金錢。保護自己別出現(xiàn)這種情況。選擇一個經(jīng)過 ISO 認證的供應(yīng)方是一個好的開始。
- 確保他們具備豐富的 eDiscovery 經(jīng)驗——多數(shù)情況下是結(jié)合各種工具,如機器翻譯、外語審校、和關(guān)鍵字搜索詞翻譯——這將會優(yōu)化您的時間和成本,所以確保您的供應(yīng)方熟悉于此,以及如何將其適用于這些類型的項目。
- 確保他們熟悉您所選擇的技術(shù)——選擇一個已經(jīng)熟悉您的 eDiscovery 軟件的合作伙伴可以節(jié)省時間,提高安全性,并防止頭痛。有些甚至可能為您的平臺提供專用的應(yīng)用程序,比如 ATA 的 Relativity 插件,為您已知的工具提供專用的支持。
翻譯公司