ỨNG DỤNG NGÔN NGỮ HỌC NGỮ LIỆU TRONG TỪ ĐIỂN HỌC

08/08/2016
PHẠM HIỂN** ThS Ngữ văn, Viện Từ điển học và Bách khoa thư Việt Nam; Email: phamhieniol@gmail.com.

1. Giới thiệu

       Từ điển học quan tâm tới nghĩa và cách sử dụng từ ngữ. Từ điển học truyền thống chỉ khảo sát nghĩa của từ và các từ đồng nghĩa hay trái nghĩa của nó. Với sự phát triển và ứng dụng kho ngữ liệu mạnh mẽ trong thời gian vài thập niên gần đây, những nghiên cứu và ứng dụng đã mở rộng ra nhiều khía cạnh khác của sử dụng từ ngữ như: 1) Sự tương đồng và khác biệt trong sử dụng của các từ trái nghĩa; 2) Sự tương đồng giữa các nghĩa của một từ đa nghĩa; 3) Các từ có liên kết hệ thống với nhau như thế nào; 4) Các từ có liên kết hệ thống với nhau trong các ngữ vực (registers) và phương ngữ cụ thể không. Đây là các vấn đề thường gặp phải của người biên soạn từ điển. Tuy nhiên, những vấn đề tương tự mang tính lí thuyết từ điển học thuần tuý này lại đồng thời là đối tượng nghiên cứu của ngôn ngữ học miêu tả và ngôn ngữ học ứng dụng. Nhiều nhà ngôn ngữ học biện luận rằng các phân tích ngữ pháp thích hợp phải kết hợp chặt chẽ với thông tin từ điển về các từ riêng lẻ (xem Römer & Schulze, 2009). Đối với ngôn ngữ học ứng dụng các nghiên cứu từ điển cung cấp nguồn thông tin quan trọng cho người dạy và học tiếng. Chẳng hạn, trong khi cách tiếp cận truyền thống là nhận diện nhóm từ đồng nghĩa thì với nghiên cứu từ điển học dựa vào ngữ liệu lại cố gắng chỉ ra các từ liên quan được sử dụng theo các cách khác nhau trong ngữ cảnh khác nhau như thế nào.

       Trong các lĩnh vực của ngôn ngữ học có lẽ từ điển là ngành đã có ảnh hưởng lâu nhất của phương pháp dựa vào ngữ liệu. Trong lịch sử từ điển học phương Tây, ngay từ năm 1755 Johnson đã sử dụng kho ngữ liệu văn bản tập hợp các cách dùng khác nhau của từ làm thí dụ trong cuốn từ điển tiếng Anh do ông biên soạn (Johnson, 1755 [1979]). Vào cuối những năm 1800, một tập hợp trích dẫn văn bản đã được thu thập làm cơ sở cho bộ từ điển OED (xuất bản hoàn chỉnh lần 1 năm 1928 và tái bản lần 2 năm 1989, đến tháng 6 năm 2010 đã hoàn chỉnh bản thảo tái bản lần 3 từ vần M đến rococoesque). Tuy nhiên, lối dùng các phiếu ngữ cảnh trích dẫn này khác so với cách tiếp cận dựa trên ngữ liệu hiện nay ở những điểm sau:

       - Các kho ngữ cảnh trước đây không nhằm lấy mẫu mang tính đại diện cho ngôn ngữ liên quan, hoặc không đạt đến yêu cầu đó;

       - Phương pháp lựa chọn và phân tích ngữ cảnh trích dẫn có nhiều hạn chế, ví dụ như lệ thuộc nhiều vào người gạch chọn ngữ cảnh cho nên xảy ra tình trạng những từ có cách sử dụng không bình thường được chú ý hơn các từ có cách sử dụng bình thường (xem thêm phần Chỉ mục ngữ cảnh trong bài này và (Morton, 1994, p. 95));

       - Các cách sử dụng trong khẩu ngữ rất hiếm trong các kho phiếu ngữ cảnh này.

       Ngày nay, nhờ những tiến bộ trong ngành máy tính và công nghệ thông tin, chúng ta có thể có những nghiên cứu lí thuyết và thực hành từ điển dựa trên các kho ngữ liệu. Về cơ bản thuận lợi hơn nhiều so với trước đây ở những điểm sau: (1) Nhờ tốc độ xử lí và dung lượng lưu trữ thông tin của máy tính, hiện nay chúng ta có thể thu thập, lưu trữ và truy xuất các kho ngữ liệu lớn cỡ hàng triệu đến hàng tỉ từ xuất phát từ nhiều nguồn khác nhau; (2) Các thu thập này bao gồm toàn bộ văn bản hoặc đoạn trích lớn của các văn bản chứ không hạn chế là các ngữ cảnh chỉ gồm một hoặc một vài câu như trước đây; (3) Nhờ khả năng lưu trữ nhiều văn bản hơn, chúng ta có thể thiết kế các kho ngữ liệu mang tính đại diện cao hơn cho ngôn ngữ hoặc biến thể ngôn ngữ cần nghiên cứu; (4) Máy tính có thể tìm kiếm tất cả các ngữ cảnh của một từ nhất định trong kho ngữ liệu trong khi con người rất dễ bỏ lỡ nhiều từ khi chọn ngữ cảnh; (5) Máy tính có thể phân tích các khuôn sử dụng, tức là các mô hình các từ đứng cạnh từ nút (node word) và sắp xếp chúng chỉ trong vài phút trong khi đây là một công việc tốn nhiều thời gian và công sức đối với con người (tương tự như công việc sắp xếp phiếu lỗ trước đây).

       Tóm lại, tất cả các đặc trưng như kích cỡ kho ngữ liệu lớn hơn, mang tính đại diện cao hơn, phân tích toàn diện và phức tạp hơn đã cho phép tiến hành các công việc nghiên cứu lí thuyết và thực hành biên soạn từ điển vốn khó khả thi trước đây. Theo Biber, Conrad, & Reppen (1998, pp. 23-24) các nghiên cứu từ điển học dựa trên ngữ liệu ngày nay tập trung vào sáu vấn đề lớn sau:

1. Các nghĩa liên kết với một từ cụ thể là gì?

2. Tần số của một từ liên quan tới các từ khác thế nào?

3. Một từ cụ thể có các khuôn liên kết ngoài ngôn ngữ học nào (thí dụ với ngữ vực (register), các giai đoạn lịch sử, hay phương ngữ)?

4. Các từ thường đi với một từ cụ thể khác là gì, phân bố của các chuỗi đồng hiện (collocation) này trong các ngữ vực là gì?

5. Các nghĩa và cách sử dụng của một từ được phân bố thế nào?

6. Các từ đồng hoặc gần nghĩa được sử dụng và phân phối trong các cách khác nhau như thế nào?

Các vấn đề này giúp chúng ta hiểu được tại sao cách sử dụng từ ngữ của con người lại theo khuôn mẫu một cách hệ thống. Đó là, phần nghĩa mở rộng của một từ là cách nó được sử dụng một cách điển hình liên kết với các từ khác hoặc trong liên kết với các khía cạnh ngoài ngôn ngữ cụ thể. Dưới đây chúng tôi sẽ trình bày các ứng dụng của công nghệ thông tin nói chung và ngôn ngữ học ngữ liệu nói riêng trong công tác nghiên cứu và biên soạn từ điển.

2. Khái niệm kho ngữ liệu và ngôn ngữ học ngữ liệu

       Các kho ngữ liệu thường được miêu tả như là một công cụ và ví sự phát triển kho ngữ liệu như việc phát minh ra kính viễn vọng trong lịch sử thiên văn học (M. Stubbs, 1996, p.231). Có lẽ sẽ chính xác hơn khi nói rằng các kho ngữ liệu là cách thu thập và lưu trữ dữ liệu, và các chương trình truy xuất kho ngữ liệu, tức các chương trình tìm kiếm và thể hiện dưới dạng chỉ mục ngữ cảnh (concordance), các chương trình tính toán tần số và chương trình tìm kiếm và bóc tách đồng hiện từ vựng (collocations) mới chính là công cụ. Stubbs (2000) cho rằng thật là buồn cười khi phê phán kính viễn vọng không phải là kính hiển vi, do đó cũng thật là vô nghĩa để phê phán cách tiếp cận dựa vào kho ngữ liệu vì không thực hiện những việc mà nó không được nhắm tới. Một kho ngữ liệu cần phải cho chúng ta biết một ngôn ngữ liên quan nó như thế nào. Nhiều nhà nghiên cứu nhất trí rằng lí do sử dụng kho ngữ liệu là vì nó cho các hướng dẫn sử dụng ngôn ngữ đáng tin cậy hơn cả trực giác (intuition) ngôn ngữ của một người bản ngữ bình thường (Hunston, 2002). Mặc dù một người bản ngữ có trải nghiệm ngôn ngữ nhiều gấp nhiều lần những gì có trong một kho ngữ liệu lớn nhất, nhưng có rất nhiều tri thức trong các trải nghiệm dó lại vẫn bị ẩn giấu phía sau cái trực giác nội quan đó (xem thêm Cook, 2001). Chẳng hạn, trực giác ngôn ngữ của chúng ta rất yếu trong các việc đưa ra các kết luận trong ngôn ngữ như: nói ra tần số của một từ nào đó, tìm sự đồng hiện hay kết hợp từ vựng, ngôn luật hội thoại (semantic prosody), và cụm từ và thành ngữ (phraseology).

2.1. Chỉ mục ngữ cảnh

       Một trong những nhiệm vụ quan trọng của người biên soạn từ điển là phải tìm ra nghĩa của một từ nhất định là gì và diễn đạt nó ra như thế nào? Theo cách tiếp cận truyền thống, người ta nghĩ ngay đến việc lục tìm nó trong đầu (tức cách tiếp cận nội quan) hoặc tìm nó trong các từ điển khác; xa hơn một chút là tìm nó trong kho phiếu ngữ cảnh trích dẫn (với điều kiện là trước đấy đã xây dựng được kho ngữ cảnh trích dẫn rồi - một công việc tốn nhiều thời gian, công sức và tiền bạc nhưng cũng có hạn chế dưới ánh sáng của ngôn ngữ học ngữ liệu). Cách đầu tiên được chú ý trong từ điển học, và bất cứ nhà từ điển “cứng tay” nào cũng cần có một trực giác ngôn ngữ nhạy bén về cách sử dụng của từ và nghĩa của chúng. Tuy nhiên cách này có những hạn chế như rất dễ bỏ qua nhiều nghĩa hay cách sử dụng nào đó, hoặc mang nhiều tính chủ quan của người biên soạn: mỗi người biên soạn khác nhau sẽ có những ý kiến khác nhau về cái gì là quan trọng hoặc nổi trội. Cách thứ hai có thể dùng nhưng không nên lệ thuộc vào nó quá vì ngôn ngữ, nhất là từ vựng, luôn luôn biến đổi. Cách thứ ba chính là thời kì sơ khai đầu tiên của từ điển học ngữ liệu trước khi có máy vi tính. Các nhà biên soạn từ điển trước đây như Samuel Johnson và James Murray trong từ điển học tiếng Anh; hay như Phòng Từ điển học - Viện Ngôn ngữ học trước đây đã sử dụng một số lượng lớn các phiếu ngữ cảnh trích dẫn như là kho ngữ liệu. Số lượng phiếu ngữ cảnh trích dẫn giúp cho việc biên soạn bộ từ điển đồ sộ OED gồm hơn 20 triệu phiếu, mỗi phiếu là một ví dụ trích dẫn cho cách sử dụng của một từ. Cuốn Từ điển tiếng Việt do Hoàng Phê chủ biên (Hoàng, 1988) được biên soạn dựa trên gần ba triệu phiếu ngữ cảnh trích dẫn cách sử dụng từ cụ thể.

       Thời kì thứ hai của kho ngữ liệu cho từ điển dựa vào khả năng lưu trữ, sắp xếp, và tìm kiếm giống như vai trò của người chọn gạch ngữ cảnh, xếp phiếu và rút phiếu tư liệu trước đây trong kho ngữ cảnh. Tuy nhiên máy tính thực hiện các công việc này khách quan hơn nhiều; người đọc chọn ngữ cảnh có thể chỉ chọn các trích dẫn cho các từ hiếm gặp, hoặc nó được sử dụng theo cách lạ, cho nên các trích dẫn tập trung vào các từ “bất thường” nhưng lại ít chú ý đến các từ “bình thường”. Điều này chính là do chủ quan tính của người đọc chọn ngữ cảnh. Chính J. A. H. Murray (chủ biên đầu tiên của bộ từ điển OED) đã từng phàn nàn rằng “người biên soạn hay trợ lí biên tập đã dành nhiều giờ quý giá để tìm kiếm ví dụ của các từ thông dụng mà người gạch ngữ cảnh đã bỏ qua... Do đó, chúng tôi đã tìm thấy 50 phiếu ngữ cảnh trích dẫn cho từ abusion (lạm dụng - từ cổ) mà chưa đến 5 phiếu cho từ abuse (lạm dụng)” (Murray, 1977, p. 178).

       Ngược lại, máy tính thực hiện công việc này khách quan một cách triệt để. Nó sẽ tìm kiếm và đưa ra tất cả các ngữ cảnh từ chuẩn tắc cho tới ngoại lệ theo yêu cầu từ trong kho ngữ liệu. Một trong những phương pháp và cách tiếp cận cơ bản thường được dùng nhất trong ngôn ngữ học ngữ liệu đó là chức năng tìm kiếm và rút trích dữ liệu dưới dạng chỉ mục từ khoá trong ngữ cảnh (concordance). Nhiều người sử dụng ngữ liệu thường dựa chủ yếu vào chỉ mục ngữ cảnh và cách diễn giải nó. Cách này đặc biệt thích hợp cho những người sử dụng kho ngữ liệu hàng ngày để giảng dạy ngôn ngữ hay dịch thuật, tức là cho những người có phản xạ ngữ cảm với dữ liệu tức thời hơn là dựa vào cách tiếp cận thống kê.

       Chức năng chỉ mục ngữ cảnh sẽ trình bày các ngữ cảnh của từ tìm kiếm theo một bố cục thuận tiện cho việc đọc và diễn dịch, đó là mỗi dòng sẽ trình bày một ngữ cảnh của một từ nút (hay cũng gọi là từ đầu mối) được gióng hàng vào vị trí giữa dòng, như Hình 2 dưới đây. Người sử dụng có thể đọc lướt qua toàn bộ từ khoá đó, có thể bước đầu nắm được nghĩa của từ khoá đó hay từ ghép mà nó đóng vai trò thành phần. Như đã trình bày ở trên, nhiều thông tin rút ra từ việc đọc chỉ mục ngữ cảnh có thể bị bỏ sót nếu chúng ta chỉ dựa vào phương pháp nội quan mà không dựa vào kho ngữ liệu (xem Hình 2).

       Bên cạnh chức năng tìm kiếm và trình bày theo dạng chỉ mục, một số chức năng phức tạp cho phép sắp xếp, lấy mẫu ngẫu nhiên, lọc, xem ngữ cảnh rộng hơn và tìm kiếm nâng cao.

       Sắp xếp: Việc sắp xếp chỉ mục ngữ cảnh có tác dụng lớn vì nó đưa tất cả những trường hợp có dạng thức giống nhau về một chỗ giúp người sử dụng xem xét và xác định nghĩa dễ dàng hơn. Cách thức sắp xếp có thể là sắp xếp từ đầu mối (vì có những truy vấn tìm kiếm nhiều dạng thức khác nhau của một hoặc nhiều từ đầu mối), sắp xếp phía bên trái của từ đầu mối, và sắp xếp phía bên phải của từ đầu mối. Thậm chí, có thể sắp xếp nâng cao phức tạp hơn như sắp xếp ngược, sắp xếp từ thứ hai hoặc ba phía bên trái hoặc bên phải của từ khoá.

       Lấy mẫu ngẫu nhiên: Việc này hữu dụng khi kho ngữ liệu lớn và số lượng ngữ cảnh của một từ đầu mối quá nhiều để người sử dụng có thể xem xét hết được, chẳng hạn, có những từ thông dụng có số lượng ngữ cảnh lên tới hàng chục nghìn dòng chỉ mục ngữ cảnh. Việc lấy mẫu có thể chọn ngẫu nhiên các dòng chỉ mục đó, thí dụ cứ 100 dòng thì lấy một dòng hoặc trong 1000 dòng lấy 10 dòng ngẫu nhiên.

       Lọc: Chức năng lọc có liên quan đến các thông tin siêu dữ liệu của các văn bản trong kho ngữ liệu, chẳng hạn như các thông tin về ngôn ngữ nói và ngôn ngữ viết, thể loại văn bản, thời gian xuất bản của tài liệu, độ tuổi, v.v. (xem Hình 3)

       Mở rộng ngữ cảnh: Thông thường chỉ mục ngữ cảnh cho phép tuỳ biến số lượng kí tự bên phải và bên trái từ khoá, chẳng hạn từ 20 đến 50 hoặc hơn. Đối với người biên soạn từ điển, cửa sổ cho mỗi bên khoảng 25 có thể là đủ. Tuy nhiên, đối với người làm nghiên cứu ngữ pháp hay ngữ dụng hoặc phân tích diễn ngôn thì cửa sổ như vậy có thể là chưa đủ để cung cấp thông tin cho họ. Do đó, các chức năng chỉ mục ngữ cảnh thường cho phép mở ra ngữ cảnh rộng hơn, có thể là toàn bộ văn bản.

       Tìm kiếm nâng cao: Bên cạnh việc có thể tìm kiếm các từ đơn giản, người sử dụng cũng có thể tìm kiếm các ngữ hoặc các cấu trúc phức tạp hơn. Chức năng tìm kiếm tốt cho phép các tìm kiếm phức tạp nhưng vẫn rất thân thiện với người sử dụng (xem Hình 4).

       Đối với người biên soạn từ điển, việc sử dụng chỉ mục ngữ cảnh rút ra từ kho ngữ liệu dường như đáp ứng được rất nhiều yêu cầu trong công việc của họ trước và trong khi tiến hành viết định nghĩa cho mục từ. Tuy nhiên, với khả năng xử lí và lưu trữ tiềm tàng của máy tính hiện nay, cộng với nhu cầu thu thập dữ liệu nhiều hơn, các kho ngữ liệu càng ngày càng lớn hơn. Nếu như thời kì đầu của lịch sử ngôn ngữ học ngữ liệu chỉ có các kho ngữ liệu chứa khoảng một triệu từ thì đến những năm 1990 nó đã là 100 triệu từ (như BNC). Năm 2006 Tập đoàn Dữ liệu ngôn ngữ học (LDC) đã thông báo cho ra đời kho ngữ liệu tiếng Anh cỡ Gigaword, tức là hàng tỉ từ. Các tài liệu trên mạng Internet chắc chắn còn lớn hơn hàng nghìn lần kho ngữ liệu đó. Điều này tốt vì càng có nhiều dữ liệu của một ngôn ngữ ta càng có một bức tranh đầy đủ hơn về ngôn ngữ đó. Tuy nhiên nó cũng gây ra vấn đề xử lí số lượng lớn chỉ mục ngữ cảnh của các từ có tần số sử dụng cao. Để giải quyết vấn đề này Sinclair (1999) đã chủ trương chọn ngẫu nhiên 30 dòng chỉ mục ngữ cảnh rồi tìm ra khuôn sử dụng trong đó, sau đó chọn 30 dòng khác tìm khuôn sử dụng mới, và tiếp tục chọn 30 dòng khác, và cứ như vậy cho tới khi không thấy khuôn sử dụng mới nào nữa. Phương pháp này cũng được cải tiến thành phương pháp “kiểm tra giả thuyết” trong đó chọn lựa một số lượng nhỏ các dòng chỉ mục ngữ cảnh để làm cơ sở cho tập hợp các giả thuyết về một khuôn sử dụng nào đó. Các tìm kiếm khác sau đó sẽ được dùng để kiểm tra những giả thuyết đã lập và rút ra các giả thuyết mới nếu không thấy phù hợp với các giả thuyết trước đó (Gries, 2009, pp. 183-189).

       Chỉ mục ngữ cảnh giúp ích rất nhiều cho người biên soạn từ điển, nhưng “các dòng chỉ mục ngữ cảnh trình bày thông tin; chúng không tự giải thích. Việc giải thích hay diễn dịch nó đòi hỏi trực cảm thấu đáo của người quan sát” (Hunston, 2002, p. 65). Đúng vậy, các dòng chỉ mục ngữ cảnh là công cụ rất hữu ích để khai thác ngữ liệu, nhưng sử dụng chúng tối ưu đến đâu lại phụ thuộc vào khả năng xử lí thông tin của người quan sát, đặc biệt đối với các từ thông dụng vốn có tần số sử dụng rất cao và thường có tần số xuất hiện rất lớn trong kho ngữ liệu. Trong hai phần sau chúng tôi sẽ trình bày hai phương pháp khai thác kho ngữ liệu vượt ra ngoài các dòng chỉ mục ngữ cảnh bao gồm sử dụng danh sách tần số và đồng hiện từ vựng (collocation) - hai phương pháp dùng các tính toán thống kê kho ngữ liệu.

2.2. Danh sách tần số

       Danh sách tần số đơn giản là một danh sách tất cả các từ trong một kho ngữ liệu cùng với số lần từ đó xuất hiện trong đó (các dạng thức khác nhau của từ sẽ được liệt kê riêng đối với các ngôn ngữ biến hình) (xem thêm Barnbrook 1996: 53-54). Danh sách này có thể được trình bày theo trật tự tần số, trật tự alphabet, hoặc trật tự xuất hiện của dạng thức từ trong kho ngữ liệu. Có thể tạo lập danh sách tần số theo điển dạng (type) hoặc hiện dạng (token) của từ trong các ngôn ngữ biến hình. So sánh danh sách tần số của hai kho ngữ liệu có thể cung cấp các thông tin lí thú về sự khác nhau của các văn bản trong mỗi kho ngữ liệu, đặc biệt là so sánh hai kho ngữ liệu chuyên biệt với nhau. Các từ có tần số cao hơn trong kho ngữ liệu được gọi là từ điển hình hay từ khoá (keywords).

       Việc tạo danh sách tần số của một từ nhất định gồm hai giai đoạn:

- tách văn bản thành các từ;

- đếm các dạng thức từ giống nhau.

       Giai đoạn đầu yêu cầu xác định ranh giới giữa các từ để máy có thể hiểu được. Giai đoạn này không đơn giản trong ngôn ngữ đơn lập như tiếng Việt bởi ranh giới từ ghép không được thể hiện bằng dấu hiệu hình thức nào mà chỉ có ranh giới giữa các chữ (hay âm tiết hoặc tiếng) mà thôi. Sau khi văn bản đã được phân tách thành các từ riêng lẻ, chúng có thể được sắp xếp để đếm. Có thể áp dụng hai cách tiếp cận chính để giải quyết việc này. Cách đầu tiên đơn giản hơn gồm 3 bước:

- tạo ra một file chứa tất cả các từ tìm thấy, mỗi từ trên một dòng;

- sắp xếp file này theo trật tự alphabet để tất cả các dạng thức giống nhau xếp dồn lại;

- đếm số lần xuất hiện của từng dạng thức từ xuất hiện trong danh sách mới sắp xếp ở trên.

       Cách thứ hai để thực hiện là sẽ sử dụng bộ nhớ tạm của máy tính để chứa các từ tìm được và tổng số hiện dạng đã có của chúng. Cứ mỗi lần một từ khác được tìm thấy trong bộ nhớ, nó sẽ được kiểm tra xem đã tồn tại dưới dạng thức này chưa. Nếu đã có rồi thì tăng thêm 1, nếu chưa có thì sẽ tạo mới và bắt đầu đếm là 1. Cách này có điểm mạnh là tốc độ xử lí nhanh nhưng lại có hạn chế là sử dụng nhiều bộ nhớ, do vậy, sẽ khó khăn cho xử lí các kho ngữ liệu lớn hoặc đổi lại bộ nhớ của máy tính phải rất lớn. Nói chung, cả hai cách này đều phụ thuộc vào khả năng xử lí và lưu trữ của máy tính (xem thêm (Barnbrook, 1996, pp. 43-64)).

       Dưới đây là 55 từ có tần số cao nhất trích trong kho ngữ liệu gồm bộ ba cuốn sách dạy tiếng Việt cho người nước ngoài do GS Đoàn Thiện Thuật chủ biên (Đoàn, 2004-05). Kích cỡ của kho ngữ liệu này gồm 1.387.286 từ, với tổng số hiện dạng (tokens) là 110,678, tổng số điển dạng (types) là 5,883. Kho ngữ liệu bao gồm 73 bài học được lấy từ nguồn nói trên. Bảng được trình bày theo cách sắp xếp tần số từ cao xuống thấp (xem Bảng 1).

2.3. Đồng hiện từ vựng

       Đồng hiện từ vựng là xu hướng các từ thường xuất hiện với nhau. Chẳng hạn, Hunston đã có quan sát thú vị sau trong tiếng Anh, từ toys (đồ chơi) xuất hiện với từ children (trẻ con) thường xuyên hơn là với từ men (đàn ông) hay women (phụ nữ). Hiện tượng đồng hiện từ vựng này được cho là có lí do (motivated), theo đó có cách giải thích hợp lí cho nó, chẳng hạn trong trường hợp trên toys là dành cho trẻ con chứ không phải cho người lớn. Tuy nhiên, các trường hợp đồng hiện khác lại không được coi là có lí do, như strong tea (chè đặc), strong wine (rượu mạnh), powerful computer (máy tính [cấu hình] mạnh) (xem Halliday & Kress, 1976, p. 73). Đồng hiện từ vựng có thể quan sát được qua các thí dụ trong ngôn ngữ qua phương pháp nội quan (tức là dựa vào trực cảm ngôn ngữ) hay qua quan sát trên văn bản thực tế. Nhưng độ chính xác và tin cậy sẽ cao hơn nếu ta tính toán nó theo phương pháp thống kê với số liệu được rút ra từ kho ngữ liệu. Có thể xem nó như xu hướng đồng hiện của hai từ hoặc xu hướng đồng hiện của một từ thu hút từ kia.

       Các chương trình tính toán đồng hiện từ vựng đều lấy từ nút và đếm các trường hợp của các từ xuất hiện trong một phạm vi (span) cụ thể, chẳng hạn, 5 từ về phía bên trái của từ nút và 5 từ về phía bên phải của từ nút (xem thêm Mason, 2000). Dưới đây là chỉ mục ngữ cảnh với phạm vi là 5-1-5 (tức là 5 từ bên trái của từ nút – từ nút - 5 từ về phía bên phải của từ nút) của từ nút (Xem Hình 5).

       Lí do phải có một lượng dữ liệu lớn để tính đồng hiện là để lấy mọi khả năng đồng hiện từ vựng, kể cả trường hợp ít có ý nghĩa thống kê để so sánh với các đơn vị có ý nghĩa thống kê.

       Như trên đây đã trình bày về danh sách tần số, đối với danh sách tần số thô chúng ta không thể biết được tầm quan trọng chính xác của các con số đó. Chẳng hạn, liệu các từ ở đầu danh sách này quan trọng hơn hay nó có thể xuất hiện với bất cứ từ nào khác? Để trả lời cho câu hỏi này chúng ta có thể sử dụng phương pháp tính toán tầm quan trọng của từng trường hợp đồng hiện từ vựng. Có ba cách tính phổ biến nhất để tính độ quan trọng là: điểm số thông tin hai chiều MI (Mutual information – MI score), điểm số t (t-score), và điểm số z (z-score). Về cách tính thì điểm số t và điểm số z giống nhau hơn, nhưng về kết quả đầu ra thì điểm số z và điểm số MI giống nhau hơn. Có thể tìm hiểu kĩ hơn về vấn đề này trong các tài liệu Church & Hanks (1989), Stubbs (1995), Barnbroo (1996), McEnery & Wilson (2001), Biber et al. (1998), Oakes (1998), Hunston (2002).

       Dưới đây chỉ tập trung vào hai cách tính điểm số t và điểm số MI. Cả hai cách tính này đều phụ thuộc vào: 1) có bao nhiêu trường hợp từ đồng hiện trong phạm vi đã chọn của từ nút (các con số này gọi là giá trị quan sát được – Observed, kí hiệu là O ); có bao nhiêu trường hợp có thể xuất hiện trong phạm vi đó, với tần số của từ đồng hiện là toàn bộ từ trong kho ngữ liệu (các con số này gọi là giá trị kì vọng – Expected, kí hiệu là E). Thêm vào đó, điểm t sử dụng cách tính của độ lệch chuẩn, có tính đến cả xác suất đồng hiện từ vựng của từ nút và các từ đi cùng nó và số hiện dạng (tokens) trong phạm vi đã chọn ở tất cả các dòng.

       Điểm số t được tính bằng cách lấy giá trị quan sát được trừ đi giá trị kì vọng, sau đó chia cho độ lệch chuẩn (standard deviation). Công thức tính như sau:

       Điểm số MI được tính bằng cách lấy giá trị quan sát được chia cho giá trị kì vọng, sau đó chuyển nó về logarit 2. Công thức tính như sau:

       Điểm số MI cho biết độ tin cậy của đồng hiện từ vựng. Nó so sánh sự đồng hiện thực sự của hai đơn vị với các đồng hiện kì vọng được sử dụng trong kho ngữ liệu xuất hiện trong trật tự hoàn toàn ngẫu nhiên. Nói cách khác, điểm số MI tính toán số các trường hợp không ngẫu nhiên khi hai từ xuất hiện cùng nhau. Nếu điểm số MI lớn hơn hoặc bằng 3 thì được coi là có ý nghĩa thống kê. Chẳng hạn, Hunston (2002) đã xác định đồng hiện từ vựng với điểm số MI cao trong kho ngữ liệu Ngân hàng tiếng Anh (Bank of English) như sau: ballpoint (đầu bi)+pen (bút) (điểm số MI là 11,6); distinctly (rõ ràng)+unenthusiastic (không nhiệt tình) (điểm số MI là 12,7); kith (bè bạn)+kin (họ hàng) (điểm số MI là 18,1); hardly (hầu như không, chẳng)+surprising (ngạc nhiên) (điểm số MI là 7,8). Dưới đây là 15 dòng đồng hiện từ vựng của từ gaze có điểm số MI cao nhất (Hunston, 2002, pp. 71-73):

       Bảng sau trình bày 15 đồng hiện từ vựng của từ gaze có điểm số t cao nhất

        thấy có sự khác nhau mặc dù đều tính điểm đồng hiện cho một từ. Sự khác nhau này có thể do các đồng hiện phụ thuộc vào các phần cụ thể trong kho ngữ liệu chúng không xuất hiện, nhưng cũng có thể do tần số thô khác nhau. Ví dụ như trường hợp đồng hiện từ vựng của the (‘mạo từ xác định’) và gaze (nhìn chằm chằm) không có điểm số t cao bởi vì the xuất hiện ở đầu danh sách tần số do nó là một từ có tần số xuất hiện lớn chứ không phải mối liên hệ của nó với từ gaze. Tuy nhiên trong trường hợp của từ his (của anh ấy), điểm số t chứng tỏ rằng đồng hiện từ vựng của từ này với từ gaze không phải chỉ do tần số cao của từ his mà là do sự “ưa thích” từ vựng của nó với từ gaze. His và gaze không có điểm số MI cao bởi vì his cũng đồng hiện cùng với rất nhiều từ khác, nhưng có nhiều trường hợp trong kho ngữ liệu cho sự đồng hiện của chúng do đó chúng có điểm số t cao.

       Như vậy, sự khác biệt cơ bản giữa điểm số MI và điểm số t có thể được tóm lược như sau (xem bảng 2): 

       Các tính toán của điểm số MI và điểm số t đều có giá trị riêng của chúng, và tất nhiên cả hai đều cần phải được hiểu kĩ càng. Hunston (2002) đã minh hoạ luận điểm này bằng cách chọn trong kho ngữ liệu Ngân hàng tiếng Anh (BoE) tất cả các trường hợp “trạng từ (adverd) đi trước từ significant (quan trọng, đáng chú ý, có ý nghĩa)” sau đó chọn các thông tin về cường độ (strength) và độ chắc chắn (certainty) của đồng hiện giữa các trạng từ và từ significant. Những đồng hiện từ vựng đầu tiên theo thang điểm số MI (tức là các đồng hiện mạnh mẽ nhất) là các từ radiologically (thuộc về tia X quang), statistically (thuộc về thống kê), electorally (thuộc về bầu cử), militarily (về quân đội), symbolically (mang tính tượng trưng). Những từ này gợi nhắc cho chúng ta nhớ rằng significant có các ý nghĩa cụ thể trong các lĩnh vực học thuật khác nhau, và mục đích của trạng từ có thể để nói rõ rằng “có ý nghĩa ở loại gì” trong từng hoàn cảnh cụ thể đó. Tuy nhiên, mặc dù sự đồng hiện từ vựng mạnh mẽ cũng không phải tất cả đều chắc chắn. Chẳng hạn, trường hợp electorally significant chỉ xuất hiện 5 lần trong toàn bộ kho ngữ liệu. Các đồng hiện xuất hiện đầu danh sách theo thang điểm số t (tức các đồng hiện chắc chắn nhất) là các từ more (hơn), most (nhất), very (rất), statistically (thuộc về thống kê), highly (rất, lắm, cao), not (không), particularly (đặc biệt). Những từ này ít mang tính kĩ thuật hơn và cho chúng ta biết ít hơn về “cái gì có ý nghĩa” ở đây. Trái lại, nó chỉ ra rằng từ significant thường được dùng trong các so sánh và các trạng từ nào thường được sử dụng với nó nhất. Sự xuất hiện của cụm từ statistically significant (có ý nghĩa thống kê) trong cả hai danh sách cho thấy nó quan trọng trong tất cả các danh sách. Nó vừa là một đồng hiện từ vựng mạnh mẽ vừa là một đồng hiện từ vựng chắc chắn.

        Một điểm cần chú ý nữa khi tính toán đồng hiện từ vựng là trong một số trường hợp chúng cần có một phạm vi rộng hơn bình thường. Điều này đặc biệt cần thiết khi tính toán các đồng hiện mệnh đề (clause collocations) khi xu hướng một loại mệnh đề xuất hiện cùng với một mệnh đề khác. Chẳng hạn, mệnh đề bắt đầu với không những có thể xuất hiện với các mệnh đề bắt đầu với mà, mà còn, mà ... Còn (xem hình 6).

ABSTRACT
For all lexicographers, a preparation of linguistic corpora is the first and very important job. However, how to use the corpora appropriately and effectively plays a decisive role in making dictionaries. The author discusses some issues of corpora and corpus linguistics. Hopefully it is of help to the dictionary making with the application of information technology.
[Xem tiếp kì sau: 3. Vai trò của ngữ liệu trong việc cải thiện nội dung từ điển]